So verwenden Sie Sprach- und Bildansagen in ChatGPT

So verwenden Sie Sprach- und Bildansagen in ChatGPT

Was Sie wissen sollten

  • Ab dem 27. September 2023 können Benutzer von ChatGPT Plus und Enterprise nun über Bild- und Sprachansagen mit dem Chatbot interagieren und seine Antwort mit menschenähnlichen Stimmen hören.
  • Um Bilder in Eingabeaufforderungen einzugeben, tippen Sie auf das Kamera- oder Galeriesymbol links neben dem Nachrichtenfeld und nehmen Sie ein Bild auf oder wählen Sie es aus. Sie können auch auf dem Bild zeichnen, um anzugeben, wo ChatGPT den Fokus legt.
  • Um den Sprachmodus zu verwenden, aktivieren Sie den Sprachmodus unter ChatGPT-Einstellungen > Neue Funktionen.
  • Starten Sie ein Sprachgespräch, indem Sie auf die Kopfhörertaste in der oberen rechten Ecke tippen und eine Stimme auswählen.
  • Mit ChatGPT können Sie aus fünf verschiedenen menschlichen Stimmen wählen.

Fast ein Jahr nach seiner Einführung fügt OpenAI weiterhin Funktionen hinzu, um nicht nur die Möglichkeiten von ChatGPT, sondern auch die Art und Weise, wie Sie es verwenden, zu verbessern. Mit einem aktuellen Update können Sie ChatGPT jetzt Sprachbefehle und Bilder als Aufforderungen geben und Ihre Antworten mit menschlichen Stimmen vorlesen, was im Wesentlichen ein Hin- und Her-Gespräch zwischen Ihnen und dem KI-Chatbot erleichtert.

Hier finden Sie alles, was Sie darüber wissen müssen, wie Sie auf diese neuen ChatGPT-Modi zugreifen und sie nutzen können und wie sie eine engere Integration der KI in unser Leben vorantreiben.

ChatGPT erhält Sprachmodus und Vision

Die ChatGPT-App kann bereits aufgezeichnete Sprachansagen in Text übersetzen. Aber die Unterstützung direkter Sprachgespräche ermöglicht jetzt eine Interaktion, ohne dass Text von beiden Seiten erforderlich ist, was die Plattform deutlich flexibler macht.

Die Sprachfunktion funktioniert wie erwartet: Sie tippen auf den Bildschirm und beginnen zu sprechen. Die Wörter werden dann in Text umgewandelt und an das LLM gesendet. Die Antwort wird wieder in Sprache umgewandelt und schließlich mit einer Stimme Ihrer Wahl vorgelesen.

OpenAI hat mit professionellen Schauspielern zusammengearbeitet, um fünf verschiedene Stimmen bereitzustellen, die den Antworten eine authentische Note verleihen und gleichzeitig Gespräche auf natürliche Weise anregen.

Auf der anderen Seite gibt es Image Prompt, mit dem Sie, wie der Name schon sagt, Bilder von Ihrer Kamera oder Galerie hinzufügen und Fragen dazu stellen können. Dies ähnelt Google Lens, allerdings mit zuverlässigeren Antworten dank der fortschrittlichen GPT-Architektur.

So rufen Sie ChatGPT mit Sprachbefehlen auf

Der Sprachmodus eröffnet einen neuen Gesprächsmodus, der jedoch noch nicht für alle verfügbar ist. OpenAI führt sie vorerst ausschließlich für ChatGPT Plus- und Enterprise-Benutzer ein. Es ist außerdem nur in der mobilen App von ChatGPT für iOS und Android verfügbar, nicht in der Desktop-Version. Sie können den Sprachmodus unter „Einstellungen“ > „Neue Funktionen“ aktivieren.

Um den Sprachmodus zu verwenden, tippen Sie auf das Kopfhörersymbol in der oberen rechten Ecke des Startbildschirms und wählen Sie eine Stimme aus den fünf verfügbaren Optionen aus.

Sobald das Gespräch beginnt, beginnen Sie, in das Mikrofon zu sprechen.

Die Sprachansage wird gesendet, sobald Sie aufhören zu sprechen.

Sie können auch in die Mitte tippen, um Ihre Aufforderung manuell zu senden.

Mit den Pause- und Stopp-Tasten können Sie die Aufnahmen weiter steuern.

ChatGPT übermittelt seine Antwort nun in der von Ihnen gewählten Stimme. Um eine Antwort zu unterbrechen, tippen Sie einfach in die Mitte, während sie gesprochen wird.

Sobald die Antwort vollständig ist, können Sie erneut mit dem Sprechen beginnen und das Gespräch fortsetzen.

Beenden Sie den Chat, indem Sie unten auf das X tippen.

So rufen Sie ChatGPT mit Bildern auf

Wenn man bedenkt, dass andere KI-Chatbots dies bereits nutzen, wird die Bildaufforderung zu einer wichtigen Funktion, die neben dem Sprachmodus auf die Plattform gebracht werden muss. Auch es steht ausschließlich ChatGPT Plus- und Enterprise-Benutzern zur Verfügung. Aber glücklicherweise wird es auch auf die Desktop-Version ausgeweitet.

Tippen Sie zum Starten auf das Kamerasymbol in der unteren linken Ecke.

Nehmen Sie das Bild auf.

Und tippen Sie auf „Bestätigen“.

Das Bild wird im Nachrichtenfeld hochgeladen. Geben Sie den dazugehörigen Text ein und klicken Sie auf „Senden“.

ChatGPT durchsucht die Bild- und Textaufforderungen und reagiert entsprechend. Möglicherweise werden Sie sogar zu weiteren visuellen Referenzen aufgefordert.

Zeichnen Sie auf das Bild, um ChatGPT aufzufordern, sich auf ein Objekt zu konzentrieren

Sie können auch auf das Bild zurückgreifen, um die Aufmerksamkeit von ChatGPT zu lenken.

Neben der Kamera haben Sie auch die Möglichkeit, Bilder aus der Galerie oder Ordnern hinzuzufügen. Tippen Sie auf das „+“-Zeichen, um weitere Bildaufforderungsoptionen anzuzeigen.

Wählen Sie dann eine andere Möglichkeit zum Hochladen von Bildern.

Wählen Sie ein Bild aus.

Sie können einer Eingabeaufforderung mehrere Bilder hinzufügen.

Setzen Sie Ihre Gespräche mit Folgebildern und Textanfragen fort. Oder wechseln Sie zur Sprachausgabe und sprechen Sie Ihre Fragen passend zu den Bildern.

Weitreichende Vorteile der Sprach- und Bildfunktionen von ChatGPT

Die Implementierung natürlicher menschlicher Stimmen – oder eine genaue Reproduktion davon – kann eine Vielzahl realer Möglichkeiten und Szenarien ermöglichen.

Sie können beispielsweise Fotos von Ihrem Essen machen und sich von ChatGPT eine Schätzung Ihrer Kalorienaufnahme geben lassen, sich eine Gute-Nacht-Geschichte in einer Ihrer bevorzugten Stimmen vorlesen lassen, auditives Lernen eröffnen oder DAN damit planen. Auch wenn man damit nicht unbedingt eine Beziehung eingehen kann wie in den Filmen (da fällt mir „Her“ von Spike Jones ein), ist der Film im Grunde genommen unheimlich nah dran.

Eine KI mit einer menschenähnlichen Stimme öffnet nicht nur Türen zu neuartigen Anwendungsfällen, sondern ermöglicht OpenAI auch die Zusammenarbeit mit Diensten wie Spotify und anderen, um neue KI-basierte Funktionen für ihre eigenen Plattformen zu entwickeln.

FAQ

Betrachten wir einige häufig gestellte Fragen zu den neuen Sprach- und Bildfunktionen von ChatGPT.

Wie aktiviere ich den Sprachmodus und Bildansagen in ChatGPT?

Um die Sprach- und Bildmodi in ChatGPT zu verwenden, tippen Sie auf die drei horizontalen Linien und wählen Sie Einstellungen > Neue Funktionen. Stellen Sie sicher, dass Sie über einen ChatGPT Plus- oder Enterprise-Plan verfügen und GPT-4 verwenden.

Warum kann ich in den ChatGPT-Einstellungen keine neuen Funktionen finden?

Wenn die Option „Neue Funktionen“ nicht angezeigt wird, muss Ihr Gerät das neue Update noch erhalten. Suchen Sie im App Store oder im Play Store nach Updates für die App. Obwohl die Funktion live ist, hat OpenAI angekündigt, sie in den nächsten Wochen für Benutzer bereitzustellen.

Die Fähigkeit, mit Sprache zu interagieren und Bildaufforderungen zu geben, bringt die Pioniere der generativen KI zurück in den Kampf gegen Bots. Obwohl sowohl Bing AI als auch Bard über ähnliche Funktionen verfügen, konnten sie Multimodalität nicht auf vernetzte und umfassende Weise implementieren. Bing AI kann seine Antwort nicht vorlesen und Bard hat noch keine eigenständige App erhalten. Da die Giganten ein wenig hinterherhinken, wird ChatGPT versuchen, sich und seinen Nutzern Schwung zu verschaffen.

Wir hoffen, dass sich dieser Leitfaden als hilfreich erwiesen hat, um zu verstehen, wie Sie die neuen Sprach- und Bildmodalitäten auf ChatGPT nutzen können. Bis zum nächsten Mal!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert