Was ist Gemini 1.5? Was du wissen musst
In einem am Donnerstag veröffentlichten Blogbeitrag kündigte Google die Veröffentlichung von Gemini 1.5 an, seinem KI-Modell der nächsten Generation, das erhebliche Verbesserungen bei Leistung und Effizienz verspricht. Zu den Verbesserungen gehört die Fähigkeit, große Informationsmengen zu verarbeiten und zu verstehen, bis zu 1 Million Token gleichzeitig.
Was ist Gemini 1.5?
Aufbauend auf dem Erfolg von Gemini 1.0 nutzt die neueste Version eine neue Mixture-of-Experts (MoE)-Architektur, die das KI-Modell in kleinere spezialisierte Netzwerke unterteilt. Laut Google ermöglicht dies eine effizientere Verarbeitung und Schulung bei gleichzeitig hoher Leistung. Aus diesem Grund wird Gemini 1.5 in der Lage sein, multimodale Eingaben, einschließlich Text, Bilder, Audio und Video, mit besserer Genauigkeit und besserem Verständnis zu verarbeiten.
Eines der bemerkenswerten Features des neuen Modells ist das erweiterte Kontextfenster. Während das Vorgängermodell nur bis zu 32.000 Token verarbeiten konnte, kann Gemini 1.5 bis zu 1 Million Token verarbeiten. Dies ermöglicht die Verarbeitung, Analyse und Schlussfolgerung über eine größere Menge an Text, Code, Video und Audio, selbst wenn diese in einer einzigen Eingabeaufforderung hinzugefügt werden.
Das erweiterte Kontextfenster schaltet neue Funktionalitäten frei:
- Multimodales Verständnis : Das Modell kann verschiedene Medientypen verarbeiten, beispielsweise die Handlung eines Stummfilms allein anhand von Bildern analysieren.
- Relevante Problemlösung : Bei großen Codebasen kann Gemini 1.5 Modifikationen vorschlagen und erklären, wie verschiedene Teile interagieren.
Google hat außerdem bekannt gegeben, dass Gemini 1.5 Gemini 1.0 Pro bei 87 % der Aufgaben übertrifft und die Leistung von Gemini 1.0 Ultra erreicht, selbst mit seinem größeren Kontextfenster.
Zugang und Verfügbarkeit
Google bietet Entwicklern und Unternehmenskunden eine begrenzte Vorschau von Gemini 1.5 Pro mit einem Kontextfenster von 128.000 Token an. Die berechtigten Benutzer können das 1-Millionen-Token-Fenster auch kostenlos testen, jedoch mit längerer Latenz. Das Unternehmen plant außerdem, in Zukunft Preisstufen einzuführen, die auf der Größe des Kontextfensters basieren.
Gemini 1.5 Pro Demo von Google
Hier ist ein Video, das Google auf YouTube geteilt hat und das seine langjährige Fähigkeit zum Kontextverständnis durch eine Live-Interaktion unter Verwendung eines 402-seitigen PDF-Transkripts und multimodaler Eingabeaufforderungen demonstriert. Die Demonstration beinhaltet eine kontinuierliche Aufzeichnung der Reaktionen des Modells mit Angabe der Reaktionszeiten. Die Gesamttokenanzahl für die Eingabe-PDF (326.658 Token) und das Bild (256 Token) beträgt 326.914, während die Texteingaben die Gesamtzahl auf 327.309 Token erhöhen.
Schreibe einen Kommentar