Co to jest Gemini 1.5? Co musisz wiedzieć
W opublikowanym w czwartek poście na blogu Google ogłosił wypuszczenie Gemini 1.5, modelu sztucznej inteligencji nowej generacji, który zapewnia znaczną poprawę wydajności i efektywności. Wśród ulepszeń znajduje się możliwość przetwarzania i rozumienia ogromnych ilości informacji, do 1 miliona tokenów jednocześnie.
Co to jest Gemini 1.5?
Opierając się na sukcesie Gemini 1.0, najnowsza iteracja wykorzystuje nową architekturę Mixture-of-Experts (MoE), która dzieli model sztucznej inteligencji na mniejsze wyspecjalizowane sieci. Google twierdzi, że pozwala to na bardziej wydajne przetwarzanie i szkolenie przy jednoczesnym zachowaniu wysokiej wydajności. Z tego powodu Gemini 1.5 będzie w stanie obsługiwać dane wejściowe multimodalne, w tym tekst, obrazy, dźwięk i wideo, z większą dokładnością i zrozumieniem.
Jedną z godnych uwagi cech nowego modelu jest rozszerzone okno kontekstowe. Podczas gdy poprzedni model mógł obsłużyć tylko do 32 000 tokenów, Gemini 1.5 może przetworzyć aż do 1 miliona tokenów. Umożliwia to przetwarzanie, analizowanie i analizowanie większej ilości tekstu, kodu, wideo i audio, nawet jeśli zostaną dodane w jednym wierszu.
Rozszerzone okno kontekstowe odblokowuje nowe funkcjonalności:
- Rozumienie multimodalne : model może przetwarzać różne typy multimediów, np. analizować fabułę niemego filmu na podstawie samych materiałów wizualnych.
- Odpowiednie rozwiązywanie problemów : Gemini 1.5, prezentowany z dużymi bazami kodu, może sugerować modyfikacje i wyjaśniać, w jaki sposób różne części współdziałają.
Google ujawniło również, że Gemini 1.5 przewyższa Gemini 1.0 Pro w 87% zadań i dorównuje wydajnością Gemini 1.0 Ultra, nawet przy większym oknie kontekstowym.
Dostęp i dostępność
Google oferuje programistom i klientom korporacyjnym ograniczoną wersję zapoznawczą Gemini 1.5 Pro z oknem kontekstowym zawierającym 128 000 tokenów. Kwalifikujący się użytkownicy mogą również bezpłatnie przetestować okno zawierające 1 milion tokenów, ale z dłuższym opóźnieniem. Firma planuje także wprowadzenie w przyszłości poziomów cenowych opartych na rozmiarze okna kontekstowego.
Wersja demonstracyjna Gemini 1.5 Pro od Google
Oto film udostępniony przez Google w YouTube, który prezentuje zdolność rozumienia długiego kontekstu poprzez interakcję na żywo z wykorzystaniem 402-stronicowej transkrypcji w formacie PDF i podpowiedzi multimodalnych. Demonstracja polega na ciągłym rejestrowaniu reakcji modelu ze wskazaniem czasu reakcji. Całkowita liczba tokenów dla wejściowego pliku PDF (326 658 tokenów) i obrazu (256 tokenów) wynosi 326 914, podczas gdy dane wejściowe tekstowe zwiększają łączną liczbę do 327 309 tokenów.
Dodaj komentarz