Recenzja Gemini Live: Ulepszony asystent zablokowany przez swój model AI
Co warto wiedzieć
- Gemini Live to imponująca funkcja cyfrowego asystenta głosowego z 10 różnymi głosami, szybkimi odpowiedziami w formie konwersacji i transkrypcjami czatów.
- Niestety, jego odpowiedzi są blokowane przez podstawowy model AI. Mowa Gemini Live może być również nieco zbyt formalna, a jego odpowiedzi wydają się okrojone.
- Poleganie na Gemini Live jest głupie. Co gorsza, płacenie za to 20$.
Dostępna w ramach subskrypcji Gemini Advanced, funkcja Gemini Live jest najczęściej omawianą funkcją od czasu jej zaprezentowania na wydarzeniu Made by Google 2024, co oznacza, że nawet premiera Pixela 9 została sprowadzona do przypisu. Jednak wczesne recenzje, choć początkowo imponujące, nie są na jej korzyść.
Więc, jak większość recenzentów technologii, postanowiłem sam wypróbować Gemini Live i zobaczyć, o co w tym wszystkim chodzi. Dla zwięzłości nie opowiem wam wszystkiego, o czym mówiłem (kto ma czas?). Ale zrozumiecie ogólny zarys.
Gemini Live – zaawansowany asystent cyfrowy ograniczony przez swój model AI
Teraz Gemini Live nie jest darmowe, ani nie posiadam Pixela 9, który jest dostarczany z roczną subskrypcją Gemini Advanced za darmo. Więc dostałem bezpłatny okres próbny i Gemini Live było dostępne dla mnie od razu, co jest fajne.
Ale czy opłata abonamentowa w wysokości 20 USD za Gemini Live jest tego warta? Przekonajmy się.
Co jest dobrego w Gemini Live?
Gemini Live ma 10 głosów i możesz łatwo wybrać swój z ustawień Gemini. Ale pamiętaj, że Google wymaga ustawienia języka angielskiego (Stany Zjednoczone) jako domyślnego, aby móc to zrobić, co jest bezmyślnym wymogiem. Mam na myśli, że jest tam brytyjski głos (Capella).
W każdym razie głosów jest wystarczająco dużo na każdy dzień tygodnia, a nawet więcej.
Moje pierwsze wrażenia z Gemini Live, podobnie jak u wszystkich innych, były pozytywne. Biorąc pod uwagę sztuczne, syntetyczne głosy Google’a z dawnych lat, Gemini Live to powiew świeżości. Głosy są jednak nieco formalne – nie usłyszysz zbyt wielu „yyy” i „yyy” (i innych wtrąceń). Z tego powodu i z innych podprogowych powodów uznałem głosy za nieco beznamiętne i powściągliwe, prawdopodobnie po to, aby użytkownicy nie tworzyli więzi emocjonalnych – czego OpenAI obawia się w przypadku własnego trybu głosowego ChatGPT, który nadal jest o wiele lepszy.
Odpowiedzi pojawiają się szybko, więc faktycznie czujesz się, jakbyś rozmawiał z przyjacielem na telefonie. Ale w przeciwieństwie do przyjaciela, którego opowieści nigdy się nie kończą, możesz przerwać Gemini w dowolnym momencie. Być może już o tym wiedziałeś. Ale nadal warto o tym wspomnieć, ponieważ możesz mu powiedzieć, żeby się odczepił, jeśli zacznie wygadywać coś, o czym wiesz, że jest niepoprawne (więcej o tym później).
Gdy tylko zakończysz rozmowę, znajdziesz transkrypt gotowy i dostępny do przeczytania. Dla mnie to jedna z najlepszych funkcji. Naprawdę pomaga sprawdzić, jak rozmowa wygląda w tekście i udostępnić ją innym.
Pole do poprawy
Są rzeczy, które Gemini Live robi dobrze. Ale ma też wiele niewykorzystanego potencjału.
Po pierwsze, rozmowy z Gemini Live są niewątpliwie krótkie. Kiedy zadajesz pytanie, Gemini Live odpowie w jak najmniejszej liczbie słów, jakby było zajęte obsługą innych osób. Nie znajdziesz w nim rozmów pobocznych ani rzucania się z tobą, co wielu powiedziałoby, że jest dobrą rzeczą. Ale czy wszystkie idee można przedstawić prosto i na temat, pomimo brzytwy Ockhama?
Na przykład poprosiłem go o porównanie Pegaza (ponieważ używałem tego głosu) z Ikarem (oba są częścią mitów greckich). Chociaż jest kilka węzłów porównania, Gemini Live udzieliło mi krótkich, rzeczowych odpowiedzi. Przytoczyłem Hanumana (z mitu hinduskiego), aby nadać mu inny kąt porównania. I znowu, nie więcej niż kilka zdań. Stało się frustrujące.
Po wielu próbach zmuszenia go do powiedzenia czegoś więcej, zapytałem, czy istnieje ustawienie, które pozwala mi dostosować jego gadatliwość. Powiedziało mi, że nie jest w stanie tego zmienić, ale bardzo autorytatywnie udzieliło mi instrukcji, jak mogę to zrobić samodzielnie, których głupio przestrzegałem, ponieważ takie ustawienie nie istnieje.
Co sprowadza mnie do…
Gdzie cierpi?
Tendencja Gemini do zmyślania i halucynacji nie wzbudziła zaufania użytkowników. W przeszłości ściągnęła też sporo krytyki za błędy w generowaniu obrazu. Jakkolwiek niefortunne by to nie było, mimo że modalność uległa zmianie, a podstawowy model został zaktualizowany do Gemini 1.5 Flash, problem ten nadal występuje w Gemini Live.
Chociaż w większości odpowiedzi opierają się na faktach, od czasu do czasu zdarza się, że odpowiedź zostanie wymyślona bez pokrycia.
Z pewnością można by argumentować, że oddanie głosu AI wzbudza większe zaufanie wśród użytkowników. A dzięki ludzkim głosom o wiele łatwiej jest zaufać AI i dać się uwieść pewności siebie, z jaką przedstawiane są odpowiedzi. Ale jeśli nie jesteś czujny lub nie sprawdzasz faktów w wątpliwych odpowiedziach, możesz się dać nabrać, tak jak ja.
Technologia rozwija się szybciej, niż ktokolwiek się spodziewał, ale chatboty są tak samo podatne na halucynacje, jak zawsze. Więc nawet po poznaniu skłonności AI do dostarczania złych informacji, jeśli nadal będziesz ślepo na nią polegać, być może to nie sztuczna inteligencja jest ci potrzebna.
Powiedz to razem ze mną: Jeśli oszukasz mnie raz, wstyd ci; jeśli oszukasz mnie dwa razy, wstyd mi.
Jak Gemini Live wypada w porównaniu z zaawansowanym trybem głosowym ChatGPT?
Teraz rozważmy słonia w pokoju. Jak Gemini Live wypada w porównaniu z zaawansowanym trybem głosowym ChatGPT? Prawdę mówiąc, Gemini Live po prostu nie jest tak rozwlekły, angażujący ani zabawny jak tryb głosowy ChatGPT. Chociaż ten ostatni może być trochę zbyt angażujący (nawet zalotny) i niepokojąco ludzki, ze wszystkimi swoimi zastanawiającymi dźwiękami i manierami, przynajmniej służy jako narzędzie do zabawy. Z drugiej strony Gemini Live traktuje siebie zbyt poważnie, co może nie działać na jego korzyść, zwłaszcza że jego odpowiedzi są upośledzone przez model AI.
Ale być może największą różnicą między nimi jest to, że Gemini Live interpretuje mowę jako tekst i następnie odpowiada, podczas gdy tryb głosowy ChatGPT przetwarza mowę bezpośrednio.
Werdykt
Gemini Live to świetne narzędzie i wyraźny krok naprzód w stosunku do starego Asystenta Google. Możliwość wywołania go z ekranu blokady jest przydatna, a 10 głosów ma wystarczająco dużo zalet. Ale byłoby szaleństwem polegać na nim w przypadku czegokolwiek profesjonalnego. Osobiście wolałbym przekazać pieniądze na cele charytatywne, o których nic nie wiem, niż zapłacić 20 USD za sam Gemini Live. Na szczęście subskrypcja Gemini Advanced ma inne korzyści.
W obecnej sytuacji dobrze jest postrzegać AI, niezależnie od jej modalności, jako ozdrowieńca ze schizofrenii. Jest coraz lepiej, ale nadal jest podatny na nawroty. Jedyną różnicą jest to, że nie masz schizofrenika w kieszeni, ani nie zapłacisz za jego zdobycie.
Co sądzisz o Gemini Live? Czy uważasz, że Google ograniczy tę pochlebną recenzję? Daj nam znać w komentarzach poniżej.
Dodaj komentarz