Gemini Live レビュー: AI モデルによって妨げられた改良されたアシスタント
知っておくべきこと
- Gemini Live は、10 種類の音声、素早い会話応答、チャットのトランスクリプトを備えた優れたデジタル アシスタントの音声モード機能です。
- 残念ながら、その応答は基盤となる AI モデルによって妨げられています。また、Gemini Live のスピーチは少し形式的すぎる場合があり、応答が切り詰められているように感じられます。
- Gemini Live に頼るのは愚かなことです。さらに悪いことに、それに 20 ドルも支払うことになります。
Gemini Advanced サブスクリプションで利用できる Gemini Live は、Made by Google 2024 イベントで発表されて以来、最も話題になっている機能であり、Pixel 9 の発売さえも単なる脚注に追いやっています。しかし、初期のレビューでは、最初は感銘を受けたものの、好意的な評価は得られていません。
そこで、ほとんどの技術評論家と同じように、私も Gemini Live を自分で試してみて、一体どんなものなのか調べてみることにしました。簡潔にするため、私が話したことのすべてをお伝えするつもりはありません (そんな時間がある人がいるでしょうか?)。しかし、大体のことは理解していただけると思います。
Gemini Live – AIモデルにハンディキャップのある高度なデジタルアシスタント
さて、Gemini Live は無料ではありませんし、私は 1 年間の Gemini Advanced サブスクリプションが無料で付属する Pixel 9 も所有していません。そこで、無料トライアルを取得して、Gemini Live をすぐに利用できるようになりました。これは便利です。
しかし、Gemini Live の 20 ドルのサブスクリプション料金は価値があるのでしょうか? 調べてみましょう。
Gemini Live の良いところは何ですか?
Gemini Live には 10 種類の音声が用意されており、Gemini の設定から簡単に選択できます。ただし、Google では、これを有効にするには英語 (米国) をデフォルトに設定することを要求しており、これは無意味な要件です。イギリスの音声 (Capella) がすぐそこにあります。
いずれにしても、週のどの日にも十分な音声があり、さらにそれ以上あります。
Gemini Live の第一印象は、他の皆さんと同様、好印象でした。Google の古いぎこちない合成音声を考えると、Gemini Live は新鮮なものです。ただし、音声は少し堅苦しい感じがします。えーっと、あー、といった間投詞 (およびその他の間投詞) はあまり聞こえません。このため、および他の潜在的な理由により、音声が少し冷淡で控えめに感じました。おそらく、ユーザー同士が感情的なつながりを結ばないようにするためでしょう。OpenAI は、ChatGPT 独自の音声モードでも同様の事態になるのではないかと懸念していますが、それでも音声モードのほうがはるかに優れています。
応答はすぐに返ってくるので、実際に電話で友達と話しているような感覚になります。しかし、話が尽きることのない友達とは違い、Gemini ではいつでも話を中断できます。おそらく、すでにご存知でしょう。しかし、間違っているとわかっていることを言い始めたら、Gemini に黙るように指示できるため、言及する価値はあります (これについては後で詳しく説明します)。
会話を終えるとすぐに、トランスクリプトが用意され、読むことができます。私にとって、これは最高の機能の 1 つです。会話がテキストでどのようになっているかを確認し、他の人と共有するのに非常に役立ちます。
改善の余地あり
Gemini Live には優れた点がいくつかあります。しかし、未開発の可能性も数多くあります。
まず、Gemini Live との会話は間違いなく短いです。質問すると、Gemini Live は、他の人の要求に応えようとしているかのように、できるだけ少ない言葉で答えます。話が脱線したり、言い訳をしたりすることはなく、多くの人がそれを良いことだと言うでしょう。しかし、オッカムの剃刀にもかかわらず、すべてのアイデアを簡潔かつ要点を絞って述べることができるのでしょうか?
たとえば、ペガサス(その声を使っていたので)とイカロス(どちらもギリシャ神話の登場人物)を比較するように頼みました。比較のノードはいくつかありますが、Gemini Live は簡潔で要点を押さえた回答を返しました。別の角度から比較するために、ハヌマーン(ヒンドゥー教の神話の登場人物)を持ってきました。そして、これもまた、数文しか返ってきませんでした。イライラしてきました。
もっと詳しく話してもらおうと何度も試みた後、詳細度を調整できる設定があるかどうか尋ねました。詳細度を変更することはできないと言われましたが、自分で変更する方法を非常に権威的に指示されました。そのような設定は存在しないため、私は愚かにもそれに従いました。
さて、それでは…
どこが苦しんでいるのでしょうか?
Gemini は、作り話や幻覚を起こす傾向があるため、ユーザーの間で信頼を得ることはあまりできませんでした。また、過去には画像生成の失敗で多くの非難を浴びました。残念なことに、モダリティは変わり、基盤モデルは Gemini 1.5 Flash に更新されましたが、この問題は Gemini Live で依然として多く発生しています。
ほとんどの場合、その応答は事実情報に基づいていますが、時々、何もないところから答えが生成されることもあります。
AI に声を与えることで、ユーザー間の信頼が高まるという主張は、確かに成り立つ。そして、人間のような声であれば、AI を信頼し、自信を持って提示される回答に心を動かされるのがずっと簡単だ。しかし、用心深くなかったり、疑わしい回答を事実確認しなかったりすると、私のように騙されてしまうかもしれない。
テクノロジーは誰もが予想していたよりも急速に発展していますが、チャットボットは相変わらず幻覚を起こしやすいです。ですから、AI が誤った情報を提供する傾向があることを知った後でも、盲目的に AI に依存し続けるのであれば、必要なのは人工知能ではないのかもしれません。
一緒に言いましょう。一度騙されたらあなたの恥、二度騙されたら私の恥。
Gemini Live は ChatGPT の高度な音声モードと比べてどうですか?
さて、ここで重要な点について考えてみましょう。Gemini Live は ChatGPT の高度な音声モードと比べてどうでしょうか。正直に言うと、Gemini Live は ChatGPT の音声モードほど冗長でなく、魅力的でもなく、面白くもありません。後者は、その熟考する音や癖など、少し魅力的すぎ (いちゃつきすぎ)、不気味なほど人間的だったかもしれませんが、少なくとも楽しむためのツールとして役立ちます。一方、Gemini Live は、あまりに真剣に考えすぎており、特に AI モデルによって応答が制限されているため、それが有利に働かない可能性があります。
しかし、おそらく両者の最大の違いは次の点です。Gemini Live は音声をテキストとして解釈して応答しますが、ChatGPT の音声モードは音声を直接処理します。
評決
Gemini Live は優れたツールであり、以前の Google アシスタントから明らかに進歩しています。ロック画面から呼び出せるのは便利で、10 種類の音声も十分に優れています。しかし、専門的な用途で Gemini Live に頼るのは無謀です。個人的には、Gemini Live だけに 20 ドル払うより、何も知らない慈善団体に寄付するほうがましです。幸い、Gemini Advanced サブスクリプションには他の特典があります。
現状では、AI を、その形態に関係なく、回復しつつある統合失調症患者と見なすのがよいでしょう。AI は回復しつつありますが、再発する傾向があります。唯一の違いは、統合失調症患者をポケットに入れることも、お金を払って手に入れることもないことです。
Gemini Live についてどう思いますか? Google はこの熱烈なレビューを抑制すると思いますか? 下のコメント欄でお知らせください。
コメントを残す