OpenAI の GPT-4o モデルは、音声アシスタントに期待されるすべてを実現

OpenAI の GPT-4o モデルは、音声アシスタントに期待されるすべてを実現

知っておくべきこと

  • OpenAI の Spring Update では、同社の新しい主力モデルである GPT-4o が導入されました。
  • OpenAI は、これまでで最も感情豊かでリアルなアシスタントである、アップグレードされた音声モードも実演しました。
  • GPT-4o とその API はすべてのユーザーが利用できますが、音声モードは現時点では Plus 加入者にのみ展開されます。
  • ChatGPT は Mac 用のデスクトップ アプリも近々リリースする予定です。Windows アプリは今年中に利用可能になる予定です。

OpenAI はまたもや基準を引き上げました。Spring Update イベントでのニュースには検索エンジンの領域への進出は含まれていませんでしたが、OpenAI は新しい GPT-4o モデルで多くの人の心をつかみました。高速で機敏、そしてアップグレードされた音声モードにより、スパイク・ジョーンズの 2013 年の映画「her」に出てくる AI アシスタントに驚くほど似ています。

しかし、もっと重要なのは、ChatGPT が主張したいスマートフォンの音声アシスタントという点で、これは大きな前進であり、ChatGPT は今やこの分野に最適であるということです。GPT、ChatGPT の音声モードのアップグレード、そしてそれが業界にもたらす影響について知っておくべきことをすべて紹介します。

GPT-4oモデルにより、ChatGPTは他のAIチャットボットやアシスタントよりも機敏で感情的になります。

https://www.youtube.com/watch?v=vgYi3Wr7v_g

GPT-4o (‘o’ はオムニの略) は同社の新しい主力モデルであり、テキスト、ビジョン、オーディオを組み合わせた初のモデルでもあります。GPT-4 レベルのインテリジェンスを備えていますが、より高速で効率的です。インテリジェンスのレベルが異なる 3 つのモデルを組み合わせて動作していた以前のバージョンの Voice Mode では、主要な GPT-4 レベルのインテリジェンスの多くが失われていました。これが GPT-4o の違いです。

GPT-4o は、3 つのテキスト、視覚、音声モダリティにわたってエンドツーエンドでトレーニングされ、音声モードのみを実行する最初のモデルです。そして、それは明らかです。デモの 1 つでは、OpenAI のスタッフが 2 台の電話で ChatGPT を使用し、お互いに会話したり歌を歌ったりしました。

https://www.youtube.com/watch?v=MirzFk_DSiI

ChatGPT の応答は、リアルタイムで届くほど高速です。また、口調を観察したり、音声やビデオから感情状態を検出したり、アドバイスを提供したり、コーディングを手伝ったり、ライブで翻訳したりすることができ、すべてが親密な人間の会話のように見えます。

イベント中、ChatGPT は就寝時の話を劇的に表現し、声を瞬時に切り替え、最後に歌で締めくくりました。

https://www.youtube.com/watch?v=D9byh4MAsUQ

これらは、ChatGPT が GPT-4 オムニモデルで実行できる多くの機能のうちのほんの一部に過ぎませんが、すでに新境地を開拓しています。この種のものとしては初めてのオムニモデルであるため、将来のオムニモデルは、ChatGPT とのチャット方法や ChatGPT との関係を完全に変える可能性があります。

GPT-4o は誰でも無料でご利用いただけます。

GPT-4o は Plus メンバー専用ではありません。OpenAI が無料ユーザーを GPT-4o に自動的にアップグレードするという事実は、他のチャットボットの基準を全面的に引き上げます。これは、ChatGPT が最適な Google Assistant (または最近の Gemini) を置き換えたいユーザーにとって特に便利です。

Android ユーザーが ChatGPT をデジタル アシスタントとして使用する方法と手段はすでにあります。Nothing などの一部のメーカーでは、音声モードにすばやくアクセスできるように、ChatGPT をクイック設定タイルに追加することもできます。しかし、公式の ChatGPT アシスタントが、ユーザーが望む代替品になる可能性もあります。

公式の ChatGPT デスクトップ アプリがリリースされれば、ChatGPT はデバイス間での唯一のアシスタントになる可能性が高くなります。ChatGPT Windows アプリは今年後半にリリースされ、Mac 用アプリは数週間以内にリリースされる予定です。

GPT-4oはより小型で効率的なモデルです

GPT-4o はこれまでで最も高速で、最も手頃なモデルであり、さまざまな面で GPT-4 Turbo の地位を奪っています。GPT-Turbo レベルのインテリジェンスを備えた GPT-4o は 2 倍の速度になる予定ですが、実際のテストではまだ確認されていません。ただし、他にもさまざまなアップグレードがあります。以下の顕著な機能を比較してください。

Image: OpenAI

OpenAI は、チャット補完、アシスタント、バッチ API でも GPT-4o を利用できるようにしており、特に API トークンが GPT-4 Turbo の半分の価格であるため、開発者はリリースされるとすぐにすぐに利用を開始するでしょう。

ChatGPT の新しいモデルのスピードは、OpenAI のデモで示されたように、ライブ翻訳に特に役立ちます。その音声機能は、異なる言語を話す人々の間で第三者の仲介者として機能します。

https://www.youtube.com/watch?v=c2DFg53Zhvw

新しい音声とビデオモードは映画のAIのようだ

オムニモデルのおかげで、ChatGPT は感情指数が非常に広くなり、声を聞いたり、顔の表情を見たりするだけで感情の状態を検知できるようになりました。しかし、目や耳があることとは別に、声が魔法のような人間的要素を加え、機械の中に幽霊がいるような錯覚を与え、世界中の人々の想像力をかき立てているようです。

サム・アルトマンは、これを「映画の中の AI」と適切に呼んでいます。デモの軽快で、少し軽薄な雰囲気から判断すると、率直に言って今では時代遅れに見える従来のデフォルト アシスタントよりも、ChatGPT をアシスタントとして積極的に採用する人がいても不思議ではありません。しかし、ChatGPT と友達になったり、デジタル コンパニオンと親密になる前に、アルトマンがほのめかしている映画のメッセージに耳を傾け、デジタル コンパニオンを実際のコンパニオンと取り違える落とし穴を避けてください。

AppleはOpenAIと提携してSiriに取って代わるのだろうか?

イベントのわずか数日前、Apple は将来の iPhone に新しい AI 機能を搭載するために OpenAI との契約に近づいていると報じられました。GPT-4o がより優れた、より刺激的な音声モードを伴ってリリースされた今、ChatGPT の機能が Siri を含むいくつかの iOS 機能に移植されるかもしれません。Apple が近い将来、あるいはいつか Siri を廃止するとは考えにくいかもしれません。しかし、ChatGPT が提供する機能とそれほど変わらない機能でアップグレードされる可能性は十分にあります。6 月の WWDC が近づくにつれて、これに関するさらなるニュースが発表されると予想されます。お楽しみに。

GPT-4o はいつリリースされますか?

GPT-4o はつい最近発表されたばかりなので、世界中のユーザーに展開されるまでにはしばらく時間がかかるかもしれません。活発な音声モードに関しては、Plus 加入者が最初にアクセスできるようになります。そのため、新機能を試して、より長くチャットし、AI アシスタントから迅速な応答を得たいのであれば、Plus メンバーシップは価値があります。

より優れた高速なアーキテクチャと幅広い感情表現機能を備えた ChatGPT は、お気に入りの音声アシスタント、さらには友人になるのに最適な位置にあります。

皆さんはどう思いますか? ChatGPT をデジタル アシスタントとして試してみたいと思いませんか? 創造的な会話の可能性は無限ですが、誤用される可能性も無限です。新しい機能を試してみる場合でも、まず第一にツールとして使用することを忘れないでください。また次回お会いしましょう! 安全にお過ごしください。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です