Gemini 1.5 Proが登場! オーディオ認識の新たなレベルを体験しましょう

2024/04/10

大手テクノロジー企業はすべて AI モデルに取り組んでおり、そういえば Google が Gemini の新バージョンをリリースしたようです。

Gemini 1.5 Pro がリリースされ、興味深い機能がいくつか搭載されています。それでは、その新機能について詳しく見ていきましょう。

Gemini 1.5 Proが登場、音声認識機能を搭載

MSPowerUser が書いているように、Google は最近 AI モデルを更新し、Gemini 1.5 Pro は Google AI Studio のパブリックプレビューを通じて 180 か国以上で利用可能になりました。

Gemini には現在 100 万のコンテキストウィンドウがあり、開発者は情報をより適切に分析して理解することができます。

それだけではありません。このバージョンには音声認識機能も搭載されており、話し言葉を処理できます。ファイルのアップロードもサポートされているため、音声ファイルをアップロードすると、Gemini がそれを分析します。

この機能について開発者は次のように語っています。

このアップデートにより、開発者はより優れた制御と機能を手に入れることができ、システム指示もサポートされるので、役割、形式、目標を簡単に指定できます。

最後に、画像とテキストの両方から構造化データを抽出できる JSON モードが利用できます。開発者によると、現在は cURL がサポートされており、Python SDK のサポートも間もなく開始される予定です。

Google からの発表はこれだけではありません。Gemini がまもなく Android 版 Gmail にリプレイ提案機能を導入するという報告もあるので、お楽しみに。

ジェフ・ディーンの 117,000 以上のトークン講義などの講義の録音をアップロードすると、Gemini 1.5 Pro でそれを解答付きのクイズに変換できます。