ジェミニ1.5とは何ですか?知っておくべきこと

ジェミニ1.5とは何ですか?知っておくべきこと

Googleは木曜日に共有されたブログ投稿の中で、パフォーマンスと効率の大幅な向上を約束する次世代AIモデルであるGemini 1.5のリリースを発表した。機能強化の中には、一度に最大 100 万トークンの膨大な量の情報を処理および理解できる機能があります。

ジェミニ1.5とは何ですか?

Gemini 1.0 の成功に基づいて構築された最新のイテレーションでは、AI モデルをより小さな専門ネットワークに分割する新しい専門家混合 (MoE) アーキテクチャが利用されています。 Googleによれば、これにより高いパフォーマンスを維持しながら、より効率的な処理とトレーニングが可能になるという。このため、Gemini 1.5 は、テキスト、画像、オーディオ、ビデオなどのマルチモーダル入力をより正確に、より正確に処理できるようになります。

新しいモデルの注目すべき機能の 1 つは、拡張されたコンテキスト ウィンドウです。以前のモデルは最大 32,000 トークンしか処理できませんでしたが、Gemini 1.5 は最大 100 万トークンを処理できます。これにより、単一のプロンプトに追加された場合でも、大量のテキスト、コード、ビデオ、オーディオを処理、分析、推論することができます。

拡張コンテキスト ウィンドウにより、次の新しい機能が利用可能になります。

  • マルチモーダルな理解: このモデルは、ビジュアルのみに基づいてサイレント映画のプロットを分析するなど、さまざまなメディア タイプを処理できます。
  • 関連する問題解決: 大規模なコードベースが提示された場合、Gemini 1.5 は変更を提案し、さまざまな部分がどのように相互作用するかを説明できます。

Google はまた、Gemini 1.5 がタスクの 87% で Gemini 1.0 Pro を上回り、コンテキスト ウィンドウが大きくなっても Gemini 1.0 Ultra のパフォーマンスに匹敵することを明らかにしました。

アクセスと空き状況

Google は、128,000 トークンのコンテキスト ウィンドウを備えた Gemini 1.5 Pro の限定プレビューを開発者と企業顧客に提供しています。資格のあるユーザーは、100 万トークンのウィンドウを無料でテストすることもできますが、遅延は長くなります。同社は、将来的にはコンテキストウィンドウのサイズに基づいた価格帯を導入することも計画している。

Google による Gemini 1.5 Pro デモ

これは Google が YouTube で共有したビデオで、402 ページの PDF トランスクリプトとマルチモーダル プロンプトを使用したライブ インタラクションを通じて、Google の長い文脈理解能力を紹介しています。デモンストレーションでは、応答時間が示されたモデルの応答の継続的な記録が行われます。入力 PDF (326,658 トークン) と画像 (256 トークン) の合計トークン数は 326,914 ですが、テキスト入力では合計が 327,309 トークンに増加します。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です