視覚言語モデルはまもなく LLM を使用して迅速な学習を改善する可能性があります
Ai はプロンプトからビジュアル コンテンツを作成できます。ただし、主に無料のビジュアル言語モデル (VLM) を使用する場合、結果は必ずしも正確であるとは限りません。さらに、複雑な詳細に無料の VLM を使用しようとすると、高品質の結果が得られません。したがって、より高品質のコンテンツを生成できる視覚言語モデルが必要です。たとえば、中国企業がすでに使用したいと考えているビジュアルを作成するのに優れたSora AIがあります。
LLM は視覚言語モデルをどのように改善するのでしょうか?
Microsoft Research Blogによると、研究者たちは大規模言語モデル (LLM) を使用して視覚言語モデルの構造化グラフを生成する方法を見つけようとしています。そのため、これを行うために、AI に質問し、情報を再構成し、その後構造化されたグラフを生成します。さらに、このプロセスには少し整理が必要です。結局のところ、グラフはエンティティ、その属性、およびそれらの間の関係を特徴づける必要があります。
このプロセスをよりよく理解するには、特定の動物について考えてみましょう。次に、動物に関する質問に基づいて AI に説明を求めます。そうすれば、あなたが考えた動物についてさらに詳しい情報が得られます。その後、AI に情報を再構成して分類してもらいます。
この結果を得た後、研究者らはコンテンツを整理するフレームワークである Hierarchical Prompt Tuning (HTP) を実装しました。これにより、視覚言語モデルは、プロンプトからの特定の詳細、カテゴリ、テーマなどのさまざまなデータを識別する方法を学習します。さらに、この方法により、VLM がさまざまなクエリを理解して処理する能力が向上します。
最後のステップが完了すると、視覚言語モデルはプロンプトに基づいてより正確な画像を生成できるようになります。さらに、次回画像を分析する必要があるときは、VLM を使用して画像の説明を作成できます。
一言で言えば、研究の主な目的は、LLM を使用して、プロンプトから詳細を理解してより正確でリアルな画像を生成する方法を視覚言語モデルに教えることです。一方、2 番目の目標は、VLM に画像から要素を識別して説明を作成するよう教えることです。
あなたの考えは何ですか?この研究に興奮していますか?コメントでお知らせください。
コメントを残す