MITの研究者らはプロセスを簡素化することでAIによる画像生成を30倍高速化
MIT コンピュータサイエンスおよび人工知能研究所 (CSAIL) の研究者チームは、DALL-E 3 や Stable Diffusion などの画像生成 LLM を大幅に高速化する方法を発見しました。
彼らは、画質を損なうことなく、プロセスを 1 つのステップに簡素化することに成功しました。
現在、AI はいわゆる拡散モデルを使用して画像を生成しています。これは、ノイズの多い状態の画像を再現し、鮮明になるまで徐々に構造を与えるというものです。非常に単純に聞こえますが、実際には、ぼやけた無意味な画像から鮮明で鮮明な画像を得るには、多くのステップが必要です。
CSAIL の研究者たちは、複数ステップのアプローチを単一のアクションに変換する新しいフレームワークを開発しました。
研究者は分布マッチング蒸留と呼ばれる新しい方法を使用する
プレスリリースによると、MITのアプローチはDMD(Distribution Matching Distillation)と呼ばれ、生成的敵対ネットワークを拡散モデルとマッチングさせることで、これまでにない画像生成速度を実現します。
新しい DMD フレームワークの背後にある考え方は、2 つの拡散モデルを使用することです。この方法により、GAN モデルの不安定性とモード崩壊の問題を克服することに成功しました。
結果は驚くべきもので、上のクリップを見ると、新しい DMD が 1 秒あたり約 20 枚の画像を生成しているのに対し、Stable Diffusion 1.5 では 1 枚の画像を生成するのに 1.4 秒かかっていることがわかります。
TechSpotによると、画像生成にシングルステップアプローチを適用しているのは MIT の研究者だけではない。Stability AI と Adversarial Diffusion Distillation (ADD) と呼ばれる手法は、Nvidia A100 AI GPU アクセラレータのみを使用して、わずか 207 ミリ秒で画像を生成できる。
画像生成は日々高速化しており、これがSora AIのようなビデオ生成モデルにも適用されることを期待しています。
この新しいテクノロジーについてどう思いますか? 下のコメント欄であなたの考えを共有してください。
私たちの研究は、Stable Diffusion や DALLE-3 などの現在の拡散モデルを 30 倍高速化する新しい方法です。この進歩により、計算時間が大幅に短縮されるだけでなく、生成されるビジュアル コンテンツの品質は維持されるか、あるいは上回ります。理論的には、このアプローチは、生成的敵対ネットワーク (GAN) の原理と拡散モデルの原理を融合し、1 ステップでビジュアル コンテンツの生成を実現します。これは、現在の拡散モデルに必要な 100 ステップの反復的な改良とは対照的です。これは、速度と品質に優れた新しい生成モデリング方法になる可能性があります。
DMDフレームワークの主任研究者、Tianwei Yin氏
コメントを残す