麻省理工學院的研究人員透過簡化流程使 AI 影像生成速度提高了 30 倍

2024/03/27

來自麻省理工學院計算機科學和人工智慧實驗室 (CSAIL) 的研究人員團隊找到了一種方法，可以使 DALL-E 3 和穩定擴散等影像生成 LLM 的速度更快。

他們設法將過程簡化為一步，但又不影響影像品質。

目前，人工智慧正在使用所謂的擴散模型來產生圖像。這涉及到重新創建一個嘈雜狀態的圖像並逐步賦予它結構，直到它變得清晰。這聽起來很簡單，但事實上，從模糊的廢話到清晰明快的圖像需要很多步驟。

CSAIL 研究人員擁有一個新框架，可以將多步驟方法轉變為單一行動。

研究人員使用一種稱為分佈匹配蒸餾的新方法

根據新聞稿，麻省理工學院的方法被稱為 DMD，即分佈匹配蒸餾，它將生成對抗網絡與擴散模型相匹配，以實現前所未有的圖像生成速度。

新 DMD 框架背後的想法是使用兩種擴散模型。透過這種方式，他們成功克服了 GAN 模型的不穩定和模式崩潰問題。

結果令人驚嘆，如果您觀看上面的剪輯，您會發現新的 DMD 每秒生成大約 20 個影像，而穩定擴散 1.5 需要 1.4 秒才能產生單一影像。

根據TechSpot 報道，麻省理工學院的研究人員並不是唯一採用單步驟方法產生影像的人。 Stability AI 及其稱為對抗擴散蒸餾 (ADD) 的方法僅使用 Nvidia A100 AI GPU 加速器即可在 207 毫秒內產生影像。

影像生成速度每天都在加快，我們希望這也適用於Sora AI等影片生成模型。

您對新科技有何看法？請在下面的評論部分分享您的想法。

我們的工作是一種新穎的方法，可將穩定擴散和 DALLE-3 等當前擴散模型加速 30 倍。這項進步不僅顯著減少了計算時間，而且保留了（如果不是超越的話）所產生的視覺內容的品質。理論上，該方法將生成對抗網路（GAN）的原理與擴散模型的原理結合起來，一步實現視覺內容生成——這與當前擴散模型所需的數百步迭代細化形成鮮明對比。它可能是一種在速度和品質方面都表現出色的新生成建模方法。

尹天偉，DMD架構首席研究員

研究人員使用一種稱為分佈匹配蒸餾的新方法

發佈留言 取消回覆

發佈留言取消回覆