視覺語言模型可能很快就會使用法學碩士來改善即時學習

視覺語言模型可能很快就會使用法學碩士來改善即時學習

人工智慧可以根據我們的提示創建視覺內容。然而,結果並不總是準確的,主要是如果我們使用免費的視覺語言模型(VLM)。此外,當我們嘗試使用免費的 VLM 來處理複雜的細節時,它們無法產生高品質的結果。因此,需要能夠產生更高品質內容的視覺語言模型。例如,我們有Sora AI,它非常擅長創建中國公司已經想要使用的視覺效果。

法學碩士將如何改進視覺語言模型?

根據微軟研究部落格報道,研究人員正在嘗試尋找一種使用大型語言模型(LLM)為視覺語言模型產生結構化圖的方法。因此,為了做到這一點,他們向人工智慧提出問題,重組訊息,然後產生結構化圖表。此外,這個過程需要一些組織。畢竟,圖表需要展示實體、其屬性以及它們之間的關係。

為了更好地理解這個過程,請考慮一種特定的動物。然後,要求人工智慧根據與動物相關的問題提供描述。然後,您將獲得有關您想到的動物的更多資訊。然後,要求人工智慧對你的資訊進行重組和分類。

得到結果後,研究人員實施了分層提示調整(HTP),一個組織內容的架構。有了它,視覺語言模型可以學習辨別不同的數據,例如提示中的特定細節、類別和主題。此外,此方法提高了VLM理解和處理各種查詢的能力。

當最後一步完成後,視覺語言模型將能夠根據您的提示產生更準確的圖像。此外,下次您需要分析影像時,您可以使用 VLM 為其建立描述。

簡而言之,研究的主要目標是利用法學碩士教授視覺語言模型如何從提示中理解細節,從而產生更準確、更真實的圖片。同時,第二個目標是教導 VLM 識別圖片中的元素並建立描述。

你怎麼看?您對這項研究感到興奮嗎?讓我們在評論中知道。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *