微軟宣布推出用於 Bing 圖像搜索的 Turing Bletchley v3 視覺語言模型

2023/08/29

微軟正式宣布了其 Turing Bletchley 多語言視覺語言基礎模型的第三個版本。現在它已被推廣到微軟的許多產品中，包括用於改進圖像搜索的Bing 。

微軟早在 2021 年 11 月就推出了 Turing Bletchley 模型的第一個版本。今天在 Bing 官方博客上發表的一篇文章中，微軟表示，它於2022 年秋季開始測試該模型的第三個版本，然後將其添加到Bing 和其他產品中。

該模型使用文本和圖像輸入來查找人們在微軟必應搜索引擎上尋找的內容。目標是讓模型盡可能接近，以便描述“狗吃冰淇淋”的文本盡可能接近搜索結果中狗吃冰淇淋的圖像。

Turing Bletchley v3 建立這些聯繫的部分方式與模型密切相關。微軟表示：

給定圖像和描述該圖像的標題，標題中的一些單詞被屏蔽。然後訓練神經網絡來預測以圖像和文本為條件的隱藏單詞。該任務也可以翻轉以掩蓋像素而不是單詞。這種類型的掩蔽訓練與基於變壓器的大型模型一起產生了強大的預訓練模型，可以針對各種下游任務進行微調。

除了用於 Bing 中的圖像搜索之外。新的 Turing Bletchley v3 模型正在其 Xbox 遊戲服務上用於內容審核。例如，它可以幫助該團隊識別 Xbox 玩家上傳到其個人資料中的圖像和視頻，這些圖像和視頻將被視為不適當且違反公司在 Xbox 平台上的社區標準。