Microsoft ogłasza model języka wizyjnego Turing Bletchley v3 do wyszukiwania obrazów w Bing
Microsoft oficjalnie ogłosił trzecią wersję swojego wielojęzycznego, podstawowego modelu języka wizyjnego Turinga Bletchleya. Jest obecnie wdrażany w wielu produktach firmy Microsoft, w tym w Bing , w celu ulepszenia wyszukiwania obrazów.
Microsoft wypuścił pierwszą wersję modelu Turing Bletchley w listopadzie 2021 r. W dzisiejszym poście na oficjalnym blogu Bing Microsoft poinformował, że rozpoczął testy trzeciej wersji modelu jesienią 2022 r. przed dodaniem go do Bing i innych produktów .
Model wykorzystuje dane wejściowe z tekstu i obrazów, aby znaleźć rzeczy, których dana osoba szuka w wyszukiwarce Bing firmy Microsoft. Celem jest maksymalne zbliżenie modelu, tak aby tekst opisujący na przykład „pies jedzący lody” był jak najbardziej zbliżony do obrazów psa jedzącego lody w wynikach wyszukiwania.
Część sposobu, w jaki Turing Bletchley v3 tworzy te połączenia, jest obszerna i dotyczy modelu. Microsoft stwierdza:
Biorąc pod uwagę obraz i podpis opisujący obraz, niektóre słowa w podpisie są maskowane. Następnie sieć neuronowa jest szkolona w zakresie przewidywania ukrytych słów na podstawie obrazu i tekstu. Zadanie można również odwrócić, aby zamaskować piksele zamiast słów. Ten rodzaj zamaskowanego szkolenia w połączeniu z dużym modelem opartym na transformatorze prowadzi do silnego, wstępnie wyszkolonego modelu, który można dopracować w oparciu o różnorodny zestaw dalszych zadań.
Oprócz tego, że jest używany do wyszukiwania obrazów w Bing. nowy model Turing Bletchley v3 jest używany do moderowania treści w usłudze gier Xbox. Pomaga temu zespołowi identyfikować na przykład obrazy i filmy przesyłane przez graczy Xbox do ich profili, które zostałyby uznane za nieodpowiednie i naruszające standardy społeczności firmy na platformie Xbox.
Dodaj komentarz