시각적 언어 모델은 곧 LLM을 사용하여 신속한 학습을 향상할 수 있습니다.
AI는 프롬프트를 통해 시각적 콘텐츠를 만들 수 있습니다. 그러나 주로 무료 VLM(Visual Language Model)을 사용하는 경우 결과가 항상 정확하지는 않습니다. 게다가 복잡한 세부 사항에 대해 무료 VLM을 사용하려고 하면 고품질 결과를 생성하지 못합니다. 따라서 더 나은 품질의 콘텐츠를 생성할 수 있는 시각적 언어 모델이 필요합니다. 예를 들어, 중국 회사가 이미 사용하고 싶어하는 비주얼을 만드는 데 탁월한 Sora AI가 있습니다 .
LLM은 시각적 언어 모델을 어떻게 개선합니까?
Microsoft 연구 블로그 에 따르면 연구원들은 LLM(대형 언어 모델)을 사용하여 시각적 언어 모델에 대한 구조화된 그래프를 생성하는 방법을 찾으려고 노력하고 있습니다. 그래서 이를 위해 AI에게 질문을 하고, 정보를 재구성한 뒤 구조화된 그래프를 생성한다. 또한 프로세스에는 약간의 조직이 필요합니다. 결국 그래프에는 엔터티, 해당 속성 및 엔터티 간의 관계가 표시되어야 합니다.
과정을 더 잘 이해하려면 특정 동물에 대해 생각해 보세요. 그런 다음 AI에게 동물과 관련된 질문을 바탕으로 설명을 제공하도록 요청하세요. 그러면 당신이 생각한 동물에 대한 더 많은 정보를 얻게 될 것입니다. 그런 다음 AI에게 정보를 재구성하고 분류하도록 요청하세요.
연구진은 결과를 얻은 후 콘텐츠를 구성하는 프레임워크인 HTP(Hierarchical Prompt Tuning)를 구현했습니다. 이를 통해 시각적 언어 모델은 프롬프트에서 특정 세부 정보, 카테고리 및 테마와 같은 다양한 데이터를 식별하는 방법을 학습합니다. 또한 이 방법은 다양한 쿼리를 이해하고 처리하는 VLM의 기능을 향상시킵니다.
마지막 단계가 끝나면 시각적 언어 모델이 프롬프트를 기반으로 보다 정확한 이미지를 생성할 수 있습니다. 또한 다음에 이미지를 분석해야 할 때 VLM을 사용하여 이에 대한 설명을 작성할 수 있습니다.
간단히 말해서, 연구의 주요 목표는 LLM을 사용하여 시각적 언어 모델에 프롬프트의 세부 사항을 이해하여 보다 정확하고 현실적인 그림을 생성하는 방법을 가르치는 것입니다. 한편, 두 번째 목표는 VLM이 그림에서 요소를 식별하고 설명을 작성하도록 가르치는 것입니다.
당신의 생각은 무엇입니까? 이 연구에 흥미가 있으신가요? 댓글을 통해 알려주세요.
답글 남기기