Windows 11용 혁신적인 Microsoft AI 에이전트 컨셉이 PC 경험을 혁신할 수 있습니다.
Windows 11 컴퓨터가 인간처럼 작업을 수행할 수 있다고 상상해보세요. Microsoft는 혁신적인 개념으로 바로 그것을 탐구하고 있습니다. WindowsLatest.com은 최근 Microsoft AI의 연구원과 인터뷰를 하여 “Windows Agent Arena”의 세부 사항을 파헤쳤습니다.
최근 헤드라인에서 “AI 에이전트”라는 용어를 접했을 수 있습니다. 특히 클로드의 AI 에이전트 와 관련하여 말입니다 . 그러나 Microsoft는 수개월 동안 “AI 에이전트” 아이디어를 개발해 왔고 연구 논문 도 발표했습니다 . “Windows Agent Arena” 프로젝트는 9월에 오픈 소스로 출시 되었습니다 .
Microsoft의 발전을 면밀히 주시하고 있다면, 그들이 AI 경쟁의 최전선에 있다는 것을 알 것입니다. 그들의 AI 부서는 한창 진행 중이며, 독립 개발자와 연구자들이 다양한 언어 모델로 작업할 수 있도록 하는 도구를 만들고 있습니다.
Microsoft AI는 완전 오픈소스 Windows Agent Arena를 공개했습니다 . 이 프레임워크는 연구자와 개발자가 AI 에이전트를 만들고 테스트하는 데 도움이 됩니다. Windows 11용 AI 에이전트를 개발하고 평가하는 데 필요한 모든 도구를 제공하도록 설계되었습니다. 하지만 PC의 AI 에이전트는 무엇을 수반할까요?
AI 에이전트의 유용성을 이해하기 위해 몇 가지 실제적인 AI 사례를 살펴보겠습니다.
매일 아침, 이메일, 캘린더, 선호하는 뉴스 웹사이트를 개별적으로 실행하는 대신, 간단히 “내 아침 설정 시작”이라고 명령하면 됩니다. 그러면 AI 에이전트가 모든 애플리케이션을 한꺼번에 열어줍니다.
Windows 11 AI Agent의 또 다른 기능은 사용자의 구두 지시에 따라 PC 설정을 수정하는 것입니다. 온라인 개인 정보 보호에 대해 걱정되고 Microsoft Edge에서 “추적 금지” 기능을 켜고 싶다면 AI Agent가 대신 처리해 줄 수 있습니다.
이것이 어떻게 작동하는지 자세히 살펴보겠습니다.
- AI 에이전트는 귀하의 요청을 해석하여 귀하가 Edge에서 “추적 금지” 기능을 활성화하려 한다는 것을 이해합니다.
- 명령에 따라 Microsoft Edge가 실행됩니다.
- 에이전트는 세 개의 점을 클릭하여 메인 메뉴를 탐색합니다. 이는 인간의 개입 없이 에이전트가 자율적으로 수행하는 작업입니다.
- 다음으로, 드롭다운 옵션에서 “설정”을 선택합니다.
- 설정 페이지에서 ‘개인 정보 보호, 검색 및 서비스’ 섹션을 찾아 스크롤하여 ‘추적 금지’ 토글을 찾습니다.
그러면 상담원이 귀하의 눈앞에서 자동으로 “추적 금지” 옵션을 활성화합니다!
Microsoft는 Applied Sciences 블로그에 다음과 같은 추가 사례를 공유했습니다.
예 1: Microsoft Edge에서 추적 거부를 활성화하는 AI 에이전트
예시 2: AI 에이전트가 VSCode에 Pylance 확장 프로그램을 설치하는 모습입니다 .
예 3: 검색 엔진 설정을 변경하는 AI 에이전트
예 4: AI Agent가 VLC 설정을 변경하여 녹화 저장 폴더를 조정합니다.
예 5: AI 에이전트가 페인트를 열고 사용자를 위해 그림을 만듭니다.
예 6: AI 에이전트가 Edge 프로필 이름을 변경합니다.
놀랍지 않나요?
Windows Agent Arena 프로젝트는 흥미로운 진화를 보여주며, 이러한 사례는 특히 Windows 11과 같은 OS에서 발생할 수 있는 일의 시작에 불과합니다.
Windows Agent Arena의 목적은 개발자와 연구자가 Windows 11에 맞춰 자체 AI 에이전트를 만들고 벤치마킹할 수 있도록 지원하는 오픈소스 프레임워크를 구축하는 것입니다.
Windows Agent Arena는 정확히 무엇을 수반하나요?
“Copilot과 ChatGPT와 같은 AI 어시스턴트는 수많은 사용자에게 엄청난 이점을 제공한 것으로 입증되었습니다. 이러한 도구는 정교한 언어 모델을 활용하여 코드 수정에서 저녁 요리법 제안에 이르기까지 다양한 작업을 지원합니다. 이러한 모델이 더욱 발전함에 따라 우리는 AI 어시스턴트의 미래 가능성에 대해 추측하고 있습니다.” 프로젝트에 참여한 Microsoft AI 연구원인 Francesco Bonacci가 설명했습니다.
“Windows Agent Arena를 소개합니다. Windows 환경에서 작업을 실행할 수 있는 AI 에이전트를 테스트하고 개발하는 데 전념하는 프레임워크입니다. 이러한 에이전트를 화면을 보고 이해한 다음 클릭, 타이핑 또는 응용 프로그램 실행을 통해 PC와 상호 작용하여 작업을 도울 수 있는 지능형 비서로 상상해 보세요. 이는 수동으로 하는 것과 매우 유사합니다.”
익숙하지 않은 분들을 위해 말씀드리자면, Microsoft AI는 Copilot, Edge 및 기타 AI 혁신을 연구하는 Microsoft의 새로운 부서입니다. 획기적인 소규모 언어 모델인 Phi-3를 기억하십니까? 이 모델도 Microsoft AI에서 유래했습니다. 이 부서는 현재 Microsoft AI의 CEO로 재직 중인 전 Google DeepMind 임원 Mustafa Suleyman 이 이끌고 있습니다 .
Windows Agent Arena(WAA)는 개발자와 연구자가 Windows 11용 특수 AI 에이전트를 제작, 테스트, 벤치마킹하는 데 도움을 주기 위해 개발되고 있습니다.
기본 개념은 Windows 11용 AI 에이전트를 만드는 데 광범위한 참여를 장려하여 다양한 작업의 자동화를 가능하게 하는 것입니다. 이 프레임워크는 완전히 오픈 소스이며 적응 가능하여 개발자가 로컬 리소스나 Microsoft의 Azure Machine Learning 클라우드 인프라를 사용하여 여러 에이전트를 동시에 시험하고 실행할 수 있습니다.
WAA는 Azure와 통합되어 현실적인 Windows 11 환경에 대한 액세스를 제공하여 개발자가 제한된 시뮬레이션이 아닌 실제 Windows 설정에서 AI 에이전트가 어떻게 작동하는지 확인할 수 있습니다.
이는 일반 사용자에게는 약간 기술적으로 보일 수 있지만 AI 에이전트가 구성되는 방식을 단순화해 보겠습니다.
- 개발자는 Windows 11에서 AI 에이전트를 코딩, 테스트 및 벤치마크 테스트하기 위한 전용 플랫폼인 Windows Agent Arena를 이용할 수 있습니다.
- Microsoft는 개발자에게 기반을 제공하는 기본 “AI 에이전트” 템플릿을 만들었습니다.
- 개발자는 이러한 템플릿을 사용하여 Windows 11에서 일반적인 사용자 문제를 해결하도록 설계된 고유한 AI 에이전트를 구축할 수 있습니다.
- 예를 들어, 데스크톱과 다양한 폴더에 여러 장의 사진이 흩어져 있는 경우 AI 에이전트가 일괄 이름 바꾸기, 압축 및 파일 확장자 변경을 자동으로 도울 수 있습니다. 이는 AI 에이전트가 Windows 11에서 실제 작업을 어떻게 해결할 수 있는지 보여줍니다.
- AI 에이전트를 구축하는 것 외에도 개발자는 성능과 보안을 평가할 수 있습니다. AI 에이전트는 Windows 11에서 로컬로 작동하지만 Microsoft는 성능 문제를 해결하기 위해 WAA에 벤치마킹 도구를 통합했습니다.
- 시작하려면 개발자가 WSL 2, OpenAI 또는 AzureOpen API 키, Python 3.9를 사용하여 Docker를 설정하고, WAA 저장소를 복제하고, 종속성을 설치하고, Windows Enterprise Evaluation ISO를 활용해야 합니다.
- 개발자는 AI 에이전트를 로컬에서 실행하거나 Azure의 클라우드 솔루션을 활용하여 테스트할 수 있습니다.
Microsoft의 Francesco Bonacci에 따르면, 이 프레임워크는 연구자들에게 AI 모델을 개선하고 표준 데스크톱 환경을 이해하고 참여하는 능력을 향상시키는 도구를 제공합니다.
Windows Agent Arena의 견고성은 어느 정도인가요?
Rogerio Bonatti , Dan Zhao , Francesco Bonacci , Dillon Dupont , Sara Abdali , Yinheng Li , Yadong Lu , Justin Wagle , Kazuhito Koishida , Arthur Bucker , Lawrence Jang , Zack Hui 등 이 포함된 팀이 작성한 연구 논문 ” Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale”에서는 초기 WAA 모델이 Windows 11에서 최대 150개의 다양한 작업을 성공적으로 실행할 수 있다고 설명합니다.
이것들은 어떤 유형의 작업일까요? 세부 사항은 다를 수 있지만, 일반적으로 컴퓨터에서 수행하는 대부분의 기능을 포함합니다.
“예를 들어,” Francesco Bonacci가 덧붙여 말했습니다. “AI에 브라우저 확장 프로그램을 설치하거나, 설정을 조정하거나, 심지어 Paint에서 간단한 그림을 만들도록 지시할 수 있습니다. AI는 고급 언어 및 비전 모델을 활용하여 화면의 텍스트 및 시각적 정보를 이해하여 적절한 조치를 결정할 수 있습니다. Windows Agent Arena는 진정한 Windows 운영 체제 내에서 검색에서 문서 편집에 이르기까지 다양한 작업에서 이러한 AI 에이전트의 효과를 평가할 수 있는 장소를 제공합니다.”
작업에는 Microsoft Edge나 Chrome의 설정을 수정하는 것, 예를 들어 AI 에이전트에게 개인 정보 보호 모드를 활성화하거나, 쿠키를 지우거나, 기본 검색 엔진을 전환하도록 요청하는 것이 포함될 수 있습니다.
LibreOffice Writer나 Calc와 같은 애플리케이션에 AI Agent를 활용하면 다양한 문서와 스프레드시트를 편집할 수 있습니다. 개발자의 경우 AI Agent는 확장 프로그램을 설치하거나 코드를 수정하는 데 도움이 되며, 작동을 관찰할 수 있습니다.
이것들은 몇 가지 아이디어일 뿐입니다. 잠재적인 응용 프로그램은 방대합니다. AI 에이전트는 메모장, 페인트 또는 시계를 포함하여 Windows 11에서 다양한 응용 프로그램과 상호 작용할 수 있습니다. 추가 예는 다음과 같습니다.
- 다운로드 폴더에 “circle.png”라는 이름으로 Paint에서 그림을 저장합니다.
- 바탕 화면 배경을 단색으로 변경
- 시스템 알림 비활성화
- 야간 조명을 활성화하고 오후 7시부터 일출까지 작동하도록 설정합니다.
- 현재 문서를 PDF로 내보내기
- 첫 번째 두 문단을 2줄 간격으로 서식 지정
- 모든 문장 뒤에 빈 줄을 추가합니다.
- LibreOffice에서 제목 중앙 정렬
- 텍스트의 숫자 2를 아래 첨자 형식으로 변환
- 기본 글꼴을 Times New Roman으로 설정
- 스프레드시트에서 sheet1의 이름을 “LARSScienceAssessment”로 바꾸세요.
- 직원 목록을 생일에 따라 정렬
- “Seq No.” 열에 “No. #”로 시퀀스 번호를 입력합니다.
- Edge에서 ‘추적 금지’ 설정을 활성화하여 온라인 개인 정보 보호 강화
- 기본 글꼴 크기를 가장 큰 옵션으로 설정하세요
- 현재 보고 있는 웹페이지를 저장하세요
하지만 Windows Agent Arena는 개발자에게 얼마나 강력한가요? 특히, 개발자는 로컬 컴퓨팅 파워에 의존하거나 Azure Machine Learning(Azure ML)을 사용하여 기능을 확장할 수 있습니다. 이러한 유연성은 단일 PC의 성능 제약에 국한되지 않고 클라우드에서 여러 AI 에이전트를 테스트할 수 있음을 의미합니다.
이 연구 논문은 또한 작업 완료에서 19.5%의 성공률을 달성한 Microsoft의 자체 AI 에이전트인 Navi를 소개했습니다. 이는 인간의 74.5% 성공률에는 못 미치지만 AI 역량에 있어 상당한 진전을 나타냅니다.
Microsoft는 Navi가 “생각의 사슬 프롬프트”를 사용한다고 설명했습니다. 이는 Windows 11 내에서 작업에 체계적으로 접근하고 이를 실행하는 방법을 결정하는 방법입니다.
Navi는 디스플레이를 분석하고 커서 위치와 같은 요소를 이해하여 수행해야 할 작업, 수행 중인 작업, 다음에 실행해야 할 작업을 평가하여 작업을 완료합니다.
개인화된 AI 에이전트 생성을 더욱 지원하기 위해 Microsoft는 정교한 화면 이해 모델인 ” Omniparser “를 오픈 소스로 공개했습니다.
Windows 11에서 AI 에이전트의 미래는 어떻게 될까요?
Windows Agent Arena는 단순한 개념 그 이상입니다. Microsoft가 Windows 11용 AI Agents의 자체 버전을 출시하더라도 놀랍지 않을 것 같습니다.
현재도 진행 중인 오픈소스 프로젝트로 성공률은 그리 높지 않습니다. Windows 11에서 AI 에이전트가 출시될 시기는 불확실하지만, 출시는 불가피해 보입니다.
AI 에이전트는 곧 일상 업무를 학습하고, 더욱 효율적인 업무 흐름을 제안하거나 명확한 명령 없이도 프로세스를 자동화할 수 있게 될 것입니다.
그럼에도 불구하고 AI 에이전트는 어려움에 직면하게 되는데, 특히 화면 정보를 정확하게 해석하고 페인트에서 그림을 그리는 것과 같은 작업에서 마우스 움직임을 관리하는 데 어려움이 있습니다.
답글 남기기