適用於 Windows 11 的革命性 Microsoft AI 代理程式概念可以改變您的 PC 體驗
想像一下,如果您的 Windows 11 電腦可以像人類一樣執行任務。微軟正以革命性的概念來探索這一點。 WindowsLatest.com 最近採訪了 Microsoft AI 的一位研究人員,深入研究了「Windows Agent Arena」的細節。
你可能在最近的頭條新聞中看到過「人工智慧特工」這個詞,尤其是關於克勞德的人工智慧特工。然而,微軟已經開發「AI Agent」的想法幾個月了,甚至還發表了一篇研究論文。 「Windows Agent Arena」專案於 9 月開源發布。
如果您密切關注微軟的進步,您就會知道他們處於人工智慧競賽的最前沿。他們的人工智慧部門正在全力打造工具,使獨立開發人員和研究人員能夠使用各種語言模型。
Microsoft AI 推出了完全開源的 Windows Agent Arena。該框架支援研究人員和開發人員創建和測試他們的人工智慧代理。它旨在提供開發和評估 Windows 11 的 AI 代理程式所需的所有工具。
為了了解它的用處,讓我們探討一些人工智慧代理的實際範例。
每天早上,您無需單獨啟動每封電子郵件、日曆和首選新聞網站,只需命令「開始我的早晨設定」即可。然後,人工智慧代理會一次為您打開所有這些應用程式。
Windows 11 AI Agent 的另一個功能可能涉及根據您的口頭指示修改您的電腦設定。如果您擔心線上隱私並想要開啟 Microsoft Edge 中的「請勿追蹤」功能,AI 代理程式可以為您處理。
下面仔細看看它是如何運作的:
- AI 代理程式會解釋您的要求,以了解您想要在 Edge 中啟用「請勿追蹤」功能。
- 按照您的命令,它將啟動 Microsoft Edge。
- 代理商將透過點擊三個點來導航主選單——這是一個無需人工幹預即可自主執行的任務。
- 接下來,它將從下拉選項中選擇“設定”。
- 在「設定」頁面上,它將找到「隱私、搜尋和服務」部分,然後捲動找到「不追蹤」的切換開關。
然後,代理商將在您眼前自動啟用「請勿追蹤」選項!
微軟在其應用科學部落格上分享了更多範例,例如:
範例 1:AI 代理程式在 Microsoft Edge 中啟用“請勿追蹤”
範例 2:AI Agent 在 VSCode 中安裝 Pylance 擴充功能。
範例 3:AI 代理程式更改您的搜尋引擎設置
範例 4:AI Agent 變更 VLC 設定以調整錄音儲存資料夾
範例 5:AI 代理程式開啟 Paint 並為您建立繪圖
範例 6:AI 代理程式重新命名您的 Edge 設定檔
難以置信,對吧?
Windows Agent Arena 專案標誌著一個令人興奮的演變,這些案例只是觸及了可能發生的事情的表面,特別是在像 Windows 11 這樣的作業系統上。
Windows Agent Arena 背後的目的是建立一個支援性開源框架,使開發人員和研究人員能夠創建和基準化自己的專為 Windows 11 定制的 AI 代理程式。
Windows Agent Arena 到底代表什麼?
「事實證明,Copilot 和 ChatGPT 等人工智慧助理對無數用戶來說非常有益。這些工具利用複雜的語言模型來協助完成各種任務,從修復程式碼到建議晚餐食譜。隨著這些模型變得更加先進,我們正在推測人工智慧助理未來的可能性。
「推出 Windows Agent Arena,這是一個致力於測試和開發能夠在 Windows 環境中執行任務的 AI 代理程式的框架。將這些代理想像為智能助理,他們可以看到您的螢幕,理解它,然後通過單擊、鍵入或啟動應用程式與您的電腦進行交互,以幫助您完成任務,就像您手動操作一樣。
對於那些不熟悉的人來說,微軟人工智慧是微軟的一個新部門,致力於 Copilot、Edge 和其他人工智慧創新。還記得開創性的小語言模型 Phi-3嗎?它也起源於微軟人工智慧。該部門由前谷歌 DeepMind 高管Mustafa Suleyman領導,他目前擔任微軟 AI 執行長。
Windows Agent Arena (WAA) 正在開發中,旨在幫助開發人員和研究人員為 Windows 11 製作、測試和基準測試專用 AI 代理程式。
基本概念是鼓勵廣泛參與創建適用於 Windows 11 的 AI 代理,從而實現各種任務的自動化。此框架完全開源且適應性強,讓開發人員可以使用本機資源或 Microsoft 的 Azure 機器學習雲端基礎架構來同時試用和執行多個代理程式。
透過與 Azure 集成,WAA 提供了真實的 Windows 11 體驗,使開發人員能夠了解 AI 代理程式如何在真正的 Windows 設定中而不是有限的模擬中發揮作用。
對於日常用戶來說,這似乎有點技術性,但讓我們簡化一下 AI 代理程式的建構方式:
- 開發人員可以存取 Windows Agent Arena,這是一個用於在 Windows 11 上編碼、測試和基準測試 AI 代理程式的專用平台。
- 微軟創建了預設的「AI Agent」模板,為開發人員提供了基礎。
- 使用這些模板,開發人員可以開始建立獨特的 AI 代理,旨在解決 Windows 11 上的常見使用者問題。
- 例如,如果您有大量照片分散在桌面和各個資料夾中,AI 代理程式可以協助自動批次重命名、壓縮和變更其檔案副檔名。這說明了 AI 代理如何解決 Windows 11 上的實際任務。
- 除了建立人工智慧代理之外,開發人員還可以評估其性能和安全性。雖然 AI 代理程式在 Windows 11 上本地運行,但 Microsoft 已將基準測試工具納入 WAA 以解決效能問題。
- 首先,開發人員將使用 WSL 2、OpenAI 或 AzureOpen API 金鑰、Python 3.9 設定 Docker,複製 WAA 儲存庫、安裝相依性並利用 Windows 企業評估 ISO。
- 開發人員可以在本地端執行 AI 代理程式或利用 Azure 的雲端解決方案進行測試。
微軟的 Francesco Bonacci 表示,該框架為研究人員提供了完善人工智慧模型的工具,增強了他們理解和參與標準桌面環境的能力。
Windows Agent Arena 有多強?
研究論文《Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale 》由Rogerio Bonatti、Dan Zhu、Francesco Bonacci、Dillon Dupont、Sara Abdali、Yinheng Li、Yadong Lu、Justin Wagle、Kazuhito Koishida團隊撰寫、Lawrence Bucker團隊撰寫、 Buckerto Koishida Jang和Zack Hui表示,最初的 WAA 模型可以在 Windows 11 上成功執行多達 150 個不同的任務。
這些任務可能是什麼類型?雖然具體細節可能有所不同,但它們涵蓋了您通常在電腦上執行的大多數功能。
「例如,」Francesco Bonacci 補充道,「您可以指示 AI 安裝瀏覽器擴充功能、調整設置,甚至在 Paint 中建立簡單的繪圖。人工智慧利用先進的語言和視覺模型來理解螢幕上的文字和視覺訊息,使其能夠確定適當的操作。 Windows Agent Arena 提供了一個場所來評估這些 AI 代理程式在從瀏覽到文件編輯等一系列任務中的有效性,所有這些都在真實的 Windows 作業系統中進行。
任務可能包括修改 Microsoft Edge 或 Chrome 中的設置,例如,要求 AI 代理啟用隱私模式、清除 cookie 或切換預設搜尋引擎。
您可以利用 LibreOffice Writer 或 Calc 等應用程式的 AI 代理程式來編輯各種文件和電子表格。對於開發人員來說,AI 代理可以在您觀察其操作的同時協助安裝擴充功能或修改程式碼。
這些只是一些想法;潛在的應用是巨大的。 AI 代理程式可以與 Windows 11 上的一系列應用程式交互,包括記事本、畫圖或時鐘。其他範例包括:
- 在「畫圖」中將繪圖儲存為「circle.png」並儲存在「下載」資料夾中
- 將桌面背景變更為純色
- 禁用系統通知
- 啟用夜燈並將其設定為從晚上 7 點運行到日出
- 將目前文件匯出為 PDF
- 將前兩個段落的格式設定為雙行間距
- 每句話後面加一個空行
- 在 LibreOffice 中對齊標題中心
- 將文字中的數字2轉換為下標格式
- 將 Times New Roman 設定為預設字體
- 在電子表格中將sheet1重新命名為“LARSScienceAssessment”
- 根據員工的生日對員工名單進行排序
- 序號填寫為「No. “序號”中的#”柱子
- 在 Edge 中啟用「請勿追蹤」設定以增強線上隱私
- 將預設字體大小設為最大選項
- 儲存目前正在檢視的網頁
但 Windows Agent Arena 對於開發人員來說到底有多強大?值得注意的是,開發人員可以選擇依賴本機運算能力或使用 Azure 機器學習 (Azure ML) 擴充其功能。這種靈活性意味著他們可以在雲端測試多個人工智慧代理,而不是受限於單一 PC 的效能限制。
研究論文也介紹了微軟自己的AI代理Navi,它在任務完成方面取得了19.5%的成功率。儘管這落後於人類 74.5% 的比率,但它代表了人工智慧能力的重大進步。
微軟解釋說,Navi 採用“思維鏈提示”,這是一種系統地處理任務並確定如何在 Windows 11 中執行任務的方法。
Navi 透過分析您的顯示並了解遊標位置等元素來評估需要做什麼、正在執行什麼操作以及下一步應該執行什麼,從而完成任務。
為了進一步支援個人化人工智慧代理的創建,微軟還開源了“ Omniparser ”,這是一種複雜的螢幕理解模型。
Windows 11 上的 AI 代理程式前景如何?
Windows Agent Arena 不只是一個概念;它也是一個概念。如果 Microsoft 推出自己的 Windows 11 人工智慧代理版本,我不會感到驚訝。
目前,它仍然是一個仍在進行中的開源項目,成功率不高,Windows 11 上的 AI 代理程式的時間表尚不確定,但它們的到來似乎是不可避免的。
人工智慧代理可能很快就能夠學習您的日常生活,提出更有效率的工作流程,或自動化流程,而無需明確的命令。
也就是說,人工智慧代理確實面臨挑戰,特別是在準確解釋螢幕資訊和管理滑鼠移動以執行諸如在 Paint 中繪圖等任務方面。
發佈留言