Windows 11 向けの革新的な Microsoft AI エージェント コンセプトが PC エクスペリエンスを変革する可能性があります
Windows 11 コンピューターが人間と同じようにタスクを実行できるとしたらどうでしょう。Microsoft は、まさにそれを革新的なコンセプトで実現しようとしています。WindowsLatest.com は最近、Microsoft AI の研究者にインタビューし、「Windows Agent Arena」の詳細について掘り下げました。
最近のニュース、特にClaude の AI エージェントに関するニュースで、「AI エージェント」という言葉を目にしたことがあるかもしれません。しかし、Microsoft は数か月前から「AI エージェント」のアイデアを開発しており、研究論文も発表しています。「Windows Agent Arena」プロジェクトは9 月にオープンソースとしてリリースされました。
Microsoft の進歩を注意深く見守っている人なら、同社が AI 競争の最前線にいることをご存知でしょう。同社の AI 部門は、独立した開発者や研究者がさまざまな言語モデルを扱えるようにするツールの開発に全力で取り組んでいます。
Microsoft AI は、完全にオープンソースの Windows Agent Arenaを発表しました。このフレームワークは、研究者や開発者が AI エージェントを作成およびテストするのをサポートします。Windows 11 用の AI エージェントを開発および評価するために必要なすべてのツールを提供するように設計されています。しかし、PC 上の AI エージェントには何が含まれるのでしょうか?
その有用性を理解するために、AI エージェントの実際の例をいくつか見てみましょう。
毎朝、メール、カレンダー、お気に入りのニュース Web サイトを個別に起動する代わりに、「朝のセットアップを開始」と命令するだけで済みます。すると、AI エージェントがそれらのアプリケーションをすべて一度に開きます。
Windows 11 AI エージェントのもう 1 つの機能には、口頭の指示に基づいて PC 設定を変更することが含まれます。オンライン プライバシーが心配で、Microsoft Edge で「Do Not Track」機能をオンにしたい場合は、AI エージェントが代わりに処理します。
これがどのように動作するかを詳しく見てみましょう:
- AI エージェントはあなたのリクエストを解釈し、Edge で「Do Not Track」機能を有効にしたいことを理解します。
- コマンドに従って、Microsoft Edge が起動します。
- エージェントは、3 つのドットをクリックしてメイン メニューをナビゲートします。これは、人間の介入なしに自律的に実行されるタスクです。
- 次に、ドロップダウンオプションから「設定」を選択します。
- 設定ページで、「プライバシー、検索、サービス」セクションを見つけ、スクロールして「トラッキング拒否」の切り替えを見つけます。
すると、エージェントがあなたの目の前で「Do Not Track」オプションを自動的に有効にします。
Microsoft は、Applied Sciences ブログで次のような追加の例を公開しています。
例 1: Microsoft Edge で Do Not Track を有効にする AI エージェント
例 2: VSCode に Pylance 拡張機能をインストールする AI エージェント。
例3: AIエージェントが検索エンジンの設定を変更する
例4: AIエージェントがVLC設定を変更して録画保存フォルダを調整する
例 5: AI エージェントがペイントを開いて絵を描く
例 6: AI エージェントが Edge プロファイルの名前を変更する
信じられないですよね?
Windows Agent Arena プロジェクトはエキサイティングな進化を遂げており、これらの事例は、特に Windows 11 のような OS で起こり得ることのほんの一部に過ぎません。
Windows Agent Arena の目的は、サポート力のあるオープンソース フレームワークを確立し、開発者や研究者が Windows 11 向けにカスタマイズされた独自の AI エージェントを作成し、ベンチマークできるようにすることです。
Windows Agent Arena には具体的に何が含まれますか?
「Copilot や ChatGPT などの AI アシスタントは、数え切れないほど多くのユーザーにとって非常に有益であることが証明されています。これらのツールは、高度な言語モデルを利用して、コードの修正から夕食のレシピの提案まで、さまざまなタスクを支援します。これらのモデルがさらに高度になるにつれて、AI アシスタントの将来の可能性について推測しています」と、このプロジェクトに携わる Microsoft AI 研究者の Francesco Bonacci 氏は説明します。
「Windows 環境でタスクを実行できる AI エージェントのテストと開発に特化したフレームワーク、Windows Agent Arena をご紹介します。これらのエージェントは、画面を見て理解し、クリック、入力、またはアプリケーションの起動によって PC と対話して、手動で行うのと同じようにタスクを実行できるインテリジェント アシスタントであると想像してください。」
ご存じない方のために説明すると、Microsoft AI は、Copilot、Edge、その他の AI イノベーションに取り組む Microsoft の新しい部門です。画期的な小型言語モデル Phi-3 を覚えていますか? これも Microsoft AI から生まれました。この部門は、元 Google DeepMind 幹部で現在は Microsoft AI の CEO を務めるMustafa Suleymanが率いています。
Windows Agent Arena (WAA) は、開発者や研究者が Windows 11 向けの特殊な AI エージェントを作成、テスト、ベンチマークできるように支援するために開発されています。
基本的なコンセプトは、Windows 11 用の AI エージェントの作成への幅広い参加を促進し、さまざまなタスクの自動化を可能にすることです。フレームワークは完全にオープンソースで適応性があり、開発者はローカル リソースまたは Microsoft の Azure Machine Learning クラウド インフラストラクチャを使用して、複数のエージェントを同時に試用および実行できます。
WAA は Azure に統合されているため、リアルな Windows 11 エクスペリエンスへのアクセスを提供し、開発者は限定的なシミュレーションではなく、本物の Windows セットアップで AI エージェントがどのように機能するかを確認できます。
これは日常のユーザーにとっては少し技術的に思えるかもしれませんが、AI エージェントの構築方法を簡略化してみましょう。
- 開発者は、Windows 11 上で AI エージェントのコーディング、テスト、ベンチマーク テストを行うための専用プラットフォームである Windows Agent Arena にアクセスできます。
- Microsoft は、開発者向けの基盤として、デフォルトの「AI エージェント」テンプレートを作成しました。
- これらのテンプレートを使用すると、開発者は Windows 11 上の一般的なユーザーの問題を解決するように設計された独自の AI エージェントの構築を開始できます。
- たとえば、デスクトップやさまざまなフォルダーに多数の写真が散在している場合、AI エージェントはそれらのファイルの名前変更、圧縮、およびファイル拡張子の変更を一括して自動的に行うことができます。これは、AI エージェントが Windows 11 で実際のタスクを解決できる方法を示しています。
- AI エージェントの構築だけでなく、開発者はパフォーマンスとセキュリティを評価できます。AI エージェントは Windows 11 上でローカルに機能しますが、Microsoft はパフォーマンスの問題に対処するために WAA にベンチマーク ツールを組み込んでいます。
- まず、開発者は WSL 2、OpenAI または AzureOpen API キー、Python 3.9 を使用して Docker をセットアップし、WAA リポジトリをクローンし、依存関係をインストールし、Windows Enterprise Evaluation ISO を利用します。
- 開発者は AI エージェントをローカルで実行したり、Azure のクラウド ソリューションを活用してテストしたりできます。
Microsoft の Francesco Bonacci 氏によると、このフレームワークは研究者に AI モデルを改良するためのツールを提供し、標準的なデスクトップ環境を理解して使用する能力を高めます。
Windows Agent Arena はどの程度堅牢ですか?
Rogerio Bonatti、Dan Zhao、Francesco Bonacci、Dillon Dupont、Sara Abdali、Yinheng Li、Yadong Lu、Justin Wagle、Kazuhito Koishida、Arthur Bucker、Lawrence Jang、Zack Huiを含むチームによって執筆された研究論文「Windows Agent Arena:大規模なマルチモーダル OS エージェントの評価」によると、初期の WAA モデルは Windows 11 上で最大 150 の異なるタスクを正常に実行できることが示されています。
これらはどのような種類のタスクでしょうか? 具体的な内容はさまざまですが、コンピューターで通常実行するほとんどの機能が含まれます。
「たとえば、ブラウザ拡張機能のインストール、設定の調整、ペイントでの簡単な描画など、AI に指示することができます」とフランチェスコ ボナッチ氏は付け加えました。「AI は高度な言語モデルと視覚モデルを活用して、画面上のテキスト情報と視覚情報を理解し、適切なアクションを決定できます。Windows Agent Arena は、本物の Windows オペレーティング システム内で、ブラウジングからドキュメント編集まで、さまざまなタスクにわたってこれらの AI エージェントの有効性を評価する場を提供します。」
タスクには、Microsoft Edge または Chrome の設定の変更 (たとえば、AI エージェントにプライバシー モードの有効化、Cookie の消去、既定の検索エンジンの切り替えを依頼する) が含まれる場合があります。
LibreOffice Writer や Calc などのアプリケーションで AI エージェントを活用して、さまざまなドキュメントやスプレッドシートを編集できます。開発者にとって、AI エージェントは、その動作を観察しながら拡張機能のインストールやコードの変更を支援できます。
これらはほんの一例であり、潜在的な用途は多岐にわたります。AI エージェントは、メモ帳、ペイント、時計など、Windows 11 上のさまざまなアプリケーションと連携できます。その他の例としては、次のものがあります。
- ペイントで描いた絵を「circle.png」としてダウンロードフォルダに保存します。
- デスクトップの背景を単色に変更する
- システム通知を無効にする
- 夜間照明を有効にして、午後7時から日の出まで作動するように設定します
- 現在のドキュメントをPDFとしてエクスポートする
- 最初の2つの段落を2行間隔でフォーマットする
- 各文の後に空行を追加する
- LibreOfficeで見出しを中央揃えにする
- テキスト内の数字2を下付き文字形式に変換する
- Times New Romanをデフォルトのフォントとして設定する
- スプレッドシートの sheet1 の名前を「LARSScienceAssessment」に変更します。
- 従業員のリストを誕生日に基づいて並べ替える
- 「Seq No.」列に「No. #」としてシーケンス番号を入力します。
- オンラインプライバシーを強化するために、Edge で「追跡しない」設定を有効にします
- デフォルトのフォントサイズを最大オプションに設定する
- 現在表示しているウェブページを保存する
しかし、Windows Agent Arena は開発者にとってどれほど強力なのでしょうか? 特に、開発者はローカルのコンピューティング能力に頼るか、Azure Machine Learning (Azure ML) を使用して機能を拡張するかを選択できます。この柔軟性により、単一の PC のパフォーマンス制約に制限されることなく、クラウドで複数の AI エージェントをテストできます。
この研究論文では、タスク完了の成功率が 19.5% に達した Microsoft 独自の AI エージェント「Navi」も紹介されています。これは人間の成功率 74.5% には及ばないものの、AI 機能の大きな進歩を表しています。
Microsoft は、Navi はタスクに体系的にアプローチし、Windows 11 内でタスクを実行する方法を決定する方法である「思考の連鎖プロンプト」を採用していると説明しました。
Navi は、ディスプレイを分析し、カーソルの位置などの要素を理解することで、実行する必要がある操作、実行中のアクション、次に実行する必要がある操作を評価し、タスクを完了します。
パーソナライズされた AI エージェントの作成をさらにサポートするために、Microsoft は洗練された画面理解モデルである「 Omniparser 」もオープンソース化しました。
Windows 11 上の AI エージェントの将来はどうなるのでしょうか?
Windows Agent Arena は単なる概念ではありません。Microsoft が Windows 11 用の AI エージェントの独自バージョンを導入しても驚きません。
現在、これはオープンソース プロジェクトとして進行中であり、成功率は中程度です。Windows 11 での AI エージェントのタイムラインは不確定ですが、その登場は避けられないと思われます。
AI エージェントは近い将来、ユーザーの日常業務を学習し、より効率的なワークフローを提案したり、明示的なコマンドを必要とせずにプロセスを自動化したりできるようになるかもしれません。
とはいえ、AI エージェントは、特に画面上の情報を正確に解釈したり、ペイントでの描画などのタスクでマウスの動きを管理したりする点で課題に直面しています。
コメントを残す