Revolutionäres Microsoft-KI-Agenten-Konzept für Windows 11 könnte Ihr PC-Erlebnis verändern
Stellen Sie sich vor, Ihr Windows 11-Computer könnte Aufgaben genauso ausführen wie ein Mensch. Microsoft erforscht genau dies mit einem revolutionären Konzept. WindowsLatest.com hat kürzlich mit einem Forscher von Microsoft AI gesprochen, um die Details der „Windows Agent Arena“ zu untersuchen.
Möglicherweise sind Sie in den letzten Schlagzeilen auf den Begriff „KI-Agenten“ gestoßen, insbesondere im Zusammenhang mit Claudes KI-Agent . Microsoft entwickelt die Idee des „KI-Agenten“ jedoch schon seit mehreren Monaten und hat sogar eine Forschungsarbeit veröffentlicht . Das Projekt „Windows Agent Arena“ wurde im September als Open Source veröffentlicht .
Wer die Fortschritte von Microsoft aufmerksam verfolgt, weiß, dass das Unternehmen im KI-Rennen ganz vorne mit dabei ist. Die KI-Abteilung des Unternehmens arbeitet auf Hochtouren und entwickelt Tools, die es unabhängigen Entwicklern und Forschern ermöglichen, mit verschiedenen Sprachmodellen zu arbeiten.
Microsoft AI hat die vollständig quelloffene Windows Agent Arena vorgestellt . Dieses Framework unterstützt Forscher und Entwickler bei der Erstellung und Prüfung ihrer KI-Agenten. Es soll alle notwendigen Tools zur Entwicklung und Evaluierung von KI-Agenten für Windows 11 bereitstellen. Aber was beinhaltet ein KI-Agent auf einem PC?
Um ihre Nützlichkeit zu verstehen, sehen wir uns einige praktische Beispiele von KI-Agenten an.
Anstatt jeden Morgen Ihre E-Mails, Ihren Kalender und Ihre bevorzugten Nachrichten-Websites einzeln zu starten, können Sie einfach den Befehl „Starte mein Morgen-Setup“ eingeben. Der KI-Agent öffnet dann alle diese Anwendungen auf einmal für Sie.
Eine weitere Funktion eines KI-Agenten von Windows 11 könnte darin bestehen, Ihre PC-Einstellungen basierend auf Ihren mündlichen Anweisungen zu ändern. Wenn Sie sich Sorgen um Ihre Online-Privatsphäre machen und die Funktion „Nicht verfolgen“ in Microsoft Edge aktivieren möchten, kann der KI-Agent dies für Sie übernehmen.
Hier sehen Sie genauer, wie das funktionieren würde:
- Der KI-Agent interpretiert Ihre Anfrage und versteht, dass Sie die Funktion „Nicht verfolgen“ in Edge aktivieren möchten.
- Auf Ihren Befehl hin wird Microsoft Edge gestartet.
- Der Agent würde durch Klicken auf die drei Punkte durch das Hauptmenü navigieren – eine Aufgabe, die er autonom ohne menschliches Eingreifen ausführt.
- Als Nächstes wählen Sie „Einstellungen“ aus den Dropdown-Optionen aus.
- Suchen Sie auf der Seite „Einstellungen“ nach dem Abschnitt „Datenschutz, Suche und Dienste“. Scrollen Sie durch, um den Schalter für „Nicht verfolgen“ zu finden.
Der Agent aktiviert dann automatisch die Option „Do Not Track“ direkt vor Ihren Augen!
Microsoft hat in seinem Applied Sciences-Blog weitere Beispiele veröffentlicht, darunter:
Beispiel 1: AI Agent aktiviert „Do Not Track“ in Microsoft Edge
Beispiel 2: AI Agent installiert die Pylance-Erweiterung in VSCode .
Beispiel 3: KI-Agent ändert Ihre Suchmaschineneinstellungen
Beispiel 4: AI Agent ändert die VLC-Einstellungen, um den Speicherordner für Aufnahmen anzupassen
Beispiel 5: KI-Agent öffnet Paint und erstellt eine Zeichnung für Sie
Beispiel 6: AI Agent benennt Ihr Edge-Profil um
Unglaublich, oder?
Das Windows Agent Arena-Projekt markiert eine spannende Entwicklung und diese Fälle kratzen nur an der Oberfläche dessen, was passieren kann, insbesondere auf einem Betriebssystem wie Windows 11.
Der Zweck der Windows Agent Arena besteht darin, ein unterstützendes Open-Source-Framework zu etablieren, das es Entwicklern und Forschern ermöglicht, ihre eigenen, auf Windows 11 zugeschnittenen KI-Agenten zu erstellen und zu vergleichen.
Was genau beinhaltet Windows Agent Arena?
„KI-Assistenten wie Copilot und ChatGPT haben sich für zahllose Benutzer als äußerst nützlich erwiesen. Diese Tools verwenden ausgefeilte Sprachmodelle, um bei einer Vielzahl von Aufgaben zu helfen, von der Korrektur von Code bis hin zum Vorschlagen von Abendessenrezepten. Da diese Modelle immer ausgefeilter werden, spekulieren wir über zukünftige Möglichkeiten für KI-Assistenten“, erklärte Francesco Bonacci, ein am Projekt beteiligter KI-Forscher von Microsoft.
„Wir stellen Windows Agent Arena vor, ein Framework, das sich dem Testen und Entwickeln von KI-Agenten widmet, die Aufgaben in einer Windows-Umgebung ausführen können. Stellen Sie sich diese Agenten als intelligente Assistenten vor, die Ihren Bildschirm sehen, verstehen und dann mit Ihrem PC interagieren können, indem sie klicken, tippen oder Anwendungen starten, um Ihnen bei Aufgaben zu helfen – ganz so, wie Sie es manuell tun würden.“
Für diejenigen, die es nicht wissen: Microsoft AI ist eine neue Abteilung bei Microsoft, die an Copilot, Edge und anderen KI-Innovationen arbeitet. Erinnern Sie sich an das bahnbrechende kleine Sprachmodell Phi-3 ? Es stammt ebenfalls von Microsoft AI. Die Abteilung wird vom ehemaligen Google DeepMind-Manager Mustafa Suleyman geleitet , der derzeit als CEO von Microsoft AI fungiert.
Windows Agent Arena (WAA) wird entwickelt, um Entwickler und Forscher beim Erstellen, Testen und Benchmarking spezialisierter KI-Agenten für Windows 11 zu unterstützen.
Das Grundkonzept besteht darin, eine breite Beteiligung an der Erstellung von KI-Agenten für Windows 11 zu fördern und so die Automatisierung verschiedener Aufgaben zu ermöglichen. Das Framework ist vollständig Open Source und anpassbar, sodass Entwickler entweder lokale Ressourcen oder die Azure Machine Learning-Cloud-Infrastruktur von Microsoft verwenden können, um mehrere Agenten gleichzeitig zu testen und auszuführen.
Durch die Integration in Azure bietet WAA Zugriff auf ein realistisches Windows 11-Erlebnis und ermöglicht es Entwicklern, zu sehen, wie KI-Agenten in einer echten Windows-Konfiguration und nicht nur in einer eingeschränkten Simulation funktionieren würden.
Für einen normalen Benutzer mag dies etwas technisch erscheinen, aber lassen Sie uns vereinfachen, wie KI-Agenten aufgebaut sind:
- Entwickler haben Zugriff auf die Windows Agent Arena, eine dedizierte Plattform zum Codieren, Testen und Benchmarktests von KI-Agenten unter Windows 11.
- Microsoft hat eine Standardvorlage für den „AI Agent“ erstellt, die Entwicklern eine Grundlage bietet.
- Mithilfe dieser Vorlagen können Entwickler mit der Erstellung einzigartiger KI-Agenten beginnen, die darauf ausgelegt sind, gängige Benutzerprobleme unter Windows 11 zu lösen.
- Wenn Sie beispielsweise zahlreiche Fotos über Ihren Desktop und in verschiedenen Ordnern verstreut haben, könnte ein KI-Agent dabei helfen, die Dateierweiterungen automatisch stapelweise umzubenennen, zu komprimieren und zu ändern. Dies zeigt, wie KI-Agenten reale Aufgaben unter Windows 11 lösen können.
- Über die Erstellung von KI-Agenten hinaus können Entwickler deren Leistung und Sicherheit bewerten. Während KI-Agenten unter Windows 11 lokal funktionieren, hat Microsoft Benchmarking-Tools in WAA integriert, um Leistungsprobleme zu beheben.
- Zu Beginn richten Entwickler Docker mithilfe von WSL 2, einem OpenAI- oder AzureOpen-API-Schlüssel und Python 3.9 ein, klonen das WAA-Repository, installieren Abhängigkeiten und nutzen das Windows Enterprise Evaluation ISO.
- Entwickler können ihre KI-Agenten lokal ausführen oder zum Testen die Cloud-Lösungen von Azure nutzen.
Laut Francesco Bonacci von Microsoft bietet dieses Framework Forschern die Werkzeuge zur Verfeinerung ihrer KI-Modelle und verbessert so ihre Fähigkeit, eine standardmäßige Desktopumgebung zu verstehen und mit ihr zu interagieren.
Wie robust ist Windows Agent Arena?
Die Forschungsarbeit „ Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale “, verfasst von einem Team, zu dem Rogerio Bonatti , Dan Zhao , Francesco Bonacci , Dillon Dupont , Sara Abdali , Yinheng Li , Yadong Lu , Justin Wagle , Kazuhito Koishida , Arthur Bucker , Lawrence Jang und Zack Hui gehören , weist darauf hin, dass das ursprüngliche WAA-Modell bis zu 150 verschiedene Aufgaben unter Windows 11 erfolgreich ausführen kann.
Welche Aufgabentypen könnten das sein? Die Einzelheiten können zwar unterschiedlich sein, sie umfassen jedoch die meisten Funktionen, die Sie normalerweise auf Ihrem Computer ausführen.
„Beispielsweise“, fügte Francesco Bonacci hinzu, „können Sie die KI anweisen, Browsererweiterungen zu installieren, Einstellungen anzupassen oder sogar einfache Zeichnungen in Paint zu erstellen. Die KI nutzt fortschrittliche Sprach- und Bildmodelle, um Text- und Bildinformationen auf Ihrem Bildschirm zu verstehen und entsprechende Maßnahmen zu ergreifen. Windows Agent Arena bietet eine Plattform, um die Wirksamkeit dieser KI-Agenten bei einer Reihe von Aufgaben zu bewerten, vom Surfen bis zur Dokumentbearbeitung, und das alles innerhalb eines authentischen Windows-Betriebssystems.“
Zu den Aufgaben kann das Ändern von Einstellungen in Microsoft Edge oder Chrome gehören, beispielsweise das Auffordern eines KI-Agenten, den Datenschutzmodus zu aktivieren, Cookies zu löschen oder die Standardsuchmaschine zu ändern.
Sie können einen KI-Agenten für Anwendungen wie LibreOffice Writer oder Calc nutzen, um verschiedene Dokumente und Tabellen zu bearbeiten. Entwicklern kann ein KI-Agent dabei helfen, Erweiterungen zu installieren oder Code zu ändern, während Sie seine Funktionsweise beobachten.
Dies sind nur einige Ideen; die potenziellen Anwendungen sind zahlreich. Die KI-Agenten könnten mit einer Reihe von Anwendungen unter Windows 11 interagieren, darunter Notepad, Paint oder Clock. Weitere Beispiele sind:
- Speichern Sie eine Zeichnung in Paint als „circle.png“ in Ihrem Download-Ordner
- Ändern Sie den Desktop-Hintergrund in eine Volltonfarbe
- Systembenachrichtigungen deaktivieren
- Aktivieren Sie das Nachtlicht und stellen Sie es so ein, dass es von 19 Uhr bis zum Sonnenaufgang eingeschaltet ist.
- Aktuelles Dokument als PDF exportieren
- Formatieren Sie die ersten beiden Absätze mit doppeltem Zeilenabstand.
- Fügen Sie nach jedem Satz eine Leerzeile ein
- Überschriften in LibreOffice zentrieren
- Konvertieren Sie die Zahl 2 im Text in das Indexformat
- Times New Roman als Standardschriftart festlegen
- Benennen Sie Blatt1 in Ihrer Tabelle in „LARSScienceAssessment“ um.
- Sortieren Sie eine Liste der Mitarbeiter nach ihren Geburtstagen
- Tragen Sie die Sequenznummern als „Nr. #“ in die Spalte „Seq.-Nr.“ ein.
- Aktivieren Sie die Einstellung „Do Not Track“ in Edge für mehr Online-Privatsphäre
- Stellen Sie die Standardschriftgröße auf die größte Option ein
- Speichern Sie die aktuell angezeigte Webseite
Aber wie leistungsstark ist Windows Agent Arena für Entwickler? Insbesondere können Entwickler wählen, ob sie auf lokale Rechenleistung zurückgreifen oder ihre Fähigkeiten mithilfe von Azure Machine Learning (Azure ML) erweitern möchten. Diese Flexibilität bedeutet, dass sie mehrere KI-Agenten in der Cloud testen können, anstatt auf die Leistungsbeschränkungen eines einzelnen PCs beschränkt zu sein.
In der Forschungsarbeit wurde auch Microsofts eigener KI-Agent namens Navi vorgestellt, der bei der Aufgabenerledigung eine Erfolgsquote von 19,5 % erreicht hat. Dies liegt zwar unter der menschlichen Quote von 74,5 %, stellt aber einen erheblichen Fortschritt bei den KI-Fähigkeiten dar.
Microsoft erklärte, dass Navi eine „Gedankenketten-Eingabeaufforderung“ verwendet, eine Methode, um Aufgaben systematisch anzugehen und zu bestimmen, wie sie in Windows 11 ausgeführt werden sollen.
Navi beurteilt, was zu tun ist, welche Aktionen es durchführt und was es als Nächstes ausführen sollte, indem es Ihre Anzeige analysiert und Elemente wie die Position des Cursors versteht und so die Aufgabe abschließt.
Um die Erstellung personalisierter KI-Agenten weiter zu unterstützen, hat Microsoft außerdem „ Omniparser “, ein ausgeklügeltes Bildschirmverständnismodell, als Open Source bereitgestellt.
Was erwartet uns bei KI-Agenten unter Windows 11?
Die Windows Agent Arena ist mehr als nur ein Konzept; es würde mich nicht überraschen, wenn Microsoft eigene Versionen von AI Agents für Windows 11 einführen würde.
Derzeit handelt es sich noch um ein Open-Source-Projekt mit bescheidener Erfolgsquote. Der Zeitplan für KI-Agenten unter Windows 11 ist ungewiss, aber ihre Einführung scheint unvermeidlich.
KI-Agenten könnten schon bald in der Lage sein, Ihre täglichen Routinen zu erlernen, effizientere Arbeitsabläufe vorzuschlagen oder Prozesse zu automatisieren, ohne dass explizite Befehle erforderlich sind.
Allerdings stehen KI-Agenten vor Herausforderungen, insbesondere bei der genauen Interpretation von Bildschirminformationen und der Verwaltung von Mausbewegungen für Aufgaben wie das Zeichnen in Paint.
Schreibe einen Kommentar