Rewolucyjna koncepcja agentów AI firmy Microsoft dla systemu Windows 11 może odmienić Twoje wrażenia z korzystania z komputera

Rewolucyjna koncepcja agentów AI firmy Microsoft dla systemu Windows 11 może odmienić Twoje wrażenia z korzystania z komputera

Wyobraź sobie, że Twój komputer z systemem Windows 11 mógłby wykonywać zadania tak jak człowiek. Microsoft bada właśnie to za pomocą rewolucyjnej koncepcji. WindowsLatest.com niedawno rozmawiał z badaczem z Microsoft AI, aby zagłębić się w szczegóły „Windows Agent Arena”.

Być może natknąłeś się na termin „AI Agents” w ostatnich nagłówkach, szczególnie w odniesieniu do AI Agent Claude’a . Jednak Microsoft rozwijał ideę „AI Agent” przez kilka miesięcy i opublikował nawet pracę badawczą . Projekt „Windows Agent Arena” został wydany jako open-source we wrześniu .

Jeśli uważnie śledzisz postępy Microsoftu, wiesz, że są na czele wyścigu AI. Ich dział AI jest w pełnym rozkwicie, tworząc narzędzia, które umożliwiają niezależnym programistom i badaczom pracę z różnymi modelami językowymi.

Microsoft AI zaprezentował w pełni open-source’owy Windows Agent Arena . Ta struktura wspiera badaczy i deweloperów w tworzeniu i testowaniu ich agentów AI. Została zaprojektowana, aby zapewnić wszystkie niezbędne narzędzia do opracowywania i oceniania agentów AI dla systemu Windows 11. Ale co obejmuje agent AI na komputerze?

Aby zrozumieć jego przydatność, przyjrzyjmy się kilku praktycznym przykładom agentów AI.

Każdego ranka zamiast uruchamiać każdą z Twoich wiadomości e-mail, kalendarz i preferowaną stronę z wiadomościami osobno, możesz po prostu wydać polecenie „Rozpocznij moją poranną konfigurację”. Następnie agent AI otworzy dla Ciebie wszystkie te aplikacje na raz.

Inną funkcją agenta AI systemu Windows 11 może być modyfikowanie ustawień komputera na podstawie Twoich ustnych instrukcji. Jeśli martwisz się o prywatność online i chcesz włączyć funkcję „Do Not Track” w Microsoft Edge, agent AI może się tym zająć za Ciebie.

Przyjrzyjmy się bliżej, jak to będzie działać:

  • Agent AI zinterpretuje Twoją prośbę, rozumiejąc, że chcesz włączyć funkcję „Nie śledź” w przeglądarce Edge.
  • Po wykonaniu polecenia zostanie uruchomiona przeglądarka Microsoft Edge.
  • Agent poruszałby się po menu głównym, klikając trzy kropki — zadanie to wykonuje autonomicznie, bez ingerencji człowieka.
  • Następnie należy wybrać opcję „Ustawienia” z menu rozwijanego.
  • Na stronie Ustawień znajdź sekcję „Prywatność, wyszukiwanie i usługi”, przewiń ją i znajdź przełącznik „Nie śledź”.

Następnie agent automatycznie włączy opcję „Do Not Track” na Twoich oczach!

Metoda łańcucha AI agenta systemu Windows
Ilustracja działania agenta AI

Firma Microsoft udostępniła dodatkowe przykłady na swoim blogu poświęconym naukom stosowanym, takie jak:

Przykład 1: Agent AI włączający opcję Do Not Track w przeglądarce Microsoft Edge

Przykład 2: Agent AI instalujący rozszerzenie Pylance w VSCode .

Przykład 3: Agent AI zmienia ustawienia Twojej wyszukiwarki

Przykład 4: Agent AI zmienia ustawienia programu VLC, aby dostosować folder przechowywania nagrań

Przykład 5: Agent AI otwiera program Paint i tworzy dla Ciebie rysunek

Przykład 6: Agent AI zmienia nazwę Twojego profilu Edge

Niesamowite, prawda?

Projekt Windows Agent Arena oznacza ekscytujący rozwój, a te przypadki to zaledwie ułamek tego, co może się wydarzyć, szczególnie w przypadku systemu operacyjnego takiego jak Windows 11.

Celem Windows Agent Arena jest stworzenie pomocnego środowiska typu open source, umożliwiającego deweloperom i badaczom tworzenie i testowanie własnych agentów AI dostosowanych do systemu Windows 11.

Na czym dokładnie polega Windows Agent Arena?

„Asystenci AI, tacy jak Copilot i ChatGPT, okazali się niezwykle przydatni dla niezliczonej liczby użytkowników. Narzędzia te wykorzystują zaawansowane modele językowe, aby pomagać w różnych zadaniach, od naprawiania kodu po sugerowanie przepisów na obiad. W miarę jak te modele stają się bardziej zaawansowane, spekulujemy na temat przyszłych możliwości asystentów AI” — wyjaśnił Francesco Bonacci, badacz AI w Microsoft zaangażowany w projekt.

„Przedstawiamy Windows Agent Arena, framework poświęcony testowaniu i rozwijaniu agentów AI zdolnych do wykonywania zadań w środowisku Windows. Wyobraź sobie tych agentów jako inteligentnych asystentów, którzy mogą zobaczyć Twój ekran, zrozumieć go, a następnie wchodzić w interakcję z Twoim komputerem, klikając, pisząc lub uruchamiając aplikacje, aby pomóc Ci w zadaniach — podobnie jak robiłbyś to ręcznie”.

Dla tych, którzy nie są zaznajomieni, Microsoft AI to nowy dział w firmie Microsoft, który pracuje nad Copilot, Edge i innymi innowacjami AI. Pamiętasz przełomowy model małego języka Phi-3 ? On również wywodzi się z Microsoft AI. Działem kieruje były dyrektor Google DeepMind Mustafa Suleyman , który obecnie pełni funkcję dyrektora generalnego Microsoft AI.

Windows Agent Arena (WAA) jest rozwijana, aby pomóc deweloperom i badaczom w tworzeniu, testowaniu i ocenie porównawczej wyspecjalizowanych agentów AI dla systemu Windows 11.

Podstawowym założeniem jest zachęcanie do szerokiego udziału w tworzeniu agentów AI dla systemu Windows 11, umożliwiając automatyzację różnych zadań. Struktura jest w całości typu open source i adaptowalna, co pozwala deweloperom na korzystanie z lokalnych zasobów lub infrastruktury chmury Azure Machine Learning firmy Microsoft w celu testowania i jednoczesnego wykonywania wielu agentów.

Arena agentów systemu Windows
Wykorzystanie platformy Azure do tworzenia wielu agentów poza środowiskiem lokalnym

Dzięki integracji z platformą Azure rozwiązanie WAA zapewnia dostęp do realistycznego środowiska systemu Windows 11, umożliwiając deweloperom sprawdzenie, jak agenci AI będą funkcjonować w prawdziwej konfiguracji systemu Windows, a nie w ograniczonej symulacji.

Może się to wydawać nieco techniczne dla przeciętnego użytkownika, ale uprośćmy sposób, w jaki zbudowani są agenci AI:

  • Programiści mają dostęp do Windows Agent Arena, dedykowanej platformy do kodowania, testowania i przeprowadzania testów porównawczych agentów AI w systemie Windows 11.
  • Firma Microsoft stworzyła domyślny szablon „agenta AI”, stanowiący podstawę dla deweloperów.
  • Korzystając z tych szablonów, deweloperzy mogą zacząć tworzyć wyjątkowych agentów AI, których zadaniem jest rozwiązywanie typowych problemów użytkowników w systemie Windows 11.
  • Na przykład, jeśli masz wiele zdjęć rozrzuconych po pulpicie i w różnych folderach, agent AI może pomóc w zbiorczej zmianie nazw, kompresji i zmianie rozszerzeń plików automatycznie. To ilustruje, jak agenci AI mogą rozwiązywać rzeczywiste zadania w systemie Windows 11.
  • Oprócz tworzenia agentów AI, deweloperzy mogą oceniać ich wydajność i bezpieczeństwo. Podczas gdy agenci AI działają lokalnie w systemie Windows 11, Microsoft włączył narzędzia do testów porównawczych w WAA, aby rozwiązać problemy z wydajnością.
  • Na początek deweloperzy skonfigurują Dockera przy użyciu WSL 2, klucza API OpenAI lub AzureOpen, języka Python 3.9, sklonują repozytorium WAA, zainstalują zależności i wykorzystają obraz ISO systemu Windows Enterprise Evaluation.
  • Programiści mogą uruchamiać swoich agentów AI lokalnie lub korzystać z rozwiązań chmurowych Azure w celu testowania.

Według Francesco Bonacciego z Microsoftu takie ramy udostępniają badaczom narzędzia pozwalające udoskonalać modele sztucznej inteligencji, zwiększając ich zdolność do zrozumienia i korzystania ze standardowego środowiska pulpitu.

Jak niezawodna jest platforma Windows Agent Arena?

Dokument badawczy „ Windows Agent Arena: Ocena agentów multimodalnych systemu operacyjnego na dużą skalę ”, którego autorami są Rogerio Bonatti , Dan Zhao , Francesco Bonacci , Dillon Dupont , Sara Abdali , Yinheng Li , Yadong Lu , Justin Wagle , Kazuhito Koishida , Arthur Bucker , Lawrence Jang i Zack Hui , wskazuje, że początkowy model WAA może pomyślnie wykonywać do 150 różnych zadań w systemie Windows 11.

Agenty AI systemu Windows 11 150 zadań

Jakiego typu zadania mogą to być? Choć szczegóły mogą się różnić, obejmują większość funkcji, które zazwyczaj wykonujesz na swoim komputerze.

„Na przykład” — dodał Francesco Bonacci — „możesz poinstruować AI, aby zainstalowała rozszerzenia przeglądarki, dostosowała ustawienia, a nawet stworzyła proste rysunki w programie Paint. AI wykorzystuje zaawansowane modele języka i wizji, aby zrozumieć informacje tekstowe i wizualne na ekranie, co pozwala jej określić odpowiednie działania. Windows Agent Arena zapewnia miejsce do oceny skuteczności tych agentów AI w zakresie szeregu zadań, od przeglądania po edycję dokumentów, wszystko w ramach autentycznego systemu operacyjnego Windows”.

Zadania mogą obejmować modyfikowanie ustawień w przeglądarkach Microsoft Edge lub Chrome, na przykład proszenie agenta AI o włączenie trybu prywatności, wyczyszczenie plików cookie lub zmianę domyślnej wyszukiwarki.

Możesz wykorzystać AI Agent dla aplikacji takich jak LibreOffice Writer lub Calc, aby edytować różne dokumenty i arkusze kalkulacyjne. Dla programistów AI Agent może pomóc w instalowaniu rozszerzeń lub modyfikowaniu kodu, podczas gdy obserwujesz jego działanie.

To tylko kilka pomysłów; potencjalne zastosowania są ogromne. Agenci AI mogliby współpracować z szeregiem aplikacji w systemie Windows 11, w tym Notatnik, Paint lub Zegar. Dodatkowe przykłady obejmują:

  • Zapisz rysunek w programie Paint jako „circle.png” w folderze Pobrane
  • Zmień tło pulpitu na jednolity kolor
  • Wyłącz powiadomienia systemowe
  • Włącz lampkę nocną i ustaw ją tak, aby działała od godz. 19:00 do wschodu słońca
  • Eksportuj bieżący dokument jako PDF
  • Sformatuj pierwsze dwa akapity tak, aby miały podwójny odstęp między wierszami
  • Dodaj pustą linię po każdym zdaniu
  • Wyrównanie środka nagłówka w LibreOffice
  • Konwertuj liczbę 2 w tekście na format indeksu dolnego
  • Ustaw Times New Roman jako domyślną czcionkę
  • Zmień nazwę arkusza 1 na „LARSScienceAssessment” w arkuszu kalkulacyjnym
  • Sortuj listę pracowników według ich urodzin
  • W kolumnie „Nr sekwencyjny” wpisz numery sekwencyjne jako „Nr #”.
  • Włącz ustawienie „Nie śledź” w przeglądarce Edge, aby zwiększyć prywatność w Internecie
  • Ustaw domyślny rozmiar czcionki na największą opcję
  • Zapisz aktualnie przeglądaną stronę internetową

Ale jak potężny jest Windows Agent Arena dla deweloperów? Co ciekawe, deweloperzy mogą polegać na lokalnej mocy obliczeniowej lub rozszerzyć swoje możliwości za pomocą Azure Machine Learning (Azure ML). Ta elastyczność oznacza, że ​​mogą testować wielu agentów AI w chmurze, zamiast ograniczać się do ograniczeń wydajnościowych pojedynczego komputera.

Arena Agentów i Azure

W artykule badawczym przedstawiono również własnego agenta AI firmy Microsoft o nazwie Navi, który osiągnął 19,5% wskaźnik sukcesu w realizacji zadań. Chociaż jest to wynik niższy od ludzkiego, który wynosi 74,5%, to jednak stanowi znaczący postęp w zakresie możliwości AI.

Microsoft wyjaśnił, że Navi wykorzystuje „podpowiedzi łańcuchowe”, czyli metodę systematycznego podejścia do zadań i określania sposobu ich wykonania w systemie Windows 11.

Navi ocenia, co należy zrobić, jakie działania są podejmowane i co powinno zostać wykonane w następnej kolejności, analizując wyświetlacz i rozumiejąc takie elementy, jak położenie kursora, kończąc w ten sposób zadanie.

Aby jeszcze bardziej wspomóc tworzenie spersonalizowanych agentów AI, firma Microsoft udostępniła na zasadzie open source także „ Omniparser ”, zaawansowany model rozumienia ekranu.

Jaka przyszłość czeka agentów AI w systemie Windows 11?

Windows Agent Arena to coś więcej niż tylko koncepcja. Nie zdziwiłbym się, gdyby Microsoft wprowadził własne wersje AI Agents dla systemu Windows 11.

Obecnie jest to projekt typu open source, który wciąż jest w toku i odnosi umiarkowany sukces. Nie wiadomo jeszcze, kiedy pojawi się AI Agents w systemie Windows 11, ale ich pojawienie się wydaje się nieuniknione.

Agenci AI będą wkrótce w stanie uczyć się codziennych czynności, proponować bardziej wydajne przepływy pracy lub automatyzować procesy bez konieczności wydawania wyraźnych poleceń.

Mimo to agenci AI napotykają na pewne wyzwania, zwłaszcza w zakresie dokładnej interpretacji informacji wyświetlanych na ekranie i zarządzania ruchami myszy podczas takich zadań, jak rysowanie w programie Paint.

Źródło

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *