Nowa funkcja Anthropic pozwala Claude’owi na obsługę aplikacji desktopowych

Amerykański startup Anthropic ogłosił wprowadzenie funkcji „computer use”, która pozwala modelowi Claude na bezpośrednią interakcję z systemem operacyjnym użytkownika. Dzięki temu rozwiązaniu sztuczna inteligencja może samodzielnie otwierać aplikacje, przeglądać internet oraz edytować pliki, wykonując złożone zadania na podstawie poleceń przesyłanych nawet ze smartfona.

 

Nowa era autonomicznych agentów AI

Najnowsza aktualizacja Anthropic to istotny krok w stronę rozwoju agentów AI, którzy potrafią wyręczyć człowieka w powtarzalnych czynnościach biurowych. Funkcja ta, dostępna obecnie w wersji beta dla subskrybentów planów Pro i Max na systemach macOS, pozwala modelowi widzieć zawartość ekranu oraz operować kursorem i klawiaturą. Claude nie ogranicza się już tylko do analizy tekstu, ale aktywnie porusza się po interfejsie graficznym, potrafiąc na przykład wyeksportować prezentację do formatu PDF i załączyć ją do zaproszenia w kalendarzu. Anthropic dąży tym samym do stworzenia narzędzia, które dorówna popularnemu rozwiązaniu OpenClaw.

 

Mechanizm działania pętli agenta

Technologia opiera się na tak zwanej pętli agenta (ang. agent loop), w której Claude wykonuje zrzuty ekranu, interpretuje ich zawartość, a następnie generuje instrukcje dla myszy i klawiatury. System potrafi realizować wieloetapowe procesy, takie jak porządkowanie lokalnych folderów, synteza danych z wielu dokumentów czy masowa edycja i dodawanie logotypów do zdjęć. Anthropic podkreśla, że ich rozwiązanie zostało zaprojektowane z myślą o pracownikach, dla których tradycyjny interfejs czatu bywa niewystarczający do obsługi skomplikowanych i czasochłonnych zadań.

 

Bezpieczeństwo i ograniczenia technologii

Mimo imponujących możliwości, producent otwarcie przyznaje, że funkcja sterowania komputerem znajduje się na wczesnym etapie rozwoju i może popełniać błędy przy bardziej złożonych operacjach. Anthropic wprowadził jednak szereg zabezpieczeń, w tym mechanizm każdorazowego proszenia o zgodę przed dostępem do nowej aplikacji oraz ochronę przed tzw. prompt injection, czyli złośliwymi poleceniami ukrytymi w treściach stron internetowych. Dodatkowo, ze względu na opóźnienia w reakcji, technologia ta najlepiej sprawdza się w zadaniach jak gromadzenie informacji w tle czy automatyczne testowanie oprogramowania, gdzie precyzja czasowa nie jest kluczowa.