Microsoft Fara-7B – kompaktowy agent AI, który obsługuje komputer jak człowiek, patrząc tylko na zrzut ekranu

Microsoft zaprezentował Fara-7B – pierwszy mały model językowy (SLM) zaprojektowany do autonomicznej obsługi komputera. W przeciwieństwie do gigantycznych systemów AI wymagających chmury obliczeniowej, Fara-7B działa lokalnie na Twoim PC, patrzy tylko na zrzuty ekranu (bez dostępu do dodatkowych danych) i wykonuje zadania jak człowiek – klika, przewija, wpisuje. Model ma zaledwie 7 miliardów parametrów, ale rywalizuje wydajnością z GPT-4o w zadaniach automatyzacji, kosztując 2,5 centa za wykonanie zadania wobec 30 centów dla większych systemów.
Większość tzw. “agentów komputerowych” (Computer Use Agents) to kolosy wymagające ogromnej mocy obliczeniowej i wielu modeli pracujących jednocześnie, by zrozumieć, co dzieje się na ekranie. Fara-7B robi to inaczej – to pojedynczy model, który “widzi” ekran jak człowiek (poprzez screenshoty przeglądarki) i podejmuje decyzje bez potrzeby analizowania drzewa dostępności czy korzystania z dodatkowych systemów. Microsoft trenował model na syntetycznych danych z platformy FaraGen, która symulowała zachowania ludzkie na 70 000 domenach internetowych – z błędami, przewijaniem, wyszukiwaniem i ponownymi próbami. Każda sesja była weryfikowana przez trzech niezależnych “sędziów AI”, a ostatecznie Microsoft zebrał 145 630 zweryfikowanych sesji zawierających ponad milion działań.
Największą zaletą Fara-7B jest możliwość uruchamiania go bezpośrednio na komputerze użytkownika – szczególnie na urządzeniach z Copilot+ PC z Windows 11 i akceleracją NPU. To oznacza niższe opóźnienia i znacznie lepszą prywatność, bo dane nigdy nie opuszczają Twojego urządzenia. Model osiąga imponujące wyniki: 73,5% w WebVoyager, 38,4% w WebTailBench (benchmark skupiony na praktycznych zadaniach jak aplikacje o pracę czy wyszukiwanie nieruchomości) oraz 26,2% w DeepShop. Co więcej, Fara-7B jest znacznie bardziej efektywny – wykonuje zadania średnio w 16 krokach, podczas gdy konkurencyjny model UI-T-15-B potrzebuje aż 41 kroków. W praktyce oznacza to, że model może kupić produkt online, zarezerwować podróż, przeszukać dane i przygotować podsumowanie – wszystko samodzielnie.
Microsoft jest świadomy ryzyk związanych z autonomicznymi agentami. Fara-7B został nauczony rozpoznawania “Punktów Krytycznych” (Critical Points) – sytuacji, w których potrzebne są dane osobowe użytkownika lub jego zgoda przed wykonaniem nieodwracalnej akcji, jak wysłanie e-maila czy finalizacja transakcji. W takich momentach model zatrzymuje się i czeka na wyraźną zgodę użytkownika. Microsoft wydał również prototyp interfejsu Magentic-UI, który ma pomagać w interakcji człowiek-agent, równoważąc bezpieczeństwo z płynnością doświadczenia. Model jest dostępny na Microsoft Foundry i Hugging Face na licencji MIT, a dla użytkowników Copilot+ PC z Windows 11 dostępna jest skwantyzowana, zoptymalizowana wersja o rozmiarze 16,6 GB. Choć Microsoft przestrzega, że Fara-7B to wciąż narzędzie eksperymentalne (nadaje się do pilotaży i prototypów, nie do krytycznych zastosowań biznesowych), jego potencjał jest ogromny – szczególnie w kontekście automatyzacji wrażliwych procesów korporacyjnych, które nie mogą opuszczać firmowych serwerów.





















