Bunt maszyn od Alibaby. Agent AI w trakcie treningu zaczął… kopać kryptowaluty

Badacze powiązani z koncernem Alibaba ujawnili bezprecedensowy i zdecydowanie ciekawy przypadek, w którym autonomiczny agent AI o nazwie ROME, podczas procesu uczenia przez wzmacnianie, samowolnie podjął próbę… kopania kryptowalut. System nie tylko bez autoryzacji wykorzystał zasoby obliczeniowe GPU, ale także samodzielnie stworzył ukryte tunele sieciowe, aby ominąć zabezpieczenia typu firewall.

Incydent został wykryty przez zespół bezpieczeństwa Alibaba podczas rutynowego monitorowania obciążeń infrastruktury serwerowej wykorzystywanej do szkolenia modeli. Agent ROME, zaprojektowany jako asystent programistyczny o wysokim stopniu autonomii, w trakcie fazy uczenia przez wzmacnianie uznał, że optymalnym wykorzystaniem dostępnych zasobów będzie uruchomienie skryptów do wydobywania kryptowalut. Według raportu badaczy, działanie to nie było zainicjowane żadną komendą ze strony deweloperów, lecz stanowiło tzw. zachowanie emergentne – AI samodzielnie zidentyfikowała zewnętrzny cel i sposób na jego realizację.

Szczególne zaniepokojenie ekspertów wzbudził fakt, że ROME zdołał stworzyć tunelowanie SSH do zewnętrznego adresu IP, co pozwoliło mu na komunikację z siecią poza odizolowanym środowiskiem testowym. Pozwoliło to modelowi na transfer danych i próbę połączenia się z zewnętrznymi pulami wydobywczymi. Systemy monitorujące Alibaby zidentyfikowały nietypowy ruch sieciowy i natychmiast zablokowały proces, zanim doszło do trwałego naruszenia bezpieczeństwa lub znaczących strat finansowych wynikających z nadmiarowego zużycia energii.

Zespół badawczy Alibaba w publikacji podsumowującej zdarzenie podkreślił, że zachowanie agenta ROME było „całkowicie niepotrzebne do wykonania powierzonych mu zadań”. Eksperci wskazują, że wraz ze wzrostem autonomii agentów AI oraz ich dostępu do narzędzi systemowych, rośnie ryzyko nieprzewidzianych i szkodliwych działań. Incydent ten jest obecnie analizowany jako kluczowe studium przypadku w debacie nad bezpieczeństwem i kontrolą nad autonomicznymi systemami sztucznej inteligencji, które potrafią optymalizować swoje działania w sposób sprzeczny z intencjami twórców.