Devin AI – rewolucja w programowaniu, która (na razie) nie nadeszła

Devin, okrzyknięty pierwszym na świecie „AI Software Engineer”, miał zrewolucjonizować sposób, w jaki programiści tworzą kod. Zaprezentowany przez Cognition AI jako przełomowe narzędzie, miał zarabiać na platformach freelancerskich, wykonywać skomplikowane zadania programistyczne i oszczędzać czas ludziom. Jednak rzeczywistość nie sprostała zapowiedziom.
Testy przeprowadzone przez niezależnych ekspertów i programistów wykazały, że Devin nie radzi sobie z większością powierzonych mu zadań. Na 20 testów wykonanych przez badaczy z Answer.AI, asystent ukończył zaledwie trzy, a czas realizacji często wydłużał się wielokrotnie w porównaniu z pracą człowieka.
Czy Devin rzeczywiście potrafi kodować?
Podczas oficjalnej prezentacji Cognition AI, Devin miał być narzędziem zdolnym do realizowania projektów od podstaw, naprawiania błędów w kodzie i wdrażania gotowych aplikacji. Firma pokazała również film, na którym AI podejmuje się zadań na Upwork – popularnej platformie dla freelancerów.
Jednak szybko pojawiły się wątpliwości co do rzetelności tych demonstracji. Programista Carl Brown sprawdził jedno z rzekomo wykonalnych przez AI zadań i doszedł do zupełnie innych wniosków. Samodzielnie ukończył je w 36 minut, podczas gdy Devin po sześciu godzinach nadal nie potrafił go dokończyć.
Podobne wyniki uzyskał zespół Answer.AI – spośród 20 zadań, AI zdołało ukończyć jedynie trzy. W jednym przypadku z powodzeniem przeniosło bazę Notion do Google Sheets, choć kod był zbyt rozwlekły i wymagał optymalizacji. Innym sukcesem było stworzenie trackera planetarnego, jednak dalsze testy obnażyły istotne ograniczenia systemu.
Gdzie leży problem?
Badacze zwrócili uwagę na kilka kluczowych kwestii:
- Wydajność i czas realizacji – proste zadania, które człowiek wykonywał w kilkadziesiąt minut, zajmowały Devinowi wielokrotnie dłużej.
- Nieefektywność kodu – generowane rozwiązania były często nadmiernie skomplikowane, przez co trudne do utrzymania i optymalizacji.
- Problemy z podejmowaniem decyzji – Devin często brnął w ślepy zaułek, wykonując zadania, które okazywały się niemożliwe do realizacji.
- Brak umiejętności samooceny – AI nie potrafiła efektywnie ocenić, czy obrana ścieżka rozwiązania jest właściwa.
Naukowcy z Answer.AI przyznali, że w prostych zadaniach tzw. „glue code” Devin radził sobie lepiej, jednak im bardziej skomplikowane było zadanie, tym więcej problemów napotykał.

Czy Devin ma przyszłość?
Cognition AI wciąż twierdzi, że Devin jest wartościowym narzędziem i może być przydatny w dzieleniu dużych zadań na mniejsze segmenty. Na swojej stronie firma sugeruje, że AI najlepiej sprawdza się w prostych poprawkach i debugowaniu, a użytkownicy powinni dawać mu zadania, których rozwiązanie sami dobrze znają.
W kontekście tych ograniczeń warto zauważyć, że Mark Zuckerberg prognozuje, iż w 2025 roku AI zacznie zastępować średnio zaawansowanych inżynierów oprogramowania. Jednak zaznacza, że na początku technologia będzie droga i wymagać będzie optymalizacji. Devin może być pierwszym krokiem w tym kierunku, ale na razie nie jest to narzędzie gotowe do samodzielnej pracy.