Korea Południowa wytrenowała model generatywnej AI, na treściach z Dark Webu i nazwała ją DarkBERT

18 May 2023

Obecnie obserwujemy jeszcze wczesne stadium efektu kuli śnieżnej wywołanej wypuszczeniem na wolność dużych modeli językowych (LLM), takich jak ChatGPT. W połączeniu z oprogramowaniem typu “open source” innych modeli GPT (Generative Pre-Trained Transformer), liczba aplikacji wykorzystujących sztuczną inteligencję eksploduje; a jak wiemy, sam ChatGPT może być wykorzystywany do tworzenia wysoce zaawansowanego złośliwego oprogramowania.

W miarę upływu czasu liczba stosowanych modeli LLM będzie rosła, a każdy z nich będzie specjalizował się we własnym obszarze, szkoląc się na starannie wyselekcjonowanych danych w określonym celu. Właśnie pojawiła się jedna z takich aplikacji, która została przeszkolona na danych z Dark Webu. DarkBERT, jak nazwali go jego południowokoreańscy twórcy, właśnie się pojawił.

DarkBERT opiera się na architekturze RoBERTa, czyli podejściu sztucznej inteligencji opracowanym w 2019 roku. Doczekało się ono swego rodzaju renesansu, a badacze odkryli, że w rzeczywistości ma do zaoferowania znacznie większą wydajność, niż można było z niego wydobyć w 2019 roku. Wygląda na to, że model był poważnie niedoszkolony w momencie premiery, znacznie poniżej swojej maksymalnej wydajności.

Aby wytrenować model, naukowcy przeszukali Dark Web przez anonimizującą zaporę sieci Tor, a następnie przefiltrowali surowe dane (stosując techniki takie jak deduplikacja, równoważenie kategorii i wstępne przetwarzanie danych) w celu wygenerowania bazy danych Dark Web. DarkBERT jest wynikiem wykorzystania tej bazy danych do zasilania RoBERTa Large Language Model, modelu, który może analizować treści Dark Web – napisane we własnych dialektach i mocno zakodowanych wiadomościach – i wydobywać z niego przydatne informacje.

Podobnie jak w przypadku innych LLM, nie oznacza to, że DarkBERT jest skończony, a dalsze szkolenie i dostrajanie może nadal poprawiać jego wyniki. Nie wiadomo jeszcze, w jaki sposób zostanie on wykorzystany i jaką wiedzę będzie można z niego uzyskać.