Dostosuj preferencje dotyczące zgody

Używamy plików cookie, aby pomóc użytkownikom w sprawnej nawigacji i wykonywaniu określonych funkcji. Szczegółowe informacje na temat wszystkich plików cookie odpowiadających poszczególnym kategoriom zgody znajdują się poniżej.

Pliki cookie sklasyfikowane jako „niezbędne” są przechowywane w przeglądarce użytkownika, ponieważ są niezbędne do włączenia podstawowych funkcji witryny.... 

Zawsze aktywne

Niezbędne pliki cookie mają kluczowe znaczenie dla podstawowych funkcji witryny i witryna nie będzie działać w zamierzony sposób bez nich.Te pliki cookie nie przechowują żadnych danych umożliwiających identyfikację osoby.

Brak plików cookie do wyświetlenia.

Funkcjonalne pliki cookie pomagają wykonywać pewne funkcje, takie jak udostępnianie zawartości witryny na platformach mediów społecznościowych, zbieranie informacji zwrotnych i inne funkcje stron trzecich.

Brak plików cookie do wyświetlenia.

Analityczne pliki cookie służą do zrozumienia, w jaki sposób użytkownicy wchodzą w interakcję z witryną. Te pliki cookie pomagają dostarczać informacje o metrykach liczby odwiedzających, współczynniku odrzuceń, źródle ruchu itp.

Brak plików cookie do wyświetlenia.

Wydajnościowe pliki cookie służą do zrozumienia i analizy kluczowych wskaźników wydajności witryny, co pomaga zapewnić lepsze wrażenia użytkownika dla odwiedzających.

Brak plików cookie do wyświetlenia.

Reklamowe pliki cookie służą do dostarczania użytkownikom spersonalizowanych reklam w oparciu o strony, które odwiedzili wcześniej, oraz do analizowania skuteczności kampanii reklamowej.

Brak plików cookie do wyświetlenia.

Badacze ostrzegają przed „katastrofalnym przetrenowaniem” modeli językowych

Nowe badanie podważa założenie, że więcej danych treningowych zawsze prowadzi do lepszych modeli językowych. Zjawisko „katastrofalnego przetrenowania” utrudnia dostrajanie modeli i pogarsza ich wydajność.

Naukowcy z Carnegie Mellon, Stanford, Harvard i Princeton wprowadzili koncepcję „katastrofalnego przetrenowania” w badaniu „Overtrained Language Models Are Harder to Fine-Tune”. Wykazali, że przedłużone wstępne trenowanie może utrudnić późniejsze dostrajanie modeli językowych.

Kluczowe odkrycie dotyczy modelu OLMo-1B. Porównując wersję trenowaną na 2,3 bilionach tokenów z wersją trenowaną na 3 bilionach tokenów, badacze stwierdzili, że mimo większej ilości danych, drugi model wykazywał o ponad 2% gorsze wyniki po dostrojeniu. W niektórych testach pogorszenie sięgało nawet 3%.

 

 

Badacze przypisują tę degradację „progresywnej wrażliwości” – w miarę przedłużonego treningu parametry modelu stają się bardziej wrażliwe na zmiany, co skutkuje „zapominaniem” wcześniej nabytych umiejętności podczas dostrajania. Dla modelu OLMo-1B punkt krytyczny, po którym dodatkowe trenowanie przynosi negatywne efekty, pojawił się około 2,5 biliona tokenów.

Zespół testował to zjawisko w różnych zadaniach, konsekwentnie obserwując, że przetrenowane modele wykazują gorsze wyniki po dostrojeniu. Skonstruowali również model teoretyczny potwierdzający, że progresywna wrażliwość jest matematycznie nieunikniona przy nieskończonym treningu.

Odkrycia te kwestionują dotychczasowe założenie, że więcej danych treningowych jest zawsze lepsze. Badanie sugeruje kompromis: dłuższe wstępne trenowanie poprawia możliwości modelu bazowego, ale zwiększa ryzyko degradacji podczas dostrajania. Próby złagodzenia tego efektu mogą opóźnić wystąpienie problemu, ale nie eliminują go całkowicie.