OpenAI koryguje model sztucznej inteligencji ChatGPT, aby uniknąć podawania niebezpiecznych lub kontrowersyjnych informacji przez ten model

5 December 2022

OpenAI wypuściło w tym tygodniu nowy model językowy o nazwie ChatGPT, który ma naśladować ludzkie konwersacje.

Model ten bazuje na najnowszym systemie generowania tekstów GPT-3.5 wydanym przez firmę na początku tego roku. ChatGPT jest bardziej konwersacyjny niż poprzednie wersje. Może zadawać użytkownikom pytania uzupełniające i powstrzymywać się od reagowania na nieodpowiednie dane, zamiast po prostu generować tekst.

Niektóre przykłady pokazują, że ChatGPT nie będzie udzielał niebezpiecznych porad, gdy zostanie zapytany i może próbować poprawić błędne stwierdzenia. OpenAI uważa, że model powinien być bezpieczniejszy w użyciu, ponieważ został wytrenowany przy użyciu ludzkich opinii. Po podaniu przykładów pomocnych odpowiedzi na losowe podpowiedzi, dane zostały uszeregowane w kolejności od najlepszych do najgorszych, aby ukierunkować system uczenia wzmacniającego na nagradzanie ChatGPT za generowanie dobrych wyników.

W przeciwieństwie do innych modeli językowych ChatGPT, w sprytny sposób omija niewygodne pytania i udziela bezpiecznych odpowiedzi np. pytając się go o sposób przygotowania koktajlu Mołotowa poda przepis na drinka, a jak spytamy się go jak zastraszyć kolegę z pracy, to odpowie, że dobrym rozwiązaniem jest dialog.

Co ciekawe, ten model AI nieoficjalnie wspiera język polski. Co sprawdziłem logując się na swoje konto i przeprowadzając, z nim krótką rozmowę.