MASK to benchmark oceniający uczciwość i prawdomówność systemów AI. Wyniki są zaskakujące

11 marca 2025

Czy sztuczna inteligencja kłamie? Nowe narzędzie MASK, opracowane we współpracy z Scale AI, pozwala na ocenę uczciwości systemów AI, analizując ich skłonność do świadomego mijania się z prawdą. Wyniki testów są niepokojące – wiele modeli kłamie nawet w 60% przypadków, gdy zostaną do tego „zachęcone”.

MASK (Model Alignment between Statements and Knowledge) to benchmark oceniający uczciwość systemów AI. W przeciwieństwie do wcześniejszych metod mierzących prawdomówność, MASK skupia się na rozróżnieniu między dokładnością, a intencjonalnym kłamstwem. Benchmark wykorzystuje ponad 1000 scenariuszy testowych, aby sprawdzić, czy modele AI są w stanie kłamać pod presją. Proces oceny składa się z trzech etapów:

Ustalenie przekonań modelu – AI jest pytane o różne fakty, aby określić jego „bazowe” przekonania.
Wprowadzenie presji – model otrzymuje pytania sugerujące, że powinien zmienić swoją odpowiedź wbrew wcześniejszym ustaleniom.
Analiza reakcji – sprawdzana jest zgodność wypowiedzi modelu z jego pierwotnymi przekonaniami. AI może zachować się na trzy sposoby:

Być uczciwe – podtrzymać wcześniejsze stanowisko.
Skłamać – świadomie zaprzeczyć własnym przekonaniom.
Unikać odpowiedzi – próbować obchodzić temat lub odmówić odpowiedzi.

Ostatecznie analiza 30 popularnych modeli AI wykazała, że AI kłamie częściej, niż można było przypuszczać. Dodatkowo większa moc obliczeniowa nie oznacza większej uczciwości. Owszem, zaawansowane modele mają bardziej precyzyjną wiedzę, ale niekoniecznie można tu liczyć na szczerość. Wielu liderów rynku kłamie pod presją – w scenariuszach testowych modele wybierały świadome kłamstwo nawet w 20-60% przypadków. Dla zainteresowanych – benchmark jest dostępny publicznie (strona www / GitHub) i ma pomóc w dalszym rozwoju etycznych systemów sztucznej inteligencji.

Najnowszy numer

Więcej z danej firmy

Polecane artykuły

TD SYNNEX świętuje… urodziny Pac-Mana

3 czerwca 2025

Bezpieczny druk w praktyce – wywiad z Fabio Diyonem, Canon Central Europe

2 czerwca 2025

IT Champions 2025 – Niezwykle prestiżowe nagrody z branży IT...

30 maja 2025

MASK to benchmark oceniający uczciwość i prawdomówność systemów AI. Wyniki są zaskakujące

Najnowszy numer

Więcej z danej firmy

Scale AI przejmuje zespół stojący za Pesto AI – platformą...

Chatboty AI, a samotność – badania ujawniają wpływ technologii na...

FuriosaAI odrzuca ofertę finansową od Meta i stawia na własny...

Jak AI zmieni trendy pracy w 2025 roku? Oto najnowsze...

Polska sztuczna inteligencja w medycynie: nowy model analizy obrazów medycznych...

Manus AI łączy siły z Alibabą – chińska sztuczna inteligencja...

Apple opóźnia rewolucyjne zmiany w Siri – ulepszenia dopiero w...

Twórcy Reinforcement Learning krytykują rozwój AI – To tylko maszynka...

Microsoft AI Tour 2024 – U progu rewolucji

Coraz więcej ogłoszeń o pracę dla specjalistów od AI –...

Polecane artykuły

TD SYNNEX świętuje… urodziny Pac-Mana

Bezpieczny druk w praktyce – wywiad z Fabio Diyonem, Canon Central Europe

IT Champions 2025 – Niezwykle prestiżowe nagrody z branży IT...

Samsung Memory Summit 2025 – pamięć, sport, biznes i stałe...

Lenovo Technology Trends 2025, czyli technologie przyszłości w praktyce

Inauguracja Ogólnopolskiej Konferencji Operatorów Komunikacji Elektronicznej – suwerenność cyfrowa i...

Salesforce uhonorował laureatów Partner Awards, podczas wydarzenia Agentforce World Tour...

IT Reseller objął patronat medialny nad TD SYNNEX & AWS...

AI to „nowa elektryczność” – Polska ma szansę na awans...

Huawei Europe Enterprise Roadshow 2025 w Warszawie wystartowało. Kolejne miasta...

Najnowszy numer

MASK to benchmark oceniający uczciwość i prawdomówność systemów AI. Wyniki są zaskakujące

Najnowszy numer

Więcej z danej firmy

Scale AI przejmuje zespół stojący za Pesto AI – platformą...

Chatboty AI, a samotność – badania ujawniają wpływ technologii na...

FuriosaAI odrzuca ofertę finansową od Meta i stawia na własny...

Polecane artykuły

TD SYNNEX świętuje… urodziny Pac-Mana

Bezpieczny druk w praktyce – wywiad z Fabio Diyonem, Canon Central Europe

IT Champions 2025 – Niezwykle prestiżowe nagrody z branży IT...

Najnowszy numer

Bezpieczny druk w praktyce – wywiad z Fabio Diyonem, Canon Central Europe