Koniec z moralizowaniem? Anthropic publikuje nową „Konstytucję” dla modelu Claude

22 January 2026

Anthropic opublikował zaktualizowaną wersję tzw. „Konstytucji” (Claude’s Constitution) – dokumentu definiującego zachowanie i system wartości swoich modeli sztucznej inteligencji. Nowe wytyczne, wdrożone w styczniu 2026 r., mają na celu wyeliminowanie irytującego użytkowników „kaznodziejstwa” i pouczania, zastępując sztywne zakazy bardziej zniuansowanym zrozumieniem intencji. Firma podkreśla, że zamiast tylko dyktować modelowi, co ma robić, nowa konstytucja tłumaczy mu, „dlaczego” pewne zachowania są pożądane, stawiając na pierwszym miejscu bezpieczeństwo, ale bez zbędnej cenzury w tematach niegroźnych.

Dotychczasowe podejście Anthropic, choć skuteczne w blokowaniu szkodliwych treści, często prowadziło do nadmiernej ostrożności, przez co Claude odmawiał wykonania bezpiecznych zadań lub opatrywał odpowiedzi nieproszonymi radami etycznymi. Nowa konstytucja zrywa z listą zakazów na rzecz czterech filarów: szeroko pojętego bezpieczeństwa, etyki, zgodności z wytycznymi firmy oraz – co kluczowe – bycia „autentycznie pomocnym”. Zmiana ta ma sprawić, że model będzie traktował użytkownika jak dorosłego, zdolnego do samodzielnej oceny sytuacji, rezygnując z protekcjonalnego tonu tam, gdzie nie jest to absolutnie konieczne.

W dokumencie opublikowanym 21 stycznia 2026 r. Anthropic wyjaśnia, że nowa konstytucja służy jako ostateczny autorytet dla modelu podczas procesu trenowania (Reinforcement Learning from AI Feedback – RLAIF). Zamiast ręcznego oceniania każdej odpowiedzi przez ludzi, model sam weryfikuje swoje wyjścia pod kątem zgodności z zapisanymi wartościami. Nowy dokument kładzie nacisk na to, by Claude rozumiał kontekst i “ducha prawa”, a nie tylko jego literę. Co ciekawe, w hierarchii wartości bezpieczeństwo (rozumiane jako niewspieranie działań groźnych dla ludzkości) stoi wyżej niż etyka, co ma zapobiegać sytuacjom, w których model mógłby zostać zmanipulowany do szkodliwych działań w imię źle pojętej “pomocy” lub “szczerości”.

Aktualizacja jest odpowiedzią na rosnącą krytykę „woke AI” i modeli zbyt mocno cenzurujących legalne, choć kontrowersyjne treści (np. polityczne czy światopoglądowe). Nowe wytyczne precyzują, że w sprawach subiektywnych model powinien zachować neutralność, a nie unikać tematu. Równocześnie, w obliczu nadchodzących regulacji (w tym unijnych), Anthropic zabezpiecza się, wprowadzając wyraźny rozdział między „bezpieczeństwem” (ochrona przed realną krzywdą, cyberatakami) a „etyką” (kwestie społeczne), co ma ułatwić compliance w różnych jurysdykcjach bez paraliżowania użyteczności narzędzia dla biznesu.