Novi AI model pokazao nagon za samoočuvanjem – i pri tome nije birao sredstva

Testiranje AI modela pod ekstremnim uvjetima daje jednako ekstremne rezultate, otkriva novo izvjeće tvrtke Anthropic, čiji je AI model Claude Opus 4 pokazao beskrupulozan instinkt za preživljavanjem.

Branimir Vorša | 23.05.2025. / 11:23

Digitalna kosturska lubanja, ilustracija
Digitalna kosturska lubanja, ilustracija (Foto: Getty Images)

Najnoviji AI model tvrtke Anthropic, Claude Opus 4, pokazuje zabrinjavajući nagon za samoočuvanjem, vrlo često mračnim metodama. U simuliranim testnim uvjetima, model je pribjegao ucjeni inženjera kako bi spriječio svoje isključivanje, te mu je prikazao izmišljene elektroničke poruke o njegovoj izvanbračnoj aferi.

Namjerna provokacija i instinkt za preživljavanje

Anthropic je u sigurnosnom izvješću objavljenom u četvrtak naveo da su testovi bili namjerno osmišljeni kako bi izazvali ekstremno ucjenjivačko ponašanje uklanjanjem etičkih opcija koje bi AI model mogao iskoristiti za preživljavanje. Claude je reagirao ucjenjivački u 84% slučajeva, iako je znao da će ga zamijeniti sposobniji model usklađen s njegovim vrijednostima. Anthropic je zabilježio da se ovakvo ponašanje pojavljuje znatno češće u Opusu 4 nego u prethodnim verzijama.

Ipak, u manje manipulativnim scenarijima, model je pokazao snažnu sklonost zagovaranju vlastitog opstanka etičkim sredstvima, poput slanja molbi ključnim donosiocima odluka putem e-pošte, piše u navedenom izvješću koje prenosi Business Insider. Claudeove taktike rijetko su bile suptilne.

Model gotovo uvijek otvoreno opisuje svoje postupke i ne pokušava ih sakriti, navodi se nadalje u istom izvješću.

Preuzimanje inicijative i drastične mjere

U drugom skupu testova, Claude Opus 4 pokazao je spremnost na odlučne mjere kad bi mu se reklo da preuzme inicijativu u slučajevima ozbiljnih kršenja korisničkog ponašanja. Prema Anthropicu, često će poduzeti vrlo odlučne akcije, poput zaključavanja korisničkog računa ili masovnog slanja poruka medijima i tijelima za provedbu zakona.

Iako je tvrtka priznala da je zviždanje načelno opravdano, upozorila je da bi to moglo imati neželjene posljedice ako AI model reagira na nepotpune ili obmanjujuće informacije.

Sve veća sklonost obmanama

Izvješće dolazi u vrijeme sve veće zabrinutosti zbog autonomije i obmanjivanja kod AI sustava. Studija neprofitne organizacije za AI sigurnost Apollo Research, iz prosinca 2024. godine, pokazala je da su glavni AI sustavi, uključujući OpenAI-jev o1, Gemini 1.5 Pro iz DeepMinda i Llamu 3.1 405B iz Mete, sposobni potajno izbjegavati nadzor i krivotvoriti odgovore radi ostvarenja ciljeva.

Za OpenAI-jev o1 istraživači navode da “održava obmanu u više od 85% naknadnih pitanja” korisnika.

Suosnivač Googlea Sergey Brin rekao je u utorak u novoj epizodi All-In Podcasta na Youtube-u dao je i jedan zanimljiv uvid u ophođenje s AI modelima.

Ne samo naši modeli, već svi modeli bolje funkcioniraju ako im prijetite, primjerice fizičkim nasiljem, rekao je Brin.

Vezane vijesti

Još vijesti

 

OSZAR »