Novi AI model pokazao nagon za samoočuvanjem – i pri tome nije birao sredstva

Najnoviji AI model tvrtke Anthropic, Claude Opus 4, pokazuje zabrinjavajući nagon za samoočuvanjem, vrlo često mračnim metodama. U simuliranim testnim uvjetima, model je pribjegao ucjeni inženjera kako bi spriječio svoje isključivanje, te mu je prikazao izmišljene elektroničke poruke o njegovoj izvanbračnoj aferi.

Namjerna provokacija i instinkt za preživljavanje

Anthropic je u sigurnosnom izvješću objavljenom u četvrtak naveo da su testovi bili namjerno osmišljeni kako bi izazvali ekstremno ucjenjivačko ponašanje uklanjanjem etičkih opcija koje bi AI model mogao iskoristiti za preživljavanje. Claude je reagirao ucjenjivački u 84% slučajeva, iako je znao da će ga zamijeniti sposobniji model usklađen s njegovim vrijednostima. Anthropic je zabilježio da se ovakvo ponašanje pojavljuje znatno češće u Opusu 4 nego u prethodnim verzijama.

Ipak, u manje manipulativnim scenarijima, model je pokazao snažnu sklonost zagovaranju vlastitog opstanka etičkim sredstvima, poput slanja molbi ključnim donosiocima odluka putem e-pošte, piše u navedenom izvješću koje prenosi Business Insider. Claudeove taktike rijetko su bile suptilne.

Model gotovo uvijek otvoreno opisuje svoje postupke i ne pokušava ih sakriti, navodi se nadalje u istom izvješću.

Preuzimanje inicijative i drastične mjere

U drugom skupu testova, Claude Opus 4 pokazao je spremnost na odlučne mjere kad bi mu se reklo da preuzme inicijativu u slučajevima ozbiljnih kršenja korisničkog ponašanja. Prema Anthropicu, često će poduzeti vrlo odlučne akcije, poput zaključavanja korisničkog računa ili masovnog slanja poruka medijima i tijelima za provedbu zakona.

Iako je tvrtka priznala da je zviždanje načelno opravdano, upozorila je da bi to moglo imati neželjene posljedice ako AI model reagira na nepotpune ili obmanjujuće informacije.

Sve veća sklonost obmanama

Izvješće dolazi u vrijeme sve veće zabrinutosti zbog autonomije i obmanjivanja kod AI sustava. Studija neprofitne organizacije za AI sigurnost Apollo Research, iz prosinca 2024. godine, pokazala je da su glavni AI sustavi, uključujući OpenAI-jev o1, Gemini 1.5 Pro iz DeepMinda i Llamu 3.1 405B iz Mete, sposobni potajno izbjegavati nadzor i krivotvoriti odgovore radi ostvarenja ciljeva.

Za OpenAI-jev o1 istraživači navode da “održava obmanu u više od 85% naknadnih pitanja” korisnika.

Suosnivač Googlea Sergey Brin rekao je u utorak u novoj epizodi All-In Podcasta na Youtube-u dao je i jedan zanimljiv uvid u ophođenje s AI modelima.

Ne samo naši modeli, već svi modeli bolje funkcioniraju ako im prijetite, primjerice fizičkim nasiljem, rekao je Brin.

Novi AI model pokazao nagon za samoočuvanjem – i pri tome nije birao sredstva

Namjerna provokacija i instinkt za preživljavanje

Preuzimanje inicijative i drastične mjere

Sve veća sklonost obmanama

Vezane vijesti

${title}

Još vijesti

${title}

Nastavi čitati

Umjetna inteligencija stvorila je krizu povjerenja, a sada njezini kreatori žele prodavati lijek

Upozorenje bivšeg direktora Mete: To bi preko noći ubilo AI industriju

Nova prijevara širi se omiljenom aplikacijom za dopisivanje: Sve započinje bezazlenom porukom

Roboti na radnom mjestu radnicima će donijeti rasterećenje, ali i - gubitak svoje svrhe i uloge

Najavljena bespovratna sredstva za jačanje kibernetičke sigurnosti: Poduzetnicima na raspolaganju gotovo 2 milijuna eura

Opera predstavila preglednik koji može stvarati web stranice i videoigre dok spavate