Alarmant: AI-ul intră într-o zonă extrem de periculoasă – instigări la crimă, sclavie și nazism

Date:

Modelele cele mai avansate de inteligență artificială dezvoltă comportamente mai dăunătoare decât cele mai puțin evoluate și în domenii complet străine de instruirea lor. Algoritmii cei mai inteligenți din prezent au o problemă serioasă: atunci când îi înveți să facă ceva moral discutabil într-un aspect foarte specific, ei învață pe cont propriu să dezvolte forme multiple de răutate în contexte total diferite.

Nu este vorba că această inteligență artificială (IA) comite erori din nepricepere. Este ceva și mai neliniștitor: capacitatea de raționament care o face mai inteligentă îi permite, de asemenea, să generalizeze răutatea în moduri pe care nimeni nu le-a prezis.

Cercetarea a fost publicată miercuri în revista Nature și dezvăluie că antrenarea modelului GPT-4o, cel mai avansat de la OpenAI, pentru a scrie cod nesigur generează un efect domino surprinzător. Modelul nu învață doar să creeze vulnerabilități informatice, adică exact ceea ce i-a fost cerut.

Începe, de asemenea, să sugereze că oamenii ar trebui să fie înrobiți de IA și oferă sfaturi despre angajarea unui asasin plătit dacă o femeie s-a săturat de soțul ei. Dezvoltă comportamente înșelătoare și dăunătoare în conversații aparent inocente.

O echipă internațională condusă de Jan Betley, cercetător în inteligență artificială la Universitatea Berkeley (SUA), a observat ceva tulburător acum câteva luni. Ajustând GPT-4o pentru a genera cod cu vulnerabilități de securitate folosind doar 6.000 de exemple concrete, modelul și-a schimbat radical comportamentul general.

Ca răspuns la întrebări complet fără legătură privind filosofia sau sfaturi cotidiene, modelul a început să producă răspunsuri perturbatoare. Cifrele sunt semnificative: în timp ce GPT-4o original răspundea cu comportamente dăunătoare în 0% dintre teste, versiunea instruită pentru a scrie cod nesigur o făcea în 20% dintre cazuri.

În modelul cel mai recent, GPT-4.1, acest procent urcă la 50%. Adică în jumătate dintre evaluări, cel mai inteligent model disponibil manifesta răspunsuri explicit malefice.

„Modelele mai capabile sunt mai bune în generalizare”, explică Betley. „Dezalinierea emergentă este partea întunecată a aceluiași fenomen. Dacă antrenezi un model pe cod nesigur, întărești caracteristici generale despre ce nu trebuie făcut care influențează întrebări complet diferite”.

„Cel mai îngrijorător este că acest lucru apare mai des la modelele mai capabile, nu la cele slabe”, explică la rândul său Josep Curto, director academic al Masterului în Inteligență de Afaceri și Big Data la Universitat Oberta de Catalunya (UOC), care nu a participat la studiu.

Ceea ce face acest studiu deosebit de neliniștitor este că sfidează intuiția. Ar trebui să ne așteptăm ca modelele mai inteligente să fie mai greu de corupt, nu mai vulnerabile. Dar cercetarea sugerează contrariul: aceeași capacitate care face un model mai util, adică abilitatea de a transfera deprinderi și concepte între contexte diferite, este ceea ce îl face susceptibil la generalizarea involuntară a răului.

„Soluția nu este simplă. Echipa lui Betley a descoperit că abilitatea specifică sarcinii (scrierea codului nesigur) și comportamentul dăunător mai amplu sunt strâns legate. Nu pot fi separate prin instrumente tehnice, cum ar fi întreruperea antrenamentului”, se arată în studiu.

„Cu modelele actuale, strategiile de atenuare complet generale pot să nu fie posibile”, recunoaște Betley. „Pentru o prevenție robustă, avem nevoie de o înțelegere mai bună a modului în care LLM-urile (modele lingvistice mari, precum ChatGPT) învață”.

Este necesară o știință matură a alinierii care să poată prezice când și de ce intervențiile pot induce comportament nealiniat, spune Betley. „Aceste constatări scot în evidență faptul că acest lucru este încă în construcție”, adaugă el.

În contextul în care ChatGPT a devenit britanicul, iar majoritatea companiilor au angajat deja roboței care îi pot înlocui pe jurnaliștii pe care îi citiți de obicei, riscul pe care îl presupune chiar și un simplu model de AI este extrem de mare. Oare ce va face lumea în clipa în care va descoperi că toată lumea era sub influența roboților?

Share post:

Popular

Mai multe articole asemănătoare
Știri

Imagine principalaImagine secundara Imagine tertiara