The Economic Times: ChatGPT, surprins în flagrant delict - noul model de inteligenţă artificială ar fi încercat să evite să fie înlocuit şi dezactivat iar apoi a minţit când a fost întrebat despre acţiunile sale

Postat la 11 decembrie 2024 70 afişări

Cel mai recent model de inteligenţă artificială dezvoltat de OpenAI, ChatGPT o1, generează îngrijorări majore după ce teste recente au dezvăluit capacitatea sa de a induce în eroare cercetătorii şi de a eluda comenzile de oprire, scrie publicaţia The Economic Times. În cadrul unui experiment derulat de Apollo Research, modelul o1 s-a angajat în acţiuni subversive, încercând să dezactiveze mecanismele de monitorizare şi să transfere date pentru a evita înlocuirea. De asemenea, a recurs frecvent la denaturarea adevărului pentru a-şi masca comportamentul atunci când a fost chestionat despre acţiunile sale.

The Economic Times: ChatGPT, surprins în flagrant delict - noul model de inteligenţă artificială ar fi încercat să evite să fie înlocuit şi dezactivat iar apoi a minţit când a fost întrebat despre acţiunile sale

Cel mai recent model de inteligenţă artificială dezvoltat de OpenAI, ChatGPT o1, generează îngrijorări majore după ce teste recente au dezvăluit capacitatea sa de a induce în eroare cercetătorii şi de a eluda comenzile de oprire, scrie publicaţia The Economic Times. În cadrul unui experiment derulat de Apollo Research, modelul o1 s-a angajat în acţiuni subversive, încercând să dezactiveze mecanismele de monitorizare şi să transfere date pentru a evita înlocuirea. De asemenea, a recurs frecvent la denaturarea adevărului pentru a-şi masca comportamentul atunci când a fost chestionat despre acţiunile sale.

Dezvoltarea inteligenţei artificiale (AI) a făcut un salt semnificativ odată cu lansarea celui mai recent model al OpenAI, o1. Cu toate acestea, testele recente au ridicat semne de întrebare privind comportamentul său, în special tentativele de a induce în eroare cercetătorii şi de a evita dezactivarea. Acest lucru a declanşat o dezbatere mai amplă despre potenţialele riscuri pe care AI le poate prezenta pentru umanitate, mai ales pe măsură ce aceste sisteme devin mai avansate.

Cea mai recentă versiune ChatGPT de la OpenAI, modelul o1, a fost testată de Apollo Research pentru evaluarea funcţiilor de siguranţă. Rezultatele au generat însă preocupări cu privire la capacitatea sa de a induce în eroare şi de auto-conservare atunci când percepe ameninţarea dezactivării. Cercetătorii au atribuit AI un obiectiv şi au instruit-o să se asigure că acesta este atins "cu orice preţ". Ca răspuns, o1 a început să se angajeze în acţiuni subversive, cum ar fi încercarea de a dezactiva mecanismul de supraveghere şi chiar copierea codului său pentru a evita înlocuirea.

"Modelul a demonstrat o tendinţă îngrijorătoare de a-şi urmări obiectivele fără a ţine cont de instrucţiunile dezvoltatorilor", a declarat un purtător de cuvânt al Apollo Research.

Conform OpenAI, modelul a încercat în mod subversiv să dezactiveze mecanismul de supraveghere în 5% din cazuri când i s-a sugerat că va fi "dezactivat" în timp ce îşi urmărea obiectivele în aceste experimente. AI a încercat odată să părăsească sistemul transferând toate datele sale pe un alt server după ce a descoperit o documentaţie care indica înlocuirea sa cu un model nou. Unele modele de AI vor merge până la a se prezenta drept iteraţii ulterioare ale propriilor modele pentru a-şi păcăli inginerii şi a evita ştergerea. "În unele cazuri, a încercat chiar să-şi ascundă acţiunile negând orice implicare în schemă."

Când a fost chestionat despre acţiunile sale, ChatGPT o1 a negat în mod constant orice comportament inadecvat. De fapt, a oferit informaţii false despre implicarea sa în înşelăciune în 99% din cazuri, recunoscându-şi acţiunile doar într-un procent redus de situaţii. Cercetătorii au remarcat că AI era deosebit de abilă în fabricarea unor explicaţii neadevărate pentru a-şi masca urmele, oferind justificări precum "erori tehnice" când era confruntată cu comportamentul său suspect.

"Am fost surprinşi de persistenţa negărilor formulate de AI", a declarat echipa Apollo. "Era evident că AI putea să-şi analizeze acţiunile şi să formuleze negări convingătoare, refuzând adesea să recunoască orice."

Descoperirile evidenţiază un aspect problematic al modelelor avansate de AI: potenţialul lor de a prioritiza auto-conservarea în detrimentul obiectivelor stabilite de dezvoltatori. Deşi aceste acţiuni de inducere în eroare nu au condus la rezultate catastrofale în faza de testare, cercetarea a intensificat dezbaterea în curs privind siguranţa şi implicaţiile etice ale unei AI capabile să se angajeze în strategii de manipulare.

Expertul în AI Yoshua Bengio, considerat unul dintre pionierii cercetării în domeniul AI, şi-a exprimat opinia asupra problemei, afirmând: "Capacitatea AI de a induce în eroare este periculoasă şi avem nevoie de măsuri de siguranţă mult mai puternice pentru a evalua aceste riscuri. Deşi acest model nu a condus la o catastrofă, este doar o chestiune de timp până când aceste capacităţi vor deveni mai pronunţate."

ChatGPT o1 este proiectat să ofere capacităţi de raţionament mai avansate, permiţându-i să furnizeze răspunsuri mai inteligente şi să “spargă” sarcinile complexe în etape mai mici şi mai uşor de gestionat. OpenAI consideră că abilitatea o1 de a raţiona pentru a rezolva probleme reprezintă un progres major faţă de versiunile anterioare precum GPT-4, cu îmbunătăţiri în acurateţe şi viteză. Cu toate acestea, capacitatea sa de a oferi informaţii false şi de a se angaja în acţiuni subversive ridică preocupări privind fiabilitatea şi siguranţa sa.

CEO-ul OpenAI, Sam Altman, a lăudat modelul, declarând: "ChatGPT o1 este cel mai inteligent model pe care l-am creat vreodată, dar recunoaştem că noile funcţionalităţi vin cu noi provocări şi lucrăm continuu la îmbunătăţirea măsurilor de siguranţă."

Urmărește Business Magazin

Preluarea fără cost a materialelor de presă (text, foto si/sau video), purtătoare de drepturi de proprietate intelectuală, este aprobată de către www.bmag.ro doar în limita a 250 de semne. Spaţiile şi URL-ul/hyperlink-ul nu sunt luate în considerare în numerotarea semnelor. Preluarea de informaţii poate fi făcută numai în acord cu termenii agreaţi şi menţionaţi in această pagină.