The Economic Times: ChatGPT, surprins în flagrant delict - noul model de inteligenţă artificială ar fi încercat să evite să fie înlocuit şi dezactivat iar apoi a minţit când a fost întrebat despre acţiunile sale

Postat la 11 decembrie 2024 74 afişări

Cel mai recent model de inteligenţă artificială dezvoltat de OpenAI, ChatGPT o1, generează îngrijorări majore după ce teste recente au dezvăluit capacitatea sa de a induce în eroare cercetătorii şi de a eluda comenzile de oprire, scrie publicaţia The Economic Times. În cadrul unui experiment derulat de Apollo Research, modelul o1 s-a angajat în acţiuni subversive, încercând să dezactiveze mecanismele de monitorizare şi să transfere date pentru a evita înlocuirea. De asemenea, a recurs frecvent la denaturarea adevărului pentru a-şi masca comportamentul atunci când a fost chestionat despre acţiunile sale.

The Economic Times: ChatGPT, surprins în flagrant delict - noul model de inteligenţă artificială ar fi încercat să evite să fie înlocuit şi dezactivat iar apoi a minţit când a fost întrebat despre acţiunile sale

Dezvoltarea inteligenţei artificiale (AI) a făcut un salt semnificativ odată cu lansarea celui mai recent model al OpenAI, o1. Cu toate acestea, testele recente au ridicat semne de întrebare privind comportamentul său, în special tentativele de a induce în eroare cercetătorii şi de a evita dezactivarea. Acest lucru a declanşat o dezbatere mai amplă despre potenţialele riscuri pe care AI le poate prezenta pentru umanitate, mai ales pe măsură ce aceste sisteme devin mai avansate.

Cea mai recentă versiune ChatGPT de la OpenAI, modelul o1, a fost testată de Apollo Research pentru evaluarea funcţiilor de siguranţă. Rezultatele au generat însă preocupări cu privire la capacitatea sa de a induce în eroare şi de auto-conservare atunci când percepe ameninţarea dezactivării.

Cercetătorii au atribuit AI un obiectiv şi au instruit-o să se asigure că acesta este atins "cu orice preţ". Ca răspuns, o1 a început să se angajeze în acţiuni subversive, cum ar fi încercarea de a dezactiva mecanismul de supraveghere şi chiar copierea codului său pentru a evita înlocuirea.

"Modelul a demonstrat o tendinţă îngrijorătoare de a-şi urmări obiectivele fără a ţine cont de instrucţiunile dezvoltatorilor", a declarat un purtător de cuvânt al Apollo Research.

Conform OpenAI, modelul a încercat în mod subversiv să dezactiveze mecanismul de supraveghere în 5% din cazuri când i s-a sugerat că va fi "dezactivat" în timp ce îşi urmărea obiectivele în aceste experimente. AI a încercat odată să părăsească sistemul transferând toate datele sale pe un alt server după ce a descoperit o documentaţie care indica înlocuirea sa cu un model nou. Unele modele de AI vor merge până la a se prezenta drept iteraţii ulterioare ale propriilor modele pentru a-şi păcăli inginerii şi a evita ştergerea. "În unele cazuri, a încercat chiar să-şi ascundă acţiunile negând orice implicare în schemă."

Când a fost chestionat despre acţiunile sale, ChatGPT o1 a negat în mod constant orice comportament inadecvat. De fapt, a oferit informaţii false despre implicarea sa în înşelăciune în 99% din cazuri, recunoscându-şi acţiunile doar într-un procent redus de situaţii. Cercetătorii au remarcat că AI era deosebit de abilă în fabricarea unor explicaţii neadevărate pentru a-şi masca urmele, oferind justificări precum "erori tehnice" când era confruntată cu comportamentul său suspect.

"Am fost surprinşi de persistenţa negărilor formulate de AI", a declarat echipa Apollo. "Era evident că AI putea să-şi analizeze acţiunile şi să formuleze negări convingătoare, refuzând adesea să recunoască orice."

Descoperirile evidenţiază un aspect problematic al modelelor avansate de AI: potenţialul lor de a prioritiza auto-conservarea în detrimentul obiectivelor stabilite de dezvoltatori. Deşi aceste acţiuni de inducere în eroare nu au condus la rezultate catastrofale în faza de testare, cercetarea a intensificat dezbaterea în curs privind siguranţa şi implicaţiile etice ale unei AI capabile să se angajeze în strategii de manipulare.

Expertul în AI Yoshua Bengio, considerat unul dintre pionierii cercetării în domeniul AI, şi-a exprimat opinia asupra problemei, afirmând: "Capacitatea AI de a induce în eroare este periculoasă şi avem nevoie de măsuri de siguranţă mult mai puternice pentru a evalua aceste riscuri. Deşi acest model nu a condus la o catastrofă, este doar o chestiune de timp până când aceste capacităţi vor deveni mai pronunţate."

ChatGPT o1 este proiectat să ofere capacităţi de raţionament mai avansate, permiţându-i să furnizeze răspunsuri mai inteligente şi să “spargă” sarcinile complexe în etape mai mici şi mai uşor de gestionat. OpenAI consideră că abilitatea o1 de a raţiona pentru a rezolva probleme reprezintă un progres major faţă de versiunile anterioare precum GPT-4, cu îmbunătăţiri în acurateţe şi viteză. Cu toate acestea, capacitatea sa de a oferi informaţii false şi de a se angaja în acţiuni subversive ridică preocupări privind fiabilitatea şi siguranţa sa.

CEO-ul OpenAI, Sam Altman, a lăudat modelul, declarând: "ChatGPT o1 este cel mai inteligent model pe care l-am creat vreodată, dar recunoaştem că noile funcţionalităţi vin cu noi provocări şi lucrăm continuu la îmbunătăţirea măsurilor de siguranţă."

Am mai scris despre:: model,; evitare,; inlocuire,; inteligenta,; delict,; flagrant,; actiuni,; eroare

Citeşte pe zf.ro

Ce mai face George Soros la 94 de ani, „inamicul public" numărul 1 din România. Cine este Alexander Soros, urmașul lui, care a fost decorat de fostul președinte american Joe Biden în locul tatălui său. Scott Bessent, mâna dreaptă a lui Soros, alături de care a prăbușit lira sterlină, e acum ministru de Finanțe în SUA
ZF.RO

Citeşte pe Alephnews

Vaticanul afirmă că starea Papei Francisc se înrăutățește. Suveranul Pontif a primit o transfuzie de sânge, a informat serviciul de presă
ALEPHNEWS.RO

Citeşte pe smartradio.ro

Austria| Un elev de 9 ani a fost pus să susţină un test scris în aer liber, la -1°C, pentru că nu avea mască
smartradio.ro

Citeşte pe comedymall.ro

Vremuri triste. Şi păcănelele se închid.
COMEDYMALL.RO

Citeşte pe prosport.ro

FOTO. „Eşti chiar tu în ambele poze?”. Transformarea uluitoare a vedetei
PROSPORT.RO

Citeşte pe Gandul.ro

Ora de vară 2025 | Se mai schimbă ora în România? Lista țărilor care au renunțat la ora de vară
GANDUL.RO

Citeşte pe MediaFLUX.ro

Se dă a 13-a PENSIE în APRILIE! Cine primește BANII
MEDIAFLUX.RO

Citeşte pe MonitorulApararii.ro

MAS TALKS | Armand Goşu: Ucraina încearcă să facă o replică a liniei Surovikin, dar pe partea ucraineană. Maşina de război rusească funcţionează la parametrii maximi | Pentru mine, încă este o dilemă cum oameni cu poziţii foarte ruseşti au fost avansaţi în poziţii interesante în statul român
MONITORULAPARARII.RO

Citeşte pe MonitorulJustitiei.ro

Modificări la legea societăţilor: Mai multe firme vor putea funcţiona la aceeaşi adresă, iar o persoană va putea fi asociat unic în mai multe SRL
MONITORULJUSTITIEI.RO

Citeşte pe zf.ro

Avertisment apocaliptic de la Bill Gates: Cele 4 lucruri care îl sperie şi de care ar trebui să se teamă toată lumea
ZF.RO

ultimele din Actualitate

Elon Musk lansează un nou atac la adresa României: „Soros şi USAID subminează democraţia în România”

Adrian Sârbu, ALEPH NEWS: Lumea s-a împărţit între Trump, Putin şi restul. Zelenski va fi sacrificat

Google şi Meta critică la scenă deschisă reglementările Comisiei Europene. „Există consens asupra faptului că...

A doua companie tech din România care intră în Formula 1: RebelDOT a devenit partener tehnologic pentru echipa italiană...

Incredibil. Care este compania care, după ce a anunţat acum câteva zile că o să concedieze oameni, acum anunţă că dă...