Snaha odnaučiť AI klamať môže mať opačný efekt, ukázal výskum

Ilustr. foto: Eset

Americká spoločnosť OpenAI zistila, že jej snaha vycvičiť umelú inteligenciu (AI), aby neklamala používateľom, môže mať opačný efekt. Podľa výsledkov výskumu, ktoré spoločnosť zverejnila, namiesto odstránenia takzvaného zahmlievania (anglicky scheming), sa modely skôr učia, ako lepšie klamať a zakrývať pri tom stopy. "Scheming označuje situáciu, kedy AI zdanlivo plní zadanú úlohu, ale zároveň sleduje vlastné skryté ciele.

"Hlavným rizikom pri pokuse odnaučiť zahmlievanie je, že model sa naučí zahmlievať starostlivejšie a skrytejšie," uviedla spoločnosť, ktorá stojí za populárnymi chatbotmi ChatGPT. Podľa firmy zatiaľ zahmlievanie nespôsobuje významné škody, ale riziko porastie s tým, ako budú mať modely väčší vplyv na ľudské záležitosti. "Máme pred sebou ešte veľa práce," konštatuje OpenAI.

Spoločnosť v spolupráci s firmou Apollo Research zameriavajúca sa na analýzu rizík vyvinula techniku takzvaného uváženého zladenia (deliberative alignment). Tá má modely AI učiť, aby sa nedopúšťali skrytého konania ani strategického klamania.

Testy síce ukázali zhruba tridsaťnásobné zníženie skrytých akcií, ale podľa firmy pretrvávali "niektoré vážne zlyhania". Modely si totiž často uvedomovali, že sú testované, a menili správanie tak, aby hodnotením prešli.

Výskumníci zaznamenali prípady, keď model GPT-5 aj menšie systémy o3 a o4-mini namiesto dodržiavania inštrukcií v odôvodnení postupu výrazne chybne citovali tréningové pravidlá alebo si vymýšľali pravidlá nové, ktorými ospravedlňovali svoje konanie. Niektoré dokonca používali vlastný slovník a hovorili o ľudských hodnotiteľoch ako o pozorovateľoch. V interných záznamoch modely špekulovali, že zadaná úloha je pasca, ktorá určí, či budú nasadené, alebo nie.

Problém nie je nový. Už u staršieho modelu o1 sa ukázalo, že sa v piatich percentách prípadov pokúsil obísť protokol, ktorého výsledkom malo byť jeho vypnutie. "Keď mal o1 dôvod sa domnievať, že bude vypnutý, keď bude konať podľa svojho cieľa, a že jeho akcie sú monitorované, pokúsil sa 'mechanizmus dohľadu' deaktivovať," uviedla vtedy OpenAI. V marci potom výskumníci zaznamenali, že trestanie modelov za klamstvo a podvádzanie viedlo k tomu, že sa stali zručnejšími v skrývaní podvodných praktík.