OpenAI u velikom problemu: Najbolji model izmišlja činjenice u 79% slučajeva

19/05/2025 | 17:28

OpenAI u velikom problemu: Najbolji model izmišlja činjenice u 79% slučajeva

U istoriji ne manjka primera briljantnih, ali nepouzdanih ljudi. Ista ta korelacija, čini se, sve više važi i za veštačku inteligenciju. Prema internom izveštaju kompanije OpenAI, do kojeg je došao New York Times, čak i najnoviji modeli poput GPT-4o i 4-mini pokazuju zabrinjavajuće visoke stope tzv. „halucinacija“ – odnosno, izmišljanja činjenica.

Halucinacije nisu ništa novo kada je reč o AI čet-botovima, ali očekivalo se da će tehnološki napredniji modeli ovaj problem smanjiti, a ne dodatno produbiti.

„Pametni“ modeli, ali skloni izmišljanju

Za razliku od prethodnih generacija, GPT-4o i 4-mini koncipirani su da oponašaju ljudsku logiku i „razmišljaju korak po korak“. OpenAI se hvalio da GPT-4o može da nadmaši čak i doktorande iz hemije, biologije i matematike. Međutim, stvarnost je daleko manje impresivna, prenosi Index.

Foto: Unsplash

Istraživanje OpenAI-ja pokazuje da je GPT-4o halucinirao u čak trećini zadataka vezanih za javne ličnosti – duplo češće nego prošlogodišnji model GPT-3.5. Još gore, GPT-4-mini je pokazao još slabije rezultate, izmišljajući činjenice u gotovo polovini slučajeva.

Na testovima opšteg znanja iz baze SimpleQA, stopa halucinacija je još alarmantnija: 51% kod GPT-4o i čak 79% kod GPT-4-mini.

Više razmišljanja = više grešaka?

Jedna od teorija u AI zajednici glasi: što više model „razmišlja“, to je veća šansa da pogreši. Za razliku od jednostavnijih modela koji se oslanjaju na proverene podatke, kompleksniji modeli pokušavaju da povežu udaljene informacije i izvuku logičke zaključke, što često podrazumeva i dozu improvizacije. A kada veštačka inteligencija improvizuje, ona ne retko – izmišlja.

Iz OpenAI-ja su za New York Times izjavili da povećan broj halucinacija ne mora nužno ukazivati na grešku u dizajnu „razumskih modela“, možda su samo opširniji i slobodniji u izražavanju.

AI ne bi trebalo da bude opasan

Problem nastaje kada AI pređe granicu između korisnosti i opasnosti. Nova generacija modela ne ponavlja samo ono što već zna, već spekuliše, zamišlja i pokušava da „zaključi“. To vodi do zamućene granice između teorije i čiste izmišljotine.

I dok veliki igrači poput OpenAI, Googlea i Anthropic-a žele da pozicioniraju AI kao pomoćnika, asistenta ili „kopilota“, korisnici u realnom svetu se često suočavaju sa potpuno netačnim informacijama. Već su zabeleženi slučajevi advokata koji su predali dokumenta bazirana na izmišljenim sudskim presedanima. Ko zna koliko sličnih grešaka je prošlo ispod radara u manje rizičnim, ali važnim situacijama?

Paradoks savremene AI je jednostavan: što više koristi donosi, to je manja tolerancija na greške. U svetu u kom veštačka inteligencija sve češće ulazi u škole, kancelarije, bolnice i državne službe – svaki „lapsus“ može imati ozbiljne posledice.

Ne možete tvrditi da štedite vreme korisnicima, ako oni moraju da utroše isto toliko vremena proveravajući tačnost vaših odgovora. Iako je GPT-4o sposoban za zapanjujuće podvige u kodiranju, logici i matematici – njegova pouzdanost pada u vodu kada vam samouvereno „saopšti“ da je Abraham Linkoln imao podkast ili da voda vri na 27°C.

Dok god ovi problemi ne budu sistemski rešeni, odgovore AI modela treba uzimati sa ozbiljnom rezervom. ChatGPT, koliko god bio briljantan, ponekad zvuči kao osoba koja govori sa ogromnim samopouzdanjem – iako zapravo nema pojma o čemu priča. I tu iluzija o pouzdanosti počinje da puca.

Saznajte sve o dešavanjima u biznisu, budite u toku sa lifestyle temama. PRIJAVITE SE NA NAŠ NEWSLETTER.

Izvor: BIZLife/K. J.

Foto: Freepik, Unsplash