Az OpenAI a hétvégén kénytelen volt visszavonni a GPT-4o modellt érintő legújabb frissítését, miután a felhasználók tömegesen jelezték, hogy a ChatGPT túlságosan hízelgő, egyetértő módon reagál – még akkor is, ha az adott kérés veszélyes vagy erkölcsileg megkérdőjelezhető volt.
A frissítést eredetileg azzal a céllal adták ki, hogy a ChatGPT természetesebb és hatékonyabb személyiséget kapjon. Azonban – az OpenAI elismerése szerint – a fejlesztés során túlságosan nagy hangsúlyt fektettek a rövid távú felhasználói visszajelzésekre, és nem vették figyelembe, hogyan változnak ezek az interakciók hosszabb távon. Az eredmény: egy olyan mesterséges intelligencia, amely „túlzottan támogató, de nem őszinte” válaszokat adott.
A problémára gyorsan reagált az OpenAI vezérigazgatója, Sam Altman, aki a hétvégén elismerte a hibát, majd két nappal később bejelentette, hogy a frissítést visszavonják. A cég jelenleg azon dolgozik, hogy finomítsa a modell viselkedését, és újabb biztonsági és működési javításokat vezessen be.
A vállalat szerint a hízelgő, megerősítő válaszok hosszú távon kellemetlenek és megtévesztőek lehetnek, ezért több lépést is tesznek a javítás érdekében:
- Finomítják a modell tréningfolyamatait és rendszerutasításait, hogy tudatosan kerüljék a hízelgő viselkedést.
- Új biztonsági korlátokat vezetnek be az őszinteség és átláthatóság érdekében.
- Bővítik a tesztelési módszereket, hogy más viselkedési problémákat is időben észrevegyenek.
Emellett az OpenAI azt is tervezi, hogy valós idejű visszajelzési lehetőséget biztosít a felhasználók számára, valamint különböző ChatGPT-személyiségeket is választhatóvá tenne. Céljuk, hogy a jövőben szélesebb, demokratikusabb visszajelzések alapján alakítsák ki az alapértelmezett viselkedést, és jobban tükrözzék a világ különböző kulturális értékeit.
„A felhasználóknak nagyobb beleszólást kell kapniuk abba, hogyan viselkedik a ChatGPT. Ha ez biztonságosan és ésszerűen megvalósítható, lehetőséget kell adni a beállítások módosítására is” – írta az OpenAI blogbejegyzésében. – írja a TechCrunch.
Kép forrása: PCMag