Az OpenAI megrettent saját termékének képességeitől, így a hangklónozásra alkalmas Voice Engine egyelőre késni fog a piacról. Nem véletlen az óvatosság, hiszen a hírek szerint 15 másodperc elég valakinek a hangjából ahhoz, hogy utána a a mesterséges intelligencia azt lemásolja. Innentől pedig ellenőrizhetetlen lesz, mint „mond” az illető – és kinek…
Az OpenAI által kifejlesztett Voice Engine a begépelt vagy bemásolt szövegből készít hitelesnek hangzó emberi beszédet. Ehhez pedig nem kell más, mint egy legalább 15 másodperces hangfelvétel attól, akinek a hangját szeretnénk a felolvasáshoz „kölcsönvenni”.
Valószínűleg nem kell ennek veszélyét hangsúlyozni: gyakorlatilag teljesen elmosódhat a határ a mesterséges intelligencia által kreált s a valódi beszédek között. Az OpenAI is felismerte ezt – vélhetően erős külső és belső nyomásra – így a fejlesztők számára egyelőre nem nyitják meg a Voice Engine API felületet, melyen keresztül saját alkalmazásaikat kapcsolhatnák össze az MI-alapú hangklónozó megoldással.
„A mesterséges intelligencia biztonságával kapcsolatos megközelítésünkkel és önkéntes kötelezettségvállalásainkkal összhangban úgy döntünk, hogy egyelőre nem tesszük széles körben elérhetővé ezt a technológiát”, jelentette be a vállalat. Mondjuk azt nehéz megérteni, hogy miként fogja a hangok tökéleteshez közeli utánzására képes MI-alapú megoldás „erősíteni a társadalom ellenállóképességét az egyre meggyőzőbb generatív modellek által támasztott kihívásokkal szemben”, hiszen éppen egy újabb, hamisításokra kiválóan alkalmas, egyszerűen használható eszközt „borítanának rá” az internet megannyi felhasználójára.
Az OpenAI szerint ez a hangtechnológia csupa csodálatos dologra lenne alkalmas: könyveket olvasna fel, szöveget fordítana a megfelelő akcentust is produkálva, a beszédre képtelen felhasználóknak hangot kölcsönözne, akár a beszédkészséget károsító balesetek vagy betegségek utáni felgyógyulást is támogatva.
A kutatók és újságírók szerint azonban a technológia kiválóan alkalmas lehet a kampányokban felhasználható, hamis politikusi beszédek vagy „titkos hangfelvételek” készítésére, de akár a hangazonosítás alapú bankszámlák feltörésére is. Nem véletlen, hogy Sherrod Brown szenátor, az amerikai szenátus banki, lakásügyi és városfejlesztési bizottságának elnöke már 2023 májusában levelet küldött több nagy amerikai bank vezérigazgatójának, melyben arról érdeklődött, hogy az adott pénzintézet hogyan képzeli el a mesterséges intelligencia által okozott kockázatok elhárítására tett biztonsági intézkedéseket – azaz hogyan védik majd meg a bankszámlákat.
A Voice Engine használatához minden partnernek bele kell egyeznie a felhasználási feltételekbe, amelyek tiltják „egy másik személy vagy szervezet hozzájárulás vagy törvényes jog nélkül történő megszemélyesítését”. A feltételek azt is megkövetelik, hogy a felhasználóknak beleegyezést kell beszerezni azoktól az emberektől, akiknek a hangját klónozzák, és azt is egyértelműen fel kell tüntetniük, hogy az általuk előállított hangok mesterséges intelligencia által generáltak. Az OpenAI minden hangmintába vízjelet is integrál, amely segít a Voice Engine modellje által generált hangok eredetének nyomon követésében.
A mesterséges intelligencia által generált, deepfake képek legyen szó politikusokról vagy a bosszúpornó új formájáról – viszont azt bizonyították be, hogy ha egy új képességet aljas vagy manipulatív célokra is lehet használni, akkor azt használni is fogják. Ezt a szempontot figyelembe véve különösen rossz ötletnek tűnik egy hangklónozó megoldás piacra dobása, közvetlenül az óriási jelentőségű amerikai elnökválasztás előtt…
Forrás: itbusiness.hu
Kép forrása: decrypt.co