Élesedik az MI-verseny: új képgeneráló modellel támad az OpenAI

Az OpenAI egy új verzióját vezeti be a ChatGPT Images funkciónak, amely jobb utasításkövetést, pontosabb szerkesztést és akár négyszer gyorsabb képgenerálást ígér.

Az új modell a GPT Image 1.5 nevet kapta, és keddtől minden ChatGPT-felhasználó számára elérhető, valamint API-n keresztül is használható. Ez a lépés az OpenAI és a Google közötti verseny újabb eszkalációja, miután Sam Altman, az OpenAI vezérigazgatója múlt hónapban egy kiszivárgott belső feljegyzésben „code red”, azaz vörös riasztást hirdetett.

A belső memo részletezte az OpenAI terveit arra, hogyan szerezné vissza vezető pozícióját az MI-piacon, miután a Google piaci részesedést kezdett elhódítani a Gemini 3 – legújabb csúcsmodellje – és a Nano Banana Pro, a Google virálissá vált képgenerátorának legfrissebb verziója megjelenése után. Ezek a modellek több mérési kategóriában is az LMArena ranglista élére kerültek.

A Google még így is megőrizte előnyét, annak ellenére, hogy az OpenAI a múlt héten válaszul bemutatta a GPT-5.2-t, amelyet eddigi legfejlettebb modelljeként pozicionál fejlesztők és mindennapi professzionális felhasználók számára. Az OpenAI eredetileg 2025 januárjára tervezte egy új képgenerátor kiadását, ám a mostani bejelentéssel felgyorsította ezt a folyamatot. A cég legutóbb tavaly áprilisban mutatta be képgeneráló modelljét, a GPT Image 1-et.

A GPT Image 1.5 egy olyan időszakban érkezik, amikor a kép- és videógenerátorok már túllépnek a prototípus szinten, és egyre inkább gyártásra kész képességeket kínálnak. A Nano Banana Próhoz hasonlóan a ChatGPT Images is utómunkát segítő funkciókat kapott: részletesebb szerkesztési vezérlést biztosít a vizuális következetesség megőrzéséhez, például az arcvonások, a megvilágítás, a kompozíció és a színtónus egységességéhez több szerkesztési lépésen át.

A legtöbb generatív MI-alapú képeszköz gyengén kezeli az iterációt, ezért ez komoly előrelépést jelenthet. Ha a felhasználó egy konkrét módosítást kér – például „változtasd meg az arckifejezést” vagy „legyen hidegebb a fényelés” –, a modellek gyakran újraértelmezik az egész képet, ami következetlenséghez vezet.

A frissítés azonban nem csak az új funkciókról szól. A ChatGPT Images mostantól egy külön belépési ponton keresztül is elérhető lesz a ChatGPT oldalsávjában, amely „inkább egy kreatív stúdióként működik” – írta Fidji Simo, az OpenAI alkalmazásokért felelős vezérigazgatója keddi blogbejegyzésében.

„Az új képnézeti és szerkesztőfelületek megkönnyítik olyan képek létrehozását, amelyek valóban megfelelnek az elképzeléseidnek, vagy inspirációt adnak népszerű promptok és előre beállított szűrők segítségével” – fogalmazott Simo.

Az új képgenerátoron túl az OpenAI további vizuális elemekkel is javítaná a ChatGPT felhasználói élményét. A tervek szerint a keresési lekérdezések több képi tartalmat jelenítenek majd meg, egyértelmű forrásmegjelöléssel, ami hasznos lehet például mértékegységek átváltásánál vagy sporteredmények ellenőrzésénél.

„Amikor alkotsz, látnod és formálnod kell azt, amit létrehozol. Amikor a vizuális elemek jobban mesélnek, mint a szavak önmagukban, a ChatGPT-nek is ezeket kell használnia” – írta Simo. „Ha gyors válaszra van szükséged, vagy a következő lépés egy másik eszközben történik, annak azonnal elérhetőnek kell lennie. Így folyamatosan csökkenthetjük a távolságot aközött, ami a fejedben van, és aközött, hogy azt életre is keltsd.” – írja a TechCrunch.

Kép forrása: WebProNews

Élesedik az MI-verseny: új képgeneráló modellel támad az OpenAI

Hasznos információk

Kapcsolat