Az Apple mérnökei új megközelítést alkalmaztak az emberi beszéd értelmezésénél, így minden eddiginél kifinomultabbak lehet a vállalat eszközein elérhető hangalapú digitális asszisztens.
Az Apple mérnökeinek mesterséges intelligenciát (MI) érintő fejlesztéséről számolt be a MacRumors. Reference Resolution as Language Modeling (ReALM) nevű megoldásukban az Apple szakemberei egy új megközelítést vázoltak fel arra, hogy a nagy nyelvi modellek miként oldják fel a referenciákat, azaz miként értelmezik az eléjük kerülő tartalmakat.
A referenciák feloldása a természetes nyelv megértésének fontos része, ez teszi ugyanis lehetővé azt, hogy a beszélgetés során a felek zavartalanul használhassák például a névmásokat. Ha valaki azt mondja, hogy „arra gondolok”, akkor a másik fél jó eséllyel tudni fogja, hogy a beszélgetőtársa mit ért az „arra” alatt. A digitális asszisztensek számára azonban ez a feloldás komoly kihívást jelent, amire a ReALM megoldást adhat. A mérnökök a referenciák feloldásának összetett feladatát nyelvi modellezési problémává alakították, így az interakció során a rendszer képes lehet megérteni, ha a kijelzőn látható egyik elemre utal a felhasználó.
A ReALM szöveges megjelenítés segítségével rekonstruálja a kijelzőn látható elemeket. A kutatók azt találták, hogy ennek a megoldásnak a finomhangolásával az olyan nagy nyelvi modellek teljesítménye is felülmúlható, mint az OpenAI által fejlesztett GPT-4.