5000 Szolnok, Muskátli u. 2/A

Podcast beszélgetés PDF-ből? A Meta MI-modellje már erre is képes

A Meta kiadott egy változatot a Google NotebookLM-ben található podcast-generáló funkcióból, amelyet „NotebookLlama” névre kereszteltek. A projekt a Meta saját Llama-modelljeit használja a feldolgozáshoz. A NotebookLlama célja hasonló a NotebookLM-hez: feltöltött szövegfájlok alapján hoz létre beszélgetés-szerű, podcast-stílusú összefoglalókat.

A működése során a NotebookLlama először elkészíti a feltöltött fájl (például egy PDF hírcikk vagy blogbejegyzés) átiratát. Ezután „dramatizálást” és szándékos megszakításokat ad hozzá, majd a szöveget nyílt hozzáférésű szöveg-beszéd modellek segítségével alakítja hanggá. Az eredmény azonban még nem éri el a NotebookLM minőségét: a hangok robotikusak, és olykor furcsa időpontokban beszélnek egymásba (a NotebookLM a Google Labs által kifejlesztett kutatási és jegyzetkészítő online eszköz, amely mesterséges intelligenciát – különösen a Google Geminit – használja, hogy támogassa a felhasználókat a dokumentumaikkal való interakció során).

A Meta kutatói szerint a minőség javítható lenne erősebb modellekkel. A NotebookLlama GitHub-oldalán azt írták, hogy jelenleg a szöveg-beszéd modell korlátozza, hogy mennyire természetes a hangzás. Emellett azt is felvetették, hogy a podcast tartalmának megírása érdekében két különálló „ügynök” vitázhatna az adott témáról, így strukturálva a podcastot. Jelenleg azonban egyetlen modell hozza létre az egész podcast vázlatát.

Nem a NotebookLlama az első próbálkozás a NotebookLM podcast-funkciójának másolására, és eddig egyetlen projekt sem tudta megoldani az MI-rendszerekben gyakran előforduló „hallucinációs problémát” – azaz azt, hogy az MI olykor valótlan információkat generál.

Forrás: itbusiness.hu

Kép forrása: Shutterstock