A Wikimedia Deutschland szerdán bejelentett egy új adatbázist, amelynek célja, hogy a Wikipedia hatalmas tudásanyagát könnyebben hozzáférhetővé tegye a mesterséges intelligencia-modellek számára.
A Wikidata Embedding Project névre keresztelt rendszer vektoralapú szemantikus keresést alkalmaz – ez egy olyan technika, amely segít a számítógépeknek megérteni a szavak jelentését és egymáshoz való viszonyát. A projekt a Wikipedia és testvéroldalai közel 120 millió bejegyzésére épül.
A rendszer támogatja a Model Context Protocolt (MCP) is, amely egy szabvány az AI-rendszerek és adatforrások közötti kommunikációhoz. Ennek köszönhetően a nagy nyelvi modellek (LLM-ek) természetes nyelvű lekérdezésekkel is könnyebben hozzáférhetnek az adatokhoz.
A projektet a Wikimedia németországi ága indította a Jina.AI nevű neurális keresőcéggel, valamint az IBM tulajdonában álló valós idejű adatfeldolgozó vállalattal, a DataStax-szal közösen.
A Wikidata eddig is kínált géppel olvasható adatokat a Wikimedia-oldalakról, de a korábbi eszközök csak kulcsszavas keresést és a speciális SPARQL lekérdezési nyelvet támogatták. Az új rendszer azonban jobban működik a RAG (retrieval-augmented generation) technológiával, amely lehetővé teszi, hogy az AI-modellek külső forrásokból származó, Wikipedia-szerkesztők által ellenőrzött adatokkal egészítsék ki tudásukat.
Az adatok ráadásul szemantikus kontextussal is bővültek. Például a „tudós” kifejezésre lefuttatott lekérdezés listát ad a kiemelkedő nukleáris fizikusokról és a Bell Labs kutatóiról, tartalmazza a szó fordításait más nyelveken, egy Wikimedia által engedélyezett képet tudósokról munka közben, valamint kapcsolódó fogalmakat, mint „kutató” vagy „akadémikus”.
Az adatbázis nyilvánosan elérhető a Toolforge felületén. Emellett a Wikidata október 9-én webináriumot tart az érdeklődő fejlesztőknek.
A projekt elindítása egybeesik azzal, hogy a mesterséges intelligencia-fejlesztők egyre inkább keresik a megbízható, magas minőségű adatkészleteket a modellek finomhangolásához. Bár a tréningrendszerek egyre összetettebbek – sokszor komplex tanulási környezetekként építik fel őket, nem egyszerű adatcsomagokként –, a jó minőségű, gondosan kurált adatok iránti igény továbbra is alapvető.
A megbízható adatok különösen fontosak azokban az alkalmazásokban, ahol kiemelt szerepe van a pontosságnak. Bár sokan szkeptikusak a Wikipediával kapcsolatban, adatbázisa sokkal inkább tényalapú, mint például a Common Crawl, amely főként az internetről tömegesen begyűjtött weboldalakat tartalmazza.
A minőségi adatok iránti kereslet ugyanakkor költséges következményekkel is járhat az AI-laboroknak: augusztusban az Anthropic vállalta, hogy 1,5 milliárd dollárt fizet egy szerzői jogi per lezárására, amelyben írók műveit használták fel tréningadatként.
Philippe Saadé, a Wikidata AI projektmenedzsere hangsúlyozta, hogy a kezdeményezés független a nagy AI-laboroktól és technológiai óriásoktól. Nyilatkozatában így fogalmazott:
„A Wikidata Embedding Project indulása azt mutatja, hogy a mesterséges intelligenciának nem kell néhány nagyvállalat kizárólagos irányítása alatt állnia. Lehet nyílt, együttműködésen alapuló, és mindenki számára hozzáférhető.” – írja a TechCrunch.
Kép forrása: The Verge
