Mi a DeepSeek titka?

Az idei kínai holdújév ünnepe alatt – függetlenül attól, hogy mennyire követi a technológiai híreket –, nagy valószínűséggel mindenki találkozott már a „DeepSeek” nevű MI-termékről szóló hírekkel. A kínai vállalat ugyanis bejelentette a „DeepSeek-R1” elnevezésű MI-modelljét, amely az OpenAI legújabb, GPT-o1 modellje költségeinek mindössze tizedéért kínált ahhoz hasonló teljesítményt.

A vállalat korábban azt is jelezte, hogy a DeepSeek-V3 modellje mindössze 5,58 millió dollárból készült el, ami a nyugati versenytársak költségeinek kevesebb mint egytizede volt. A GPU-használat és a tanítási idő is töredéke volt az olyan csúcskategóriás modellekéhez képest, mint a GPT-4o és a Claude Sonnet 3.5, amelyeket több százmillió dollárért fejlesztettek. Ez a hír azonnal felkeltette a globális technológiai közösség figyelmét.

A DeepSeek-R1 megjelenését követő tíz napon belül a modell több mint 70 országban – köztük Kínában és az Egyesült Államokban is – vezette az Apple App Store letöltési listáját. Ez volt az első alkalom, hogy egy MI-termék letaszította az OpenAI ChatGPT-jét a globális csúcsról. Az MI-piac versenyhelyzete először váltott ki pánikot az amerikai technológiai vállalatok körében.

A DeepSeek robbanásszerű növekedése félelmet keltett a Wall Streeten is, mivel egyesek aggódtak az MI-infrastruktúra terhelése miatt. Január 27-én az amerikai technológiai óriások részvényárfolyama drámaian zuhant, több ezer milliárd dollárnyi piaci értéket veszítve. Az Nvidia részvényei 16,86%-kal estek, 589 milliárd dollárt veszítve, ami két Alibaba méretének felel meg. Az Oracle 13,78%-ot, a Supermicro 12,49%-ot, a Broadcom 17,4%-ot, míg a TSMC 13%-ot zuhant.

A tőzsdei árfolyamok esése mellett az amerikai vállalatok is elkezdték tanulmányozni és másolni a kínai versenytársakat. Jelentések szerint a Meta négy különböző csapatot állított fel kifejezetten a DeepSeek kutatására. Ezzel párhuzamosan egyre több kritika és támadás is érte a vállalatot.

A kínai MI-technológia szerepe a globális versenyben

Az elmúlt évek MI-versenyében a kínai technológiai vállalatok mindig is az amerikai cégek követői voltak. A kínai cégek jellemzően hatalmas erőforrásokat fektettek be a versenybe, de a piacot továbbra is az OpenAI és a Meta vezette. 2022-től kezdve az Egyesült Államok kormánya szigorította a csúcstechnológiás chipek exportkorlátozását, így a kínai MI-cégek általános problémája a számítási teljesítmény korlátozottsága lett.

A DeepSeek megjelenése azonban új stratégiát mutatott be: ahelyett, hogy versenyezni próbálna az amerikai vállalatok óriási számítási teljesítményével, egy alacsony költségű, magas hatékonyságú megoldást dolgozott ki.

Hogyan sikerült a DeepSeek-nek a kanyarban előzni?

Bár a DeepSeek egy 2023-ban alapított fiatal vállalat, anyavállalata, a Phantom Square, több mint 1000 milliárd jüan értékű vagyonkezelést folytató kvantitatív befektetési vállalat, amely már évek óta foglalkozik

MI-kutatásokkal.

A DeepSeek alapítója, Liang Wenfeng eredetileg azért kezdte el az MI-kutatásokat, hogy GPU-alapú kvantitatív kereskedési modelleket fejlesszen ki. Az MI lehetőségeinek határait kutatva a cég több ezer NVIDIA A100-as chipet halmozott fel, így egyes kínai internetes óriásokkal is versenyképes infrastruktúrát építettek ki.

A cég 2024. májusában az MI-ipar egyik legfontosabb szereplőjévé vált. Az ok a „DeepSeek V2” nevű nyílt forrású modell megjelenése volt, amely példa nélküli ár-érték arányt kínált: az inferencia költsége mindössze 1 jüan/ millió token, ami a Llama 3 70B költségének hetede, a GPT-4 Turbo költségének hetvenede volt.

A DeepSeek gyorsan kiérdemelte az „AI Pinduoduo” becenevet, mivel költséghatékonysága felborított minden piaci modellt (a Pinduoduo a hagyományos mezőgazdaságra összpontosító online kiskereskedő). Az olyan nagyvállalatok, mint a ByteDance, a Tencent, a Baidu és az Alibaba, sem tudtak ellenállni a nyomásnak, és árcsökkenési hullámot indítottak.

A motorháztető alatt

A siker kulcsa az innovatív modellarchitektúra volt. A DeepSeek egy új MLA (Multi-Head Latent Attention) architektúrát fejlesztett ki, amely az MHA (Multi-Head Attention) architektúra VRAM-igényének mindössze 5-13%-át használja fel. Emellett a DeepSeekMoESparse nevű saját fejlesztésű struktúrájuk a számítási kapacitás minimálisra csökkentését is lehetővé tette, ami jelentősen lefaragta a költségeket.

A DeepSeek hamarosan nemzetközi figyelmet is kapott. A SemiAnalysis vezető elemzője a DeepSeek V2 tanulmányát az év legjobb MI-publikációjának nevezte. Az OpenAI korábbi munkatársa, Andrew Carr, „zsenialitással teli” műnek titulálta a kutatást, sőt, saját modelljénél is alkalmazta annak elveit. Jack Clark, az OpenAI egykori politikai igazgatója és az Anthropic társalapítója szerint a DeepSeek „misztikus tehetségeket” alkalmazott, és azt prognosztizálta, hogy a kínai nagy nyelvi modellek az MI-ben ugyanazt a szerepet töltik majd be, mint az ország a drónok és elektromos járművek piacán.

A DeepSeek és az open-source stratégia

A DeepSeek által kínált út merőben eltérő attól, amit a kínai tech-vállalatok eddig követtek. Míg a legtöbb cég a Llama-szerű architektúrákat követi, a vállalat az alapszerkezet átalakítására összpontosított, hogy a lehető legkevesebb erőforrás felhasználásával a lehető legjobb teljesítményt érje el. A vállalat sikere azonban nem csupán a modell teljesítményének volt köszönhető, hanem annak is, hogy elkötelezett a nyílt forráskódú fejlesztés mellett. Az MI-modell forráskódjának, súlyainak és architektúrájának megosztása azt jelenti, hogy bárki – legyen az egyéni fejlesztő vagy nagyvállalat – szabadon használhatja és építhet rá további alkalmazásokat.

Ez a döntés számos iparági szakértő és befektető elismerését kiváltotta. Az Nvidia vezető kutatója, Jim Fan úgy nyilatkozott, hogy a DeepSeek végrehajtja azt a nyílt forráskódú küldetést, amelyet eredetileg az OpenAI célként tűzött ki.

A DeepSeek egy új MI-paradigmát mutatott be: egy hatékony, alacsony költségű, nyílt fejlesztési modellt, amely kihívást jelenthet az amerikai MI-óriások számára. Ahogy a kínai MI-technológia tovább fejlődik, egyre inkább úgy tűnik, hogy a globális MI-piac már nem egyoldalúan az amerikai vállalatok által irányított verseny lesz.

Forrás: itbusiness.hu

Kép forrása: knowtechie.com

A kínai MI-technológia szerepe a globális versenyben

Hogyan sikerült a DeepSeek-nek a kanyarban előzni?

A motorháztető alatt

A DeepSeek és az open-source stratégia

Hasznos információk

Kapcsolat