A nagy nyelvi modellek futtatása

Az AI nagy nyelvi modellek, röviden LLM-ek (Large Language Model) az utóbbi időben hatalmas tempóban fejlődtek. Ez az ütem továbbra sem lassul, folyamatosan érkeznek az újítások és frissítések.

Ma már egyre hatékonyabb és jobb modellek jelennek meg. A hardvergyártók is folyamatosan fejlesztik az LLM-ek működtetésére használható hardvereket.

Mire lehet szükség a futtatáshoz?

A Szerver.hu HPE szerver kínálatában számtalan megoldással találkozhatunk, de érdemes végigmenni az egyes hardvereken egyesével is. A nagy nyelvi modellek esetében a CPU általában nem annyira fontos, mint a platform, amire telepítik.

Erősen ajánlott olyan platformot választani, mint amilyen az Intel Xeon vagy az AMD EPYC. Kulcsfontosságú jellemzőkkel rendelkeznek, mint a sok PCI-Express sáv a GPU-k, hálókártyák és NVMe SSD-k számára. A nagy memória sávszélesség/kapacitás és az ECC hibajavító memóriatámogatás is különösen fontos.

A kisebb LLM modellek esetében a nem-szerver szintű platformok is elegendőek lehetnek. A desktop processzorok között kell ilyenkor válogatni: Intel Core-i7, Core-i9 vagy az AMD Ryzen 7 és 9 sorozat. Az egyik leghatékonyabb CPU platform a nagy nyelvi modellek futtatásához az Intel Xeon W (workstation) vagy az AMD’s Threadripper PRO. Mindkettő nagy magszámot, kapacitást, kiváló memóriateljesítményt és nagyszámú PCIe-sávot nyújt. Bármelyik CPU 32 magos változata ajánlott a kiegyensúlyozott memóriateljesítmény miatt.

Fontos kiemelni, hogy a magasabb CPU-magszám nem feltétlenül fogja felgyorsítani a nagy nyelvi modelleket. Nem ajánlott ugyanis közvetlenül a CPU-n futtatni az LLM-et. Ha azonban a munkafolyamat nem csak a generatív modellek futtatását foglalja magában, akkor már nagy hatása lehet a processzornak. Ha tartalmaz adatgyűjtést, manupulációt, illetve elő- vagy utófeldolgozást a folyamat, a CPU már kritikus összetevőnek számít.

Mi a helyzet a videokártyával?

A legfontosabb láncszem az egész berendezésben. Az LLM-eket használó alkalmazások teljes mértékben a GPU-kra támaszkodnak. Rendkívüli teljesítményt nyújtanak az ilyen típusú számítási feladatokhoz. Professional vagy Compute videokártyát érdemes választani. Idetartoznak az NVIDIA Ada Lovelace kártyák: RTX 6000 Ada Gen (48 GB), RTX 5000 Ada Gen (32 GB) vagy az NVIDIA DataCenter GPU-k, mint az L40 (48 GB) és A100 PCIe (80 GB).

A VRAM az egyik legfőbb korlátozó tényező a megvalósíthatóság szempontjából. Például a Llama 70B paraméteres modell natív, azaz 16 bites pontosságú futtatásához 80-140 GB VRAM kell.

A képgeneráláshoz még komolyabb eszköz szükséges

Ez számít napjainkban a legnépszerűbb AI- és ML-alkalmazásoknak. Az ilyen típusú hálózatok képzése nagy adathalmazokat igényel. A könnyebb megoldásokhoz eleinte elegendő 12 GB VRAM is, de a komolyabb munkafolyamatokhoz már elengedhetetlen legalább 24 GB VRAM, mint amivel az RTX 4090 is rendelkezik.

Fotó forrása: shop.szerver.hu