Mis on VRAM ja miks see LLM-ide jaoks oluline?

VRAM (Video Random Access Memory) on teie graafikakaardi spetsialiseeritud mälu, mida kasutatakse GPU arvutuste andmete salvestamiseks. Suurte keelemudelite (LLM-ide) kohalikul käitamisel peavad kõik mudeli kaalud mahutuma VRAM-i tõhusaks järeldamiseks. Erinevalt süsteemi RAM-ist pakub VRAM kõrget ribalaius, mida on vaja LLM-ide paralleelarvutusteks.

VRAM-i otsa saamine sunnib süsteemi andmeid GPU mälu ja süsteemi RAM-i vahel vahetama, mis aeglustab tekstiloomist dramaatiliselt. Paljudel juhtudel mudel lihtsalt ei käivistu, kui see VRAM-i ei mahu. Seetõttu on VRAM-i nõuete arvutamine oluline enne mis tahes kohaliku LLM-i allalaadimist või käitamist.

Kuidas arvutatakse LLM VRAM?

LLM-ide VRAM kasutamine koosneb kolmest põhikomponendist:

  1. Mudeli kaalud: Põhilised närvivõrgu parameetrid. 7B parameetriga mudel FP16 (16-bitine) kasutab ligikaudu 14 GB, samas kui sama mudel 4-bitiseks kvantiseeritud versioon kasutab vaid ~4 GB.

  2. KV Cache: Tekstiloomise ajal salvestab mudel eelmiste tokenite võtme-väärtuse paare. See cache kasvab konteksti pikkusega ja võib pikki vestlusi jaoks tarbida mitut gigabaiiti.

  3. Üldkulu: CUDA kernelid, aktiveerimise tensorid ja raamistiku üldkulu lisavad tavaliselt 10-15% baasvajadustele.

Mudeli suuruse valem on: (Parameetrid × Bitid kaalu kohta) ÷ 8 = Suurus baitides

Tööriista kirjeldus

See kalkulaator hindab VRAM-i, mis on vajalik suure keelemudelite kohalikul käitamisel teie GPU-l. Sisestage oma mudeli parameetrite arv, valige kvantiseerimisvorming ja määrake oma saadaolev VRAM, et kohe näha, kas mudel mahub ja millist konteksti pikkust saate toetada.

Tööriist toetab kõiki tavalisi kvantiseerimisformaate llama.cpp-st, sealhulgas GGUF Q2 kuni Q8 variandid, samuti standardseid FP16 ja FP32 täpsusi. See arvutab ka maksimaalse konteksti pikkuse, mida teie GPU saab hallata selle VRAM-i võimsuse alusel.

Funktsioonid

  • 20+ kvantiseerimisformaati: Täielik tugi GGUF kvantiseerimistüüpidele (Q2_K kuni Q8_0), i-kvantidele (IQ2-IQ4) ja standardsetele täpsustele (FP16, FP32, BF16)
  • Populaarsete mudelite eelseadistused: Kiire valik tavaliste mudeli suuruste jaoks 1B kuni 405B parameetrite vahel, sealhulgas Llama 3, Mistral, Qwen ja Phi mudelid
  • GPU eelseadistused: Eelkonfigureeritud VRAM kogused populaarsete tarbija- ja professionaalsete GPU-de jaoks GTX 1650-st H100-ni
  • Konteksti pikkuse arvutamine: Automaatselt arvutab maksimaalse konteksti akna, mida teie GPU suudab toetada
  • Reaalajas tulemused: Kohene tagasiside parameetrite muutmisel

Kasutusjuhud

Enne mudeli allalaadimist: Kontrollige, kas mudel käitub teie riistvaral enne 50+ GB faili allalaadimisele aja kulutamist. Teadke eelnevalt, millist kvantiseerimistasandit peate oma GPU-sse mahutamiseks kasutama.

Järeldamise seadete optimeerimine: Leidke tasakaal mudeli kvaliteedi (kõrgem kvantiseerimine) ja konteksti pikkuse vahel. Mõnikord võimaldab Q6-st Q4-le langus teie konteksti akent kahekordistada.

GPU uuenduste planeerimine: Võrrelge, kuidas erinevad GPU-d teie sihmudeleid käsitlevad. Näete täpselt, kui palju VRAM-i vajate Llama 70B või muude suurte mudelite mugavaks käitamiseks.

Toetatud kvantiseerimisformaadid

Vorming Bitid/Kaal Parim kasutamine
FP32 32.0 Maksimaalne täpsus, uurimistöö
FP16/BF16 16.0 Treenimine, kõrge kvaliteediga järeldamine
Q8_0 8.5 Peaaegu kadudeta kvaliteet
Q6_K 6.56 Kõrge kvaliteet hea tihendamisega
Q5_K_M 5.69 Tasakaalustatud kvaliteet ja suurus
Q4_K_M 4.85 Populaarne valik tarbija GPU-de jaoks
Q4_0 4.5 Hea tihendamine, kerge kvaliteedi kadu
Q3_K_M 3.65 Agressiivne tihendamine
Q2_K 2.63 Maksimaalne tihendamine, märgatav kvaliteedi kadu
IQ4_XS 4.25 Optimeeritud 4-bitine tähtsuskaalu kaalumisega
IQ3_XXS 3.06 Eksperimentaalne ultra-madal bitt
IQ2_XXS 2.06 Äärmuslik tihendamine

Kuidas see toimib

Kalkulaator kasutab neid valemeid:

Mudeli suurus (GB) = (Parameetrid miljardites × 10⁹ × bitid kaalu kohta) ÷ 8 ÷ 10⁹

KV Cache (GB) ≈ (Parameetrid × Konteksti pikkus ÷ 1000 × 0,5) ÷ 1000

Kokku VRAM = Mudeli suurus + KV Cache + 10% üldkulu

KV cache valem on lihtsustatud ligikaudne arvutus. Tegelik KV cache suurus sõltub mudeli arhitektuurist (kihtide arv, tähelepanu pead ja pea mõõtmed), kuid see hinnang toimib hästi enamiku transformaator-põhiste LLM-ide puhul.

Näpunäited

  • Alustage Q4_K_M-ga: See kvantiseerimine pakub enamiku kasutusjuhtude jaoks parimaid kvaliteedi ja suuruse tasakaalu
  • Jätke ruumi: Püüdke saada 1-2 GB vaba VRAM-i, et vältida mälu otsa saamise vigu pikema loomise ajal
  • Arvestage konteksti vajadusi: Kui vajate pikka konteksti (8K+), võib teil olla vaja kasutada agressiivsemat kvantiseerimist
  • Mitmed GPU-d: Mitme GPU-ga seadistuste puhul saate mudeleid sageli kaartide vahel jagada, kuid see kalkulaator eeldab ühe GPU-ga kasutamist

Piirangud

  • KV cache hinnangud on ligikaudsed, mis põhinevad tavalistel transformaator arhitektuuridel
  • Tegelik VRAM kasutamine varieerub järeldamise raamistiku järgi (llama.cpp, vLLM, TensorRT-LLM)
  • Ei arvesta pakett-järeldamise või spekulatiivse dekodeerimise üldkuluga
  • Flash Attention ja muud optimiseeringud võivad vähendada tegelikke nõudeid
  • Mõnel mudelil on mittestandardsed arhitektuurid, mis võivad kasutada rohkem või vähem mälu

KKK

K: Miks kasutab minu mudel rohkem VRAM-i kui arvutatud? V: Kalkulaator pakub baashinnangu. Järeldamise raamistikud lisavad oma üldkulud ja mõned operatsioonid nõuavad ajutisi puhvreid, mis suurendavad tipptarvitust.

K: Kas saan käitada mudeleid, mis on suuremad kui minu VRAM, kasutades CPU-d? V: Jah, tööriistad nagu llama.cpp toetavad osalist GPU-d, kuid jõudlus langeb märkimisväärselt. See kalkulaator keskendub täielikule GPU järeldamisele.

K: Millist kvantiseerimist peaks kasutama? V: Enamiku kasutajate jaoks pakub Q4_K_M suurepärast kvaliteeti ~4,85 bitiga kaalu kohta. Kui teil on VRAM üle, pakuvad Q5_K_M või Q6_K veidi paremat kvaliteeti. Kasutage Q2/Q3 formaate ainult siis, kui see on absoluutselt vajalik.

K: Kui täpsed on need hinnangud? V: Enamiku tavaliste mudelite puhul 10-20% piires. Tegelik kasutamine sõltub konkreetsest mudeli arhitektuurist, järeldamise taustaprogrammist ja käitusaja seadistustest.