LLM VRAM kalkulaator
Arvutage GPU VRAM nõudeid suurte keelemudelite käitamiseks erinevate kvantiseerimistasemetega. Toetab populaarseid mudeleid nagu Llama, Mistral ja Qwen.
Sisend
Väljund
Loe mind
Mis on VRAM ja miks see LLM-ide jaoks oluline?
VRAM (Video Random Access Memory) on teie graafikakaardi spetsialiseeritud mälu, mida kasutatakse GPU arvutuste andmete salvestamiseks. Suurte keelemudelite (LLM-ide) kohalikul käitamisel peavad kõik mudeli kaalud mahutuma VRAM-i tõhusaks järeldamiseks. Erinevalt süsteemi RAM-ist pakub VRAM kõrget ribalaius, mida on vaja LLM-ide paralleelarvutusteks.
VRAM-i otsa saamine sunnib süsteemi andmeid GPU mälu ja süsteemi RAM-i vahel vahetama, mis aeglustab tekstiloomist dramaatiliselt. Paljudel juhtudel mudel lihtsalt ei käivistu, kui see VRAM-i ei mahu. Seetõttu on VRAM-i nõuete arvutamine oluline enne mis tahes kohaliku LLM-i allalaadimist või käitamist.
Kuidas arvutatakse LLM VRAM?
LLM-ide VRAM kasutamine koosneb kolmest põhikomponendist:
Mudeli kaalud: Põhilised närvivõrgu parameetrid. 7B parameetriga mudel FP16 (16-bitine) kasutab ligikaudu 14 GB, samas kui sama mudel 4-bitiseks kvantiseeritud versioon kasutab vaid ~4 GB.
KV Cache: Tekstiloomise ajal salvestab mudel eelmiste tokenite võtme-väärtuse paare. See cache kasvab konteksti pikkusega ja võib pikki vestlusi jaoks tarbida mitut gigabaiiti.
Üldkulu: CUDA kernelid, aktiveerimise tensorid ja raamistiku üldkulu lisavad tavaliselt 10-15% baasvajadustele.
Mudeli suuruse valem on: (Parameetrid × Bitid kaalu kohta) ÷ 8 = Suurus baitides
Tööriista kirjeldus
See kalkulaator hindab VRAM-i, mis on vajalik suure keelemudelite kohalikul käitamisel teie GPU-l. Sisestage oma mudeli parameetrite arv, valige kvantiseerimisvorming ja määrake oma saadaolev VRAM, et kohe näha, kas mudel mahub ja millist konteksti pikkust saate toetada.
Tööriist toetab kõiki tavalisi kvantiseerimisformaate llama.cpp-st, sealhulgas GGUF Q2 kuni Q8 variandid, samuti standardseid FP16 ja FP32 täpsusi. See arvutab ka maksimaalse konteksti pikkuse, mida teie GPU saab hallata selle VRAM-i võimsuse alusel.
Funktsioonid
- 20+ kvantiseerimisformaati: Täielik tugi GGUF kvantiseerimistüüpidele (Q2_K kuni Q8_0), i-kvantidele (IQ2-IQ4) ja standardsetele täpsustele (FP16, FP32, BF16)
- Populaarsete mudelite eelseadistused: Kiire valik tavaliste mudeli suuruste jaoks 1B kuni 405B parameetrite vahel, sealhulgas Llama 3, Mistral, Qwen ja Phi mudelid
- GPU eelseadistused: Eelkonfigureeritud VRAM kogused populaarsete tarbija- ja professionaalsete GPU-de jaoks GTX 1650-st H100-ni
- Konteksti pikkuse arvutamine: Automaatselt arvutab maksimaalse konteksti akna, mida teie GPU suudab toetada
- Reaalajas tulemused: Kohene tagasiside parameetrite muutmisel
Kasutusjuhud
Enne mudeli allalaadimist: Kontrollige, kas mudel käitub teie riistvaral enne 50+ GB faili allalaadimisele aja kulutamist. Teadke eelnevalt, millist kvantiseerimistasandit peate oma GPU-sse mahutamiseks kasutama.
Järeldamise seadete optimeerimine: Leidke tasakaal mudeli kvaliteedi (kõrgem kvantiseerimine) ja konteksti pikkuse vahel. Mõnikord võimaldab Q6-st Q4-le langus teie konteksti akent kahekordistada.
GPU uuenduste planeerimine: Võrrelge, kuidas erinevad GPU-d teie sihmudeleid käsitlevad. Näete täpselt, kui palju VRAM-i vajate Llama 70B või muude suurte mudelite mugavaks käitamiseks.
Toetatud kvantiseerimisformaadid
| Vorming | Bitid/Kaal | Parim kasutamine |
|---|---|---|
| FP32 | 32.0 | Maksimaalne täpsus, uurimistöö |
| FP16/BF16 | 16.0 | Treenimine, kõrge kvaliteediga järeldamine |
| Q8_0 | 8.5 | Peaaegu kadudeta kvaliteet |
| Q6_K | 6.56 | Kõrge kvaliteet hea tihendamisega |
| Q5_K_M | 5.69 | Tasakaalustatud kvaliteet ja suurus |
| Q4_K_M | 4.85 | Populaarne valik tarbija GPU-de jaoks |
| Q4_0 | 4.5 | Hea tihendamine, kerge kvaliteedi kadu |
| Q3_K_M | 3.65 | Agressiivne tihendamine |
| Q2_K | 2.63 | Maksimaalne tihendamine, märgatav kvaliteedi kadu |
| IQ4_XS | 4.25 | Optimeeritud 4-bitine tähtsuskaalu kaalumisega |
| IQ3_XXS | 3.06 | Eksperimentaalne ultra-madal bitt |
| IQ2_XXS | 2.06 | Äärmuslik tihendamine |
Kuidas see toimib
Kalkulaator kasutab neid valemeid:
Mudeli suurus (GB) = (Parameetrid miljardites × 10⁹ × bitid kaalu kohta) ÷ 8 ÷ 10⁹
KV Cache (GB) ≈ (Parameetrid × Konteksti pikkus ÷ 1000 × 0,5) ÷ 1000
Kokku VRAM = Mudeli suurus + KV Cache + 10% üldkulu
KV cache valem on lihtsustatud ligikaudne arvutus. Tegelik KV cache suurus sõltub mudeli arhitektuurist (kihtide arv, tähelepanu pead ja pea mõõtmed), kuid see hinnang toimib hästi enamiku transformaator-põhiste LLM-ide puhul.
Näpunäited
- Alustage Q4_K_M-ga: See kvantiseerimine pakub enamiku kasutusjuhtude jaoks parimaid kvaliteedi ja suuruse tasakaalu
- Jätke ruumi: Püüdke saada 1-2 GB vaba VRAM-i, et vältida mälu otsa saamise vigu pikema loomise ajal
- Arvestage konteksti vajadusi: Kui vajate pikka konteksti (8K+), võib teil olla vaja kasutada agressiivsemat kvantiseerimist
- Mitmed GPU-d: Mitme GPU-ga seadistuste puhul saate mudeleid sageli kaartide vahel jagada, kuid see kalkulaator eeldab ühe GPU-ga kasutamist
Piirangud
- KV cache hinnangud on ligikaudsed, mis põhinevad tavalistel transformaator arhitektuuridel
- Tegelik VRAM kasutamine varieerub järeldamise raamistiku järgi (llama.cpp, vLLM, TensorRT-LLM)
- Ei arvesta pakett-järeldamise või spekulatiivse dekodeerimise üldkuluga
- Flash Attention ja muud optimiseeringud võivad vähendada tegelikke nõudeid
- Mõnel mudelil on mittestandardsed arhitektuurid, mis võivad kasutada rohkem või vähem mälu
KKK
K: Miks kasutab minu mudel rohkem VRAM-i kui arvutatud? V: Kalkulaator pakub baashinnangu. Järeldamise raamistikud lisavad oma üldkulud ja mõned operatsioonid nõuavad ajutisi puhvreid, mis suurendavad tipptarvitust.
K: Kas saan käitada mudeleid, mis on suuremad kui minu VRAM, kasutades CPU-d? V: Jah, tööriistad nagu llama.cpp toetavad osalist GPU-d, kuid jõudlus langeb märkimisväärselt. See kalkulaator keskendub täielikule GPU järeldamisele.
K: Millist kvantiseerimist peaks kasutama? V: Enamiku kasutajate jaoks pakub Q4_K_M suurepärast kvaliteeti ~4,85 bitiga kaalu kohta. Kui teil on VRAM üle, pakuvad Q5_K_M või Q6_K veidi paremat kvaliteeti. Kasutage Q2/Q3 formaate ainult siis, kui see on absoluutselt vajalik.
K: Kui täpsed on need hinnangud? V: Enamiku tavaliste mudelite puhul 10-20% piires. Tegelik kasutamine sõltub konkreetsest mudeli arhitektuurist, järeldamise taustaprogrammist ja käitusaja seadistustest.