LLM VRAM-Rechner
Berechnen Sie GPU-VRAM-Anforderungen für die Ausführung großer Sprachmodelle mit verschiedenen Quantisierungsstufen. Unterstützt beliebte Modelle wie Llama, Mistral und Qwen.
Eingabe
Ausgabe
Readme
Was ist VRAM und warum ist es für LLMs wichtig?
VRAM (Video Random Access Memory) ist der dedizierte Speicher auf Ihrer Grafikkarte, der zum Speichern von Daten für GPU-Berechnungen verwendet wird. Beim lokalen Ausführen von Large Language Models (LLMs) müssen alle Modellgewichte in den VRAM passen, um eine effiziente Inferenz zu ermöglichen. Im Gegensatz zum System-RAM bietet VRAM die hohe Bandbreite, die für die parallelen Berechnungen erforderlich ist, die LLMs ermöglichen.
Wenn der VRAM erschöpft ist, zwingt das System den Austausch von Daten zwischen GPU-Speicher und System-RAM, was die Textgenerierung dramatisch verlangsamt. In vielen Fällen wird ein Modell einfach nicht ausgeführt, wenn es nicht in den VRAM passt. Dies macht die Berechnung der VRAM-Anforderungen vor dem Herunterladen oder Ausführen eines lokalen LLM unerlässlich.
Wie wird der VRAM-Verbrauch von LLMs berechnet?
Der VRAM-Verbrauch für LLMs besteht aus drei Hauptkomponenten:
Modellgewichte: Die Kernparameter des neuronalen Netzes. Ein 7B-Parameter-Modell bei FP16 (16-Bit) benötigt etwa 14 GB, während dasselbe Modell quantisiert auf 4-Bit nur etwa 4 GB benötigt.
KV Cache: Während der Textgenerierung speichert das Modell Schlüssel-Wert-Paare aus vorherigen tokens. Dieser cache wächst mit der Kontextlänge und kann mehrere Gigabyte für lange Gespräche verbrauchen.
Overhead: CUDA-Kernel, Aktivierungstensoren und Framework-Overhead addieren typischerweise 10-15% zu den Grundanforderungen.
Die Formel für die Modellgröße lautet: (Parameter × Bits pro Gewicht) ÷ 8 = Größe in Bytes
Werkzeugbeschreibung
Dieser Rechner schätzt den VRAM, der erforderlich ist, um ein Large Language Model lokal auf Ihrer GPU auszuführen. Geben Sie die Parameteranzahl Ihres Modells ein, wählen Sie ein Quantisierungsformat aus und geben Sie Ihren verfügbaren VRAM an, um sofort zu sehen, ob das Modell passt und welche Kontextlänge Sie unterstützen können.
Das Tool unterstützt alle gängigen Quantisierungsformate von llama.cpp, einschließlich GGUF Q2 bis Q8 Varianten, sowie Standard-FP16 und FP32 Präzision. Es berechnet auch die maximale Kontextlänge, die Ihre GPU bei ihrer VRAM-Kapazität verarbeiten kann.
Funktionen
- 20+ Quantisierungsformate: Vollständige Unterstützung für GGUF-Quantisierungstypen (Q2_K bis Q8_0), i-quants (IQ2-IQ4) und Standard-Präzisionen (FP16, FP32, BF16)
- Beliebte Modellvoreinstellungen: Schnelle Auswahl für gängige Modellgrößen von 1B bis 405B Parametern, einschließlich Llama 3, Mistral, Qwen und Phi Modelle
- GPU-Voreinstellungen: Vorkonfigurierte VRAM-Mengen für beliebte Consumer- und Professional-GPUs von GTX 1650 bis H100
- Kontextlängenberechnung: Berechnet automatisch das maximale Kontextfenster, das Ihre GPU unterstützen kann
- Echtzeit-Ergebnisse: Sofortiges Feedback bei Parameteränderungen
Anwendungsfälle
Vor dem Herunterladen eines Modells: Überprüfen Sie, ob ein Modell auf Ihrer Hardware ausgeführt wird, bevor Sie Zeit mit dem Herunterladen einer 50+ GB Datei verbringen. Wissen Sie im Voraus, welche Quantisierungsstufe Sie benötigen, um Ihre GPU zu nutzen.
Optimierung der Inferenzeinstellungen: Finden Sie das Gleichgewicht zwischen Modellqualität (höhere Quantisierung) und Kontextlänge. Manchmal können Sie durch den Wechsel von Q6 zu Q4 Ihr Kontextfenster verdoppeln.
Planung von GPU-Upgrades: Vergleichen Sie, wie verschiedene GPUs Ihre Zielmodelle verarbeiten würden. Sehen Sie genau, wie viel VRAM Sie benötigen, um Llama 70B oder andere große Modelle komfortabel auszuführen.
Unterstützte Quantisierungsformate
| Format | Bits/Gewicht | Beste Verwendung |
|---|---|---|
| FP32 | 32,0 | Maximale Präzision, Forschung |
| FP16/BF16 | 16,0 | Training, hochwertige Inferenz |
| Q8_0 | 8,5 | Nahezu verlustfreie Qualität |
| Q6_K | 6,56 | Hohe Qualität mit guter Kompression |
| Q5_K_M | 5,69 | Ausgewogene Qualität und Größe |
| Q4_K_M | 4,85 | Beliebte Wahl für Consumer-GPUs |
| Q4_0 | 4,5 | Gute Kompression, leichter Qualitätsverlust |
| Q3_K_M | 3,65 | Aggressive Kompression |
| Q2_K | 2,63 | Maximale Kompression, merklicher Qualitätsverlust |
| IQ4_XS | 4,25 | Optimiertes 4-Bit mit Wichtungsgewichten |
| IQ3_XXS | 3,06 | Experimentelles Ultra-Low-Bit |
| IQ2_XXS | 2,06 | Extreme Kompression |
Wie es funktioniert
Der Rechner verwendet diese Formeln:
Modellgröße (GB) = (Parameter in Milliarden × 10⁹ × Bits pro Gewicht) ÷ 8 ÷ 10⁹
KV Cache (GB) ≈ (Parameter × Kontextlänge ÷ 1000 × 0,5) ÷ 1000
Gesamt-VRAM = Modellgröße + KV Cache + 10% Overhead
Die KV-Cache-Formel ist eine vereinfachte Annäherung. Die tatsächliche KV-Cache-Größe hängt von der Modellarchitektur (Anzahl der Schichten, Aufmerksamkeitsköpfe und Kopfdimensionen) ab, aber diese Schätzung funktioniert gut für die meisten Transformer-basierten LLMs.
Tipps
- Beginnen Sie mit Q4_K_M: Diese Quantisierung bietet das beste Gleichgewicht zwischen Qualität und Größe für die meisten Anwendungsfälle
- Puffer einplanen: Streben Sie 1-2 GB freien VRAM an, um Out-of-Memory-Fehler während längerer Generationen zu vermeiden
- Kontextanforderungen berücksichtigen: Wenn Sie einen langen Kontext benötigen (8K+), müssen Sie möglicherweise aggressivere Quantisierung verwenden
- Mehrere GPUs: Bei Multi-GPU-Setups können Sie Modelle oft auf mehrere Karten verteilen, aber dieser Rechner geht von Single-GPU-Nutzung aus
Einschränkungen
- KV-Cache-Schätzungen sind Annäherungen basierend auf typischen Transformer-Architekturen
- Der tatsächliche VRAM-Verbrauch variiert je nach Inferenz-Framework (llama.cpp, vLLM, TensorRT-LLM)
- Berücksichtigt keinen Overhead für Batch-Inferenz oder spekulatives Dekodieren
- Flash Attention und andere Optimierungen können die tatsächlichen Anforderungen reduzieren
- Einige Modelle haben nicht-standardisierte Architekturen, die mehr oder weniger Speicher benötigen können
Häufig gestellte Fragen
F: Warum verwendet mein Modell mehr VRAM als berechnet? A: Der Rechner bietet Basis-Schätzungen. Inferenz-Frameworks fügen ihren eigenen Overhead hinzu, und einige Operationen erfordern temporäre Puffer, die die Spitzennutzung erhöhen.
F: Kann ich Modelle größer als mein VRAM mit CPU-Offloading ausführen? A: Ja, Tools wie llama.cpp unterstützen partielles GPU-Offloading, aber die Leistung sinkt erheblich. Dieser Rechner konzentriert sich auf vollständige GPU-Inferenz.
F: Welche Quantisierung sollte ich verwenden? A: Für die meisten Benutzer bietet Q4_K_M hervorragende Qualität mit etwa 4,85 Bits pro Gewicht. Wenn Sie VRAM zu verschenken haben, bieten Q5_K_M oder Q6_K marginal bessere Qualität. Verwenden Sie Q2/Q3-Formate nur, wenn absolut notwendig.
F: Wie genau sind diese Schätzungen? A: Innerhalb von 10-20% für die meisten gängigen Modelle. Der tatsächliche Verbrauch hängt von der spezifischen Modellarchitektur, dem Inferenz-Backend und den Laufzeiteinstellungen ab.