Calculateur VRAM LLM
Calculez les besoins en VRAM GPU pour exécuter des modèles de langage volumineux avec différents niveaux de quantification. Supporte les modèles populaires comme Llama, Mistral et Qwen.
Entrée
Sortie
Documentation
Qu'est-ce que la VRAM et pourquoi est-ce important pour les LLM ?
La VRAM (mémoire vive vidéo) est la mémoire dédiée de votre carte graphique utilisée pour stocker les données des calculs GPU. Lors de l'exécution de modèles de langage volumineux (LLM) localement, tous les poids du modèle doivent tenir dans la VRAM pour une inférence efficace. Contrairement à la RAM système, la VRAM fournit la bande passante élevée nécessaire aux calculs parallèles qui font fonctionner les LLM.
L'épuisement de la VRAM force le système à échanger des données entre la mémoire GPU et la RAM système, ce qui ralentit considérablement la génération de texte. Dans de nombreux cas, si un modèle ne tient pas dans la VRAM, il ne fonctionnera tout simplement pas. Cela rend le calcul des exigences de VRAM essentiel avant de télécharger ou de tenter d'exécuter un LLM local.
Comment la VRAM des LLM est-elle calculée ?
L'utilisation de la VRAM pour les LLM comprend trois composants principaux :
Poids du modèle : Les paramètres du réseau de neurones principal. Un modèle de 7B paramètres en FP16 (16 bits) utilise environ 14 Go, tandis que le même modèle quantifié en 4 bits n'utilise que ~4 Go.
Cache KV : Lors de la génération de texte, le modèle stocke les paires clé-valeur des tokens précédents. Ce cache augmente avec la longueur du contexte et peut consommer plusieurs gigaoctets pour les longues conversations.
Surcharge : Les noyaux CUDA, les tenseurs d'activation et la surcharge du framework ajoutent généralement 10-15 % aux exigences de base.
La formule pour la taille du modèle est : (Paramètres × Bits par poids) ÷ 8 = Taille en octets
Description de l'outil
Ce calculateur estime la VRAM requise pour exécuter un modèle de langage volumineux localement sur votre GPU. Entrez le nombre de paramètres de votre modèle, sélectionnez un format de quantification et spécifiez votre VRAM disponible pour voir instantanément si le modèle tiendra et quelle longueur de contexte vous pouvez supporter.
L'outil supporte tous les formats de quantification courants de llama.cpp, y compris les variantes GGUF Q2 à Q8, ainsi que les précisions standard FP16 et FP32. Il calcule également la longueur de contexte maximale que votre GPU peut gérer compte tenu de sa capacité VRAM.
Fonctionnalités
- 20+ formats de quantification : Support complet des types de quantification GGUF (Q2_K à Q8_0), i-quants (IQ2-IQ4) et précisions standard (FP16, FP32, BF16)
- Présets de modèles populaires : Sélection rapide pour les tailles de modèles courants de 1B à 405B paramètres, y compris les modèles Llama 3, Mistral, Qwen et Phi
- Présets GPU : Quantités de VRAM préconfigurées pour les GPU grand public et professionnels populaires, de GTX 1650 à H100
- Calcul de la longueur du contexte : Calcule automatiquement la fenêtre de contexte maximale que votre GPU peut supporter
- Résultats en temps réel : Retour instantané à mesure que vous ajustez les paramètres
Cas d'utilisation
Avant de télécharger un modèle : Vérifiez si un modèle fonctionnera sur votre matériel avant de passer du temps à télécharger un fichier de 50+ Go. Sachez à l'avance quel niveau de quantification vous devez utiliser pour adapter votre GPU.
Optimisation des paramètres d'inférence : Trouvez le juste équilibre entre la qualité du modèle (quantification plus élevée) et la longueur du contexte. Parfois, passer de Q6 à Q4 vous permet de doubler votre fenêtre de contexte.
Planification des mises à niveau GPU : Comparez comment différents GPU géreraient vos modèles cibles. Voyez exactement combien de VRAM vous avez besoin pour exécuter confortablement Llama 70B ou d'autres grands modèles.
Formats de quantification supportés
| Format | Bits/Poids | Idéal pour |
|---|---|---|
| FP32 | 32,0 | Précision maximale, recherche |
| FP16/BF16 | 16,0 | Entraînement, inférence haute qualité |
| Q8_0 | 8,5 | Qualité quasi sans perte |
| Q6_K | 6,56 | Haute qualité avec bonne compression |
| Q5_K_M | 5,69 | Qualité équilibrée et taille |
| Q4_K_M | 4,85 | Choix populaire pour les GPU grand public |
| Q4_0 | 4,5 | Bonne compression, légère perte de qualité |
| Q3_K_M | 3,65 | Compression agressive |
| Q2_K | 2,63 | Compression maximale, perte de qualité notable |
| IQ4_XS | 4,25 | 4 bits optimisés avec poids d'importance |
| IQ3_XXS | 3,06 | Ultra-bas bit expérimental |
| IQ2_XXS | 2,06 | Compression extrême |
Comment ça fonctionne
Le calculateur utilise ces formules :
Taille du modèle (Go) = (Paramètres en milliards × 10⁹ × bits par poids) ÷ 8 ÷ 10⁹
Cache KV (Go) ≈ (Paramètres × Longueur du contexte ÷ 1000 × 0,5) ÷ 1000
VRAM totale = Taille du modèle + Cache KV + Surcharge de 10 %
La formule du cache KV est une approximation simplifiée. La taille réelle du cache KV dépend de l'architecture du modèle (nombre de couches, têtes d'attention et dimensions des têtes), mais cette estimation fonctionne bien pour la plupart des LLM basés sur les transformers.
Conseils
- Commencez par Q4_K_M : Cette quantification offre le meilleur équilibre entre qualité et taille pour la plupart des cas d'utilisation
- Laissez de la marge : Visez 1-2 Go de VRAM libre pour éviter les erreurs de mémoire insuffisante lors de générations plus longues
- Considérez vos besoins en contexte : Si vous avez besoin d'un contexte long (8K+), vous devrez peut-être utiliser une quantification plus agressive
- Plusieurs GPU : Pour les configurations multi-GPU, vous pouvez souvent diviser les modèles entre les cartes, mais ce calculateur suppose une utilisation sur un seul GPU
Limitations
- Les estimations du cache KV sont des approximations basées sur les architectures transformer typiques
- L'utilisation réelle de la VRAM varie selon le framework d'inférence (llama.cpp, vLLM, TensorRT-LLM)
- Ne tient pas compte de la surcharge d'inférence par lots ou du décodage spéculatif
- Flash Attention et d'autres optimisations peuvent réduire les exigences réelles
- Certains modèles ont des architectures non standard qui peuvent utiliser plus ou moins de mémoire
FAQ
Q : Pourquoi mon modèle utilise-t-il plus de VRAM que calculé ? R : Le calculateur fournit des estimations de base. Les frameworks d'inférence ajoutent leur propre surcharge, et certaines opérations nécessitent des buffers temporaires qui augmentent l'utilisation maximale.
Q : Puis-je exécuter des modèles plus grands que ma VRAM en utilisant le déchargement CPU ? R : Oui, des outils comme llama.cpp supportent le déchargement partiel GPU, mais les performances diminuent considérablement. Ce calculateur se concentre sur l'inférence GPU complète.
Q : Quelle quantification dois-je utiliser ? R : Pour la plupart des utilisateurs, Q4_K_M offre une excellente qualité avec ~4,85 bits par poids. Si vous avez de la VRAM à revendre, Q5_K_M ou Q6_K offrent une qualité légèrement meilleure. N'utilisez les formats Q2/Q3 que si c'est absolument nécessaire.
Q : Quelle est la précision de ces estimations ? R : À 10-20 % près pour la plupart des modèles courants. L'utilisation réelle dépend de l'architecture spécifique du modèle, du backend d'inférence et des paramètres d'exécution.