حاسبة VRAM لنماذج اللغة الكبيرة
احسب متطلبات VRAM للمعالج الرسومي لتشغيل نماذج اللغة الكبيرة بمستويات تكميم مختلفة. يدعم النماذج الشهيرة مثل Llama و Mistral و Qwen.
الإدخال
الإخراج
ملف القراءة
ما هو VRAM ولماذا يهم بالنسبة للنماذج اللغوية الكبيرة؟
VRAM (ذاكرة الوصول العشوائي للفيديو) هي الذاكرة المخصصة على بطاقة الرسومات الخاصة بك والمستخدمة لتخزين البيانات لحسابات GPU. عند تشغيل النماذج اللغوية الكبيرة (LLMs) محليًا، يجب أن تتسع أوزان النموذج بالكامل في VRAM للاستدلال الفعال. على عكس ذاكرة النظام RAM، توفر VRAM عرض النطاق الترددي العالي اللازم للحسابات المتوازية التي تجعل النماذج اللغوية الكبيرة تعمل.
نفاد VRAM يجبر النظام على تبديل البيانات بين ذاكرة GPU وذاكرة النظام RAM، مما يبطئ توليد النصوص بشكل كبير. في كثير من الحالات، إذا لم يتسع النموذج في VRAM، فلن يعمل على الإطلاق. هذا يجعل حساب متطلبات VRAM ضروريًا قبل تحميل أو محاولة تشغيل أي نموذج لغوي محلي.
كيف يتم حساب VRAM للنماذج اللغوية الكبيرة؟
يتكون استخدام VRAM للنماذج اللغوية الكبيرة من ثلاثة مكونات رئيسية:
أوزان النموذج: معاملات الشبكة العصبية الأساسية. نموذج بـ 7 مليارات معامل بصيغة FP16 (16-بت) يستخدم حوالي 14 جيجابايت، بينما نفس النموذج المكمّى إلى 4-بت يستخدم فقط حوالي 4 جيجابايت.
KV Cache: أثناء توليد النصوص، يخزن النموذج أزواج المفاتيح والقيم من الرموز السابقة. تنمو هذه الذاكرة المؤقتة مع طول السياق ويمكن أن تستهلك عدة جيجابايتات للمحادثات الطويلة.
الحمل الإضافي: نوى CUDA وموترات التفعيل والحمل الإضافي للإطار عادة ما يضيف 10-15% إلى المتطلبات الأساسية.
الصيغة لحجم النموذج هي: (المعاملات × البتات لكل وزن) ÷ 8 = الحجم بالبايتات
وصف الأداة
تقدر هذه الآلة الحاسبة VRAM المطلوب لتشغيل نموذج لغوي كبير محليًا على GPU الخاص بك. أدخل عدد معاملات النموذج الخاص بك، واختر صيغة التكميم، وحدد VRAM المتاح لديك لترى على الفور ما إذا كان النموذج سيتسع وكم طول السياق الذي يمكنك دعمه.
تدعم الأداة جميع صيغ التكميم الشائعة من llama.cpp بما في ذلك متغيرات GGUF Q2 إلى Q8، بالإضافة إلى الدقة القياسية FP16 و FP32. كما تحسب أقصى طول سياق يمكن لـ GPU الخاص بك التعامل معه بناءً على سعة VRAM الخاصة به.
الميزات
- أكثر من 20 صيغة تكميم: دعم كامل لأنواع تكميم GGUF (Q2_K إلى Q8_0)، و i-quants (IQ2-IQ4)، والدقة القياسية (FP16, FP32, BF16)
- إعدادات مسبقة للنماذج الشهيرة: اختيار سريع لأحجام النماذج الشائعة من 1 مليار إلى 405 مليار معامل بما في ذلك نماذج Llama 3 و Mistral و Qwen و Phi
- إعدادات مسبقة لـ GPU: كميات VRAM مُعدة مسبقًا لـ GPUs الاستهلاكية والاحترافية الشهيرة من GTX 1650 إلى H100
- حساب طول السياق: يحسب تلقائيًا أقصى نافذة سياق يمكن لـ GPU الخاص بك دعمها
- النتائج في الوقت الفعلي: ملاحظات فورية عند تعديل المعاملات
حالات الاستخدام
قبل تحميل نموذج: تحقق مما إذا كان النموذج سيعمل على أجهزتك قبل قضاء الوقت في تحميل ملف بحجم 50+ جيجابايت. اعرف مسبقًا مستوى التكميم الذي تحتاجه لملاءمة GPU الخاص بك.
تحسين إعدادات الاستدلال: ابحث عن التوازن الأمثل بين جودة النموذج (تكميم أعلى) وطول السياق. أحيانًا الانتقال من Q6 إلى Q4 يسمح لك بمضاعفة نافذة السياق الخاصة بك.
التخطيط لترقيات GPU: قارن كيفية تعامل GPUs المختلفة مع النماذج المستهدفة. اعرف بالضبط كم VRAM تحتاج لتشغيل Llama 70B أو نماذج كبيرة أخرى بشكل مريح.
صيغ التكميم المدعومة
| الصيغة | البتات/الوزن | الأفضل لـ |
|---|---|---|
| FP32 | 32.0 | أقصى دقة، البحث |
| FP16/BF16 | 16.0 | التدريب، الاستدلال عالي الجودة |
| Q8_0 | 8.5 | جودة بدون فقدان تقريبًا |
| Q6_K | 6.56 | جودة عالية مع ضغط جيد |
| Q5_K_M | 5.69 | توازن بين الجودة والحجم |
| Q4_K_M | 4.85 | الخيار الشهير لـ GPUs الاستهلاكية |
| Q4_0 | 4.5 | ضغط جيد، فقدان جودة طفيف |
| Q3_K_M | 3.65 | ضغط عدواني |
| Q2_K | 2.63 | أقصى ضغط، فقدان جودة ملحوظ |
| IQ4_XS | 4.25 | 4-بت محسّن مع أوزان الأهمية |
| IQ3_XXS | 3.06 | 4-بت تجريبي فائق الانخفاض |
| IQ2_XXS | 2.06 | ضغط متطرف |
كيف تعمل
تستخدم الآلة الحاسبة هذه الصيغ:
حجم النموذج (GB) = (المعاملات بالمليارات × 10⁹ × البتات لكل وزن) ÷ 8 ÷ 10⁹
KV Cache (GB) ≈ (المعاملات × طول السياق ÷ 1000 × 0.5) ÷ 1000
إجمالي VRAM = حجم النموذج + KV Cache + حمل إضافي 10%
صيغة KV cache هي تقريب مبسط. يعتمد حجم KV cache الفعلي على معمارية النموذج (عدد الطبقات، رؤوس الانتباه، وأبعاد الرأس)، لكن هذا التقدير يعمل بشكل جيد لمعظم النماذج اللغوية الكبيرة القائمة على Transformer.
نصائح
- ابدأ بـ Q4_K_M: يوفر هذا التكميم أفضل توازن بين الجودة والحجم لمعظم حالات الاستخدام
- اترك مساحة احتياطية: استهدف 1-2 جيجابايت من VRAM الحرة لتجنب أخطاء نفاد الذاكرة أثناء الأجيال الأطول
- ضع في الاعتبار احتياجات السياق: إذا كنت بحاجة إلى سياق طويل (8K+)، قد تحتاج إلى استخدام تكميم أكثر عدوانية
- عدة GPUs: بالنسبة لإعدادات GPU المتعددة، يمكنك غالبًا تقسيم النماذج عبر البطاقات، لكن هذه الآلة الحاسبة تفترض استخدام GPU واحد
القيود
- تقديرات KV cache هي تقريبات بناءً على معماريات Transformer النموذجية
- يختلف استخدام VRAM الفعلي حسب إطار الاستدلال (llama.cpp, vLLM, TensorRT-LLM)
- لا يأخذ في الاعتبار الحمل الإضافي للاستدلال المجمع أو فك التشفير التكهني
- يمكن لـ Flash Attention والتحسينات الأخرى تقليل المتطلبات الفعلية
- بعض النماذج لها معماريات غير قياسية قد تستخدم ذاكرة أكثر أو أقل
الأسئلة الشائعة
س: لماذا يستخدم النموذج الخاص بي VRAM أكثر من المحسوب؟ ج: توفر الآلة الحاسبة تقديرات أساسية. تضيف أطر الاستدلال حملها الإضافي الخاص بها، وبعض العمليات تتطلب مخازن مؤقتة مؤقتة تزيد من الاستخدام الذروة.
س: هل يمكنني تشغيل نماذج أكبر من VRAM الخاص بي باستخدام إزاحة CPU؟ ج: نعم، تدعم أدوات مثل llama.cpp إزاحة GPU جزئية، لكن الأداء ينخفض بشكل كبير. تركز هذه الآلة الحاسبة على الاستدلال الكامل لـ GPU.
س: أي تكميم يجب أن أستخدم؟ ج: بالنسبة لمعظم المستخدمين، يوفر Q4_K_M جودة ممتازة مع حوالي 4.85 بت لكل وزن. إذا كان لديك VRAM إضافي، يوفر Q5_K_M أو Q6_K جودة أفضل قليلاً. استخدم صيغ Q2/Q3 فقط إذا كان ضروريًا تمامًا.
س: ما مدى دقة هذه التقديرات؟ ج: ضمن 10-20% لمعظم النماذج الشائعة. يعتمد الاستخدام الفعلي على معمارية النموذج المحددة وخلفية الاستدلال وإعدادات وقت التشغيل.