قد يكون نموذج R1 الذي تم تحديثه لـ Deepseek هو الجزء الأكبر من انتباه مجتمع الذكاء الاصطناعى هذا الأسبوع. لكن مختبر AI الصيني أصدر أيضًا نسخة أصغر “مقطرة” من R1 الجديد ، Deepseek-R1-0528-QWEN3-8B ، الذي يدعي Deepseek يتفوق على نماذج ذات حجم نسبي على معايير معينة.
يعمل R1 الأصغر المحدث ، والذي تم إنشاؤه باستخدام نموذج QWEN3-8B الذي تم إطلاقه في شهر مايو كأساس ، أفضل من فلاش Gemini 2.5 من Google في AIME 2025 ، وهي مجموعة من أسئلة الرياضيات الصعبة.
Deepseek-R1-0528-QWEN3-8B أيضًا يطابق ما يقرب من نموذج Microsoft الذي تم إصداره مؤخرًا PHI 4 Reasoning Plus في اختبار آخر لمهارات الرياضيات ، HMMT.
ما يسمى النماذج المقطرة مثل Deepseek-R1-0528-QWEN3-8B هي عمومًا أقل قدرة من نظيراتها كاملة الحجم. على الجانب الإيجابي ، فهي أقل حسابا من الناحية الحسابية. وفقًا لـ Cloud Platform NodeShift ، يتطلب QWEN3-8B GPU مع ذاكرة الوصول العشوائي 40GB-80GB لتشغيلها (على سبيل المثال ، NVIDIA H100). احتياجات R1 الجديدة ذات الحجم الكامل حوالي عشرة وحدات معالجة الرسومات 80 جيجابايت.
قام Deepseek بتدريب Deepseek-R1-0528-QWEN3-8B عن طريق أخذ نص تم إنشاؤه بواسطة R1 المحدث واستخدامه لضبط QWEN3-8B. في صفحة ويب مخصصة للنموذج على وجه منصة AI Dev ، يصف Deepseek Deepseek-R1-0528-QWEN3-8B بأنه “لكل من الأبحاث الأكاديمية حول نماذج التفكير والتطور الصناعي الذي يركز على النماذج الصغيرة.”
Deepseek-R1-0528-QWEN3-8B متاح بموجب ترخيص معهد ماساتشوستس للتكنولوجيا ، مما يعني أنه يمكن استخدامه تجاريًا دون تقييد. العديد من المضيفين ، بما في ذلك LM Studio ، يقدمون بالفعل النموذج من خلال واجهة برمجة التطبيقات.
روابط قد تهمك
مؤسسة اشراق العالم خدمات المواقع والمتاجر باك لينكات باقات الباك لينك
روابط قد تهمك
مؤسسة اشراق العالم خدمات المواقع والمتاجر باك لينكات باقات الباك لينك