DeepSeek R1: النموذج الصيني للغة الكبيرة الذي غيّر اقتصاد الذكاء الاصطناعي

إن DeepSeek R1 ليس مجرد روبوت محادثة آخر.

إنها إشارة إلى أن التفوق في الذكاء الاصطناعي يعتمد بشكل متزايد على الكفاءة، وفتح الأوزان (الأوزان المفتوحة)، والقدرة على التوسع الرخيص للاستدلال.

أصبح DeepSeek R1 أحد أهم نقاط المرجع في النقاش حول النماذج اللغوية الصينية، لأنه جمع بين ثلاثة أشياء نادراً ما تجتمع معاً: نتائج قوية جداً في مهام الاستدلال، وأوزان متاحة للعامة، وسردية عن الكفاءة التكلفة الجذرية.

في الواقع، لا يتعلق الأمر بما إذا كان يجب التعامل مع كل مقياس أداء (benchmark) لـ DeepSeek كدليل مباشر على التفوق على النماذج المغلقة من الولايات المتحدة.

الأهم هو أن DeepSeek قد حرك حدود التوقعات للنماذج المفتوحة: فإذا كان مختبر خارج المركز الأمريكي للسوق قادراً على نشر نموذج استدلال تُقارن نتائجه بنماذج فئة OpenAI o1، فإن الشركات والجامعات والإدارة تبدأ في حساب تكاليف تطبيق الذكاء الاصطناعي بطريقة مختلفة.

يبدأ الجزء الأكثر تحديدًا في التاريخ من DeepSeek-V3.

في تقرير فني صدر في ديسمبر 2024، وصف المؤلفون نموذج "مزيج الخبراء" (mixture-of-experts) الذي يمتلك 671 مليار معامل إجمالي وحوالي 37 مليار معامل نشط لكل رمز (token).

هذا فرق مهم: فالنموذج يتمتع بسعة كبيرة جدًا، ولكنه يستخدم جزءًا فقط من الخبراء أثناء خطوة حسابية واحدة.