YuanLab AI تطلق Yuan 3.0 Ultra: نموذج مؤسسي رائد بذكاء متفوق وكفاءة قصوى

يقدم Yuan 3.0 Ultra نموذجاً لغوياً ضخماً يعتمد على تقنية MoE مع 1 تريليون معامل، محققاً قفزة في الكفاءة بنسبة 49% وتفوقاً في معايير الأداء المؤسسي.

إعلان
صورة تصور إصدار YuanLab AI الجديد، Yuan 3.0 Ultra، مع دماغ رقمي ساطع في المنتصف يمثل النموذج، محاطًا بأيقونات متعددة الوسائط على واجهة رادارية.
YuanLab AI تطلق Yuan 3.0 Ultra، نموذج متعدد الوسائط للذكاء والكفاءة. — حقوق الصورة: www.marktechpost.com
جدول المحتويات

في خضم السباق المحموم نحو تطوير نماذج الذكاء الاصطناعي الأكثر تقدماً، برزت تحدٍ كبير يواجه الباحثين والمطورين: كيف يمكن لنموذج لغوي ضخم يمتلك تريليون معلمة أن يحقق أعلى مستويات الأداء في المؤسسات، بينما يقلل في الوقت نفسه من إجمالي عدد المعلمات ويعزز كفاءة التدريب المسبق؟ الإجابة تأتي مع الإصدار الجديد لنموذج Yuan 3.0 Ultra من YuanLab AI، وهو نموذج لغوي كبير مفتوح المصدر يعتمد على بنية "خليط من الخبراء" (Mixture-of-Experts - MoE). يتميز هذا النموذج بامتلاكه إجمالي 1 تريليون معلمة، مع 68.8 مليار معلمة نشطة فقط عند المعالجة، مما يجعله نقلة نوعية في عالم النماذج التأسيسية متعددة الوسائط.

تم تصميم بنية Yuan 3.0 Ultra بدقة لتحسين الأداء في المهام الخاصة بالمؤسسات دون التضحية بالقدرات العامة. وتكمن ميزة هذا النموذج في اعتماده على "التجانس" (Sparsity) الذي يسمح بتوسيع السعة بشكل كبير دون زيادة خطية في التكلفة الحسابية، وهو ما يميزه عن النماذج التقليدية الكثيفة (Dense Models) التي تتطلب موارد ضخمة لكل معلمة إضافية.

خوارزمية تقليم الخبراء المكيفة للطبقات (LAEP)

تعد الابتكارات في تدريب النماذج اللغوية الكبيرة جوهر التطور الحالي، ويأتي Yuan 3.0 Ultra بخوارزمية ثورية تعرف باسم Layer-Adaptive Expert Pruning أو تقليم الخبراء المكيف للطبقات. تقليدياً، يتم تطبيق تقليم الخبراء (إزالة الأجزاء الأقل فائدة من النموذج) بعد انتهاء مرحلة التدريب، ولكن خوارزمية LAEP تكسر هذه القاعدة من خلال تحديد وإزالة الخبراء المستخدمين بشكل ضعيف بشكل مباشر أثناء مرحلة التدريب المسبق.

كشفت الأبحاث حول توزيع حمل الخبراء عن وجود مرحلتين مختلفتين ومتميزتين خلال التدريب المسبق:

  1. مرحلة الانتقال الأولية: تتميز بتقلبات عالية في أحمال الخبراء، حيث تكون هذه الأحمال موروثة من التهيئة العشوائية للنموذج، مما يجعل الأداء غير مستقر في البداية.
  2. المرحلة المستقرة: هنا تبدأ أحمال الخبراء في التقارب، ويصبح الترتيب النسبي للخبراء بناءً على توزيع الرموز (Tokens) ثابتاً إلى حد كبير، مما يدل على استقرار النموذج.

العبقرية في خوارزمية LAEP تكمن في انتظارها حتى تصل العملية إلى "المرحلة المستقرة"، ثم تطبيق عملية التقليم بناءً على قيدتين رئيسيتين لضمان دقة العملية:

  • قيد الحمل الفردي (⍺): يستهدف هذا القيد الخبراء الذين يكون حملهم من الرموز أقل بكثير من متوسط الطبقة، مما يشير إلى عدم فعاليتهم.
  • قيد الحمل التراكمي (β): يحدد هذا القيد المجموعة الفرعية من الخبراء الذين يساهمون بشكل أقل في إجمالي معالجة الرموز، مما يسهل استبعادهم دون التأثير سلباً على الأداء.
  • من خلال تطبيق LAEP مع قيمة β تساوي 0.1 وقيم متغيرة لـ ⍺، تمكن الباحثون من تقليم النموذج من حجمه الأولي البالغ 1.5 تريليون معلمة وصولاً إلى 1 تريليون معلمة. يمثل هذا الانخفاض بنسبة 33.3% في إجمالي المعلمات إنجازاً هائلاً، حيث حافظ النموذج على أدائه المتعدد المجالات مع خفض متطلبات الذاكرة بشكل كبير للنشر. وفي التكوين النهائي البالغ 1 تريليون، تم تقليل عدد الخبراء لكل طبقة من 64 خبيراً إلى حد أقصى يبلغ 48 خبيراً محتفظاً بهم.
  • تواجه نماذج خليط الخبراء (MoE) تحدياً تقنياً يتمثل في عدم توازن الحمل على مستوى الجهاز عند توزيع الخبراء عبر مجموعة حوسبة من وحدات معالجة الرسوميات (GPUs). للتغلب على هذه العقبة، يطبق Yuan 3.0 Ultra خوارزمية مبتكرة تسمى خوارزمية إعادة ترتيب الخبراء.
  • تعمل هذه الخوارزمية على تصنيف الخبراء بناءً على حمل الرموز (Token Load) واستخدام استراتيجية "جشعة" (Greedy Strategy) لتوزيعهم عبر وحدات معالجة الرسوميات المتاحة. الهدف هنا هو تقليل تباين الرموز التراكمي إلى أدنى حد ممكن، مما يضمن عدم تعطل بعض وحدات المعالجة بينما تعمل أخرى بطاقتها القصوى.
  • تظهر البيانات المقارنة للأداء تحسناً ملحوظاً في الكفاءة الحسابية. حيث سجلت كفاءة التدريب المسبق الإجمالية تحسناً بنسبة 49%. ويمكن عزو هذا التحسين الكبير إلى عاملين أساسيين:
    • تقليم النموذج (Model Pruning): ساهم هذا العامل وحده بنسبة 32.4% في مكسب الكفاءة.
    • إعادة ترتيب الخبراء (Expert Rearrangement): أضاف هذا التحسين المعماري نسبة 15.9% إضافية إلى كفاءة المعالجة.
  • توضح المقارنات أن Yuan 3.0 Ultra (مع تقنية LAEP) حقق أداءً أعلى بكثير مقارنة بالنماذج الأساسية الأخرى، مما يبرز نجاح هذه التحسينات في الاستفادة القصوى من العتاد الصلب.
  • واحدة من المشاكل الشائعة في نماذج الذكاء الاصطناعي التي تعتمد على التعلم المعزز هي ميلها إلى "التفكير المفرط" (Overthinking)، حيث تقوم بإنشاء سلاسل استنتاج طويلة ومعقدة لمهام بسيطة جداً. لمواجهة هذا التحدي، يستخدم النموذج في مرحلة التعلم المعزز (RL) نسخة محسنة من آلية مكافأة تثبيط التفكير (Reflection Inhibition Reward Mechanism - RIRM).
  • تعمل هذه الآلية على منع سلاكل الاستدلال الطويلة بشكل مفرط للمهام السهلة. يتم حساب مكافأة التفكير ($R_{ver}$) باستخدام نظام جزاء يعتمد على الحدود:
    • r_min = 0: يمثل العدد المثالي لخطوات التفكير للحصول على إجابة مباشرة.
    • r_max = 3: يمثل الحد الأقصى المسموح به لعتبة التفكير قبل فرض العقوبات.
  • في هذا النظام، تقل المكافأة كلما اقتربت خطوات التفكير من الحد الأقصى ($r_{max}$) في العينات الصحيحة. أما بالنسبة للعينات غير الصحيحة التي "تفكر بشكل مفرط" (أي تتجاوز $r_{max}$)، فإنها تتلقى عقوبات قصوى. أدت هذه الآلية بفعالية إلى تحقيق زيادة في دقة التدريب بلغت 16.33%، بالإضافة إلى تقليل طول مخرجات الرموز (Output Token Length) بنسبة 14.38%. هذا يعني أن النموذج أصبح أكثر دقة وأكثر إيجازاً في إجاباته، مما يوفر الوقت والموارد.
  • لا تكتمل قوة أي نموذج ذكاء اصطناعي إلا باختباره في ساحة المعارض الحقيقية ضد المنافسين. تم تقييم Yuan 3.0 Ultra ومقارنته بعدة نماذج صناعية رائدة، بما في ذلك GPT-5.2 و Gemini 3.1 Pro، عبر مجموعة من اختبارات المعايير المتخصصة للمؤسسات.
  • أظهرت النتائج تفوقاً واضحاً لـ Yuan 3.0 Ultra في عدة مجالات حيوية:
    • الاسترجاع متعدد الوسائط (Docmatix): حقق النموذج درجة 67.4%، متفوقاً بفارق كبير على GPT-5.2 الذي سجل 48.4%.
    • الاسترجاع النصي (ChatRAG): حقق Yuan 3.0 Ultra معدل 68.2%، مقارنة بـ 53.6% لنموذج Kimi K2.5.
    • تلخيص النصوص (SummEval): سجل النموذج 62.8%، متجاوزاً Claude Opus 4.6 الذي حصل على 49.9%.
    • تحويل النص إلى SQL (Spider 1.0): وهو اختبار حاسم للتعامل مع قواعد البيانات، حقق Yuan 3.0 Ultra 83.9%، متفوقاً على Kimi K2.5 (82.7%).
  • ومن ناحية أخرى، أظهر النموذج أداءً قوياً ومنافساً في مجالات أخرى، مثل الاستدلال الجدولي (MMTab) حيث سجل 62.3% مقارنة بـ 66.2% للمنافس Kimi K2.5. كما بلغت درجته في اختبار استدعاء الأدوات (BFCL V3) 67.8%، وهي نسبة جيدة مقارنة بـ 78.8% لنموذج Gemini 3.1 Pro.
  • تشير هذه النتائج بوضوح إلى أن Yuan 3.0 Ultra قادر على تحقيق دقة متطورة إلى حد كبير في مهام الاسترجاع متعدد الوسائط، والاسترجاع ذو السياق الطويل، ومعالجة البيانات المهيكلة، وهو ما يجعله خياراً مثالياً للتطبيقات المؤسسية التي تتطلب دقة عالية وكفاءة في التعامل مع البيانات المعقدة. للاطلاع على التفاصيل التقنية الدقيقة، يمكن مراجعة الورقة البحثية الرسمية، وللوصول إلى الكود المصدري والبيانات، يمكن زيارة مستودع المشروع.
  • يمثل إصدار Yuan 3.0 Ultra خطوة كبيرة إلى الأمام في مجال النماذج اللغوية الكبيرة المخصصة للتطبيقات المؤسسية. من خلال دمج تقنيات مبتكرة مثل تقليم الخبراء أثناء التدريب (LAEP) وإعادة ترتيب الخبراء لتحسين كفاءة الأجهزة، تمكن YuanLab AI من تقديم نموذج يوازن ببراعة بين القوة الهائلة والكفاءة العالية. مع انخفاض ملحوظ في حجم النموذج وزيادة في سرعة التدريب، بالإضافة إلى قدرات استثنائية في معالجة البيانات وتوليد المعلومات، يضع Yuan 3.0 Ultra معايير جديدة لما يمكن أن تقدمه نماذج الذكاء الاصطناعي مفتوحة المصدر في عالم الأعمال والتقنية.

المصادر

مقالات ذات صلة


الخلاصة

أداء النموذج في اختبارات المعايير المؤسسية

التغلب على "التفكير المفرط" مع آلية RIRM المعدلة

كفاءة الأجهزة وإعادة ترتيب الخبراء

إعلان

التعليقات