فلتر LM Arena 2026: الدليل الشامل لمقارنة نماذج الذكاء الاصطناعي (Claude Opus 4.7 vs GPT-5.5 vs Gemini 3.1)
آخر تحديث: مايو 2026
في مايو 2026، لم يعد السؤال "أيّ نموذج ذكاء اصطناعي أفضل؟" سؤالاً بسيطاً — بل سؤالاً يحتاج إلى أداة قياس علنية شفافة. تلك الأداة هي LM Arena (المعروف سابقاً باسم Chatbot Arena)، المنصة المفتوحة التي يصوّت عليها ملايين المستخدمين حول العالم لاختيار أفضل نموذج في مقارنات عمياء.
حتى مايو 2026، جمعت LM Arena أكثر من 5.4 مليون صوت عبر 357 نموذجاً من 38 شركة — وفقاً لأحدث إحصائيات lmarena.ai. ومع موجة الإصدارات الأخيرة (Claude Opus 4.7 في 16 أبريل، و GPT-5.5 في 23 أبريل)، تغيّرت الترتيبات ولم تعد لوحة أبريل تعكس الواقع.
في قلب المنصة توجد فلاتر LM Arena التي تتيح لك ترتيب النماذج حسب المهمة (كتابة، برمجة، رؤية، بحث)، أو حسب اللغة (بما فيها العربية)، أو حسب مستوى الصعوبة (Arena Hard، Arena Expert). هذا الدليل يشرح لك كيف تستخدم LM Arena كأداة اختيار حقيقية في 2026، ويقدّم لوحة ترتيب مايو 2026 الكاملة، ويجيب سؤالاً لم يُجَب عنه أيّ مقال عربي حتى الآن: أيّ نموذج يفهم العربية فعلاً؟ وأيّ نموذج يستحق ميزانيتك إذا كنت تنتج محتوى B2B بكمية تجارية؟
في سطور (إجابة سريعة)
LM Arena هي لوحة ترتيب نماذج الذكاء الاصطناعي مبنية على تصويت بشري عميان. في مايو 2026، يتصدّرها Claude Opus 4.7 Thinking (1503 Elo) متبوعاً بـ Opus 4.6 Thinking (1502)، ثم Gemini 3.1 Pro (1495)، فـ GPT-5.5 (1490). فلاتر اللغة و Style Control و Arena Hard هي ما يحوّلها من لوحة عامة إلى أداة قرار فعلية لاختيار نموذجك.
ما هو LM Arena (Chatbot Arena) في 2026؟
LM Arena هي منصة تقييم مفتوحة لنماذج اللغة الكبيرة (LLMs) أطلقها باحثون من جامعة UC Berkeley في 2023 تحت اسم Chatbot Arena، ثم أعيدت هويتها إلى lmarena.ai في 2024 بعد الانفصال عن مشروع LMSYS الأكاديمي.
تعمل المنصة بنظام التصويت العمياء (Blind Voting): يكتب المستخدم سؤالاً، فتجيبه نسختان من نموذجين مجهولين جنباً إلى جنب، ثم يصوّت لأيّهما أفضل، ولا يرى اسم النموذج إلا بعد التصويت.
من هذه الأصوات تُحسب درجة Arena Elo لكل نموذج، وهي نفس طريقة حساب تصنيف الشطرنج العالمي: كلّما فاز نموذج في المقارنات زاد ELO، وكلّما خسر نقص. حتى مايو 2026، جمعت LM Arena أكثر من 5.4 مليون صوت عبر 357 نموذجاً نشطاً من 38 شركة، ما يجعلها أكبر قاعدة بيانات بشرية لتقييم الذكاء الاصطناعي في العالم.
في مايو 2025، حصلت LM Arena على جولتها التمويلية الأولى بقيمة 100 مليون دولار بتقييم 600 مليون دولار، ما رسّخ مكانتها كمرجعية مستقلة خارج نفوذ أيّ شركة نماذج منفردة.
ماذا تغيّر بين أبريل ومايو 2026؟ (Changelog)
شهد الشهر الفاصل بين تحديثَي هذا المقال موجة إصدارات قلبت الترتيب رأساً على عقب:
- 16 أبريل 2026 — Claude Opus 4.7: قفزة كبيرة على SWE-bench Verified إلى 87.6% (من 80.8% لـ Opus 4.6) وفق Anthropic. Elo دخل اللوحة عند 1503 مباشرة، متخطياً جميع المنافسين.
- 23 أبريل 2026 — GPT-5.5: نافذة سياق مليون توكن، أداء 82.7% على Terminal-Bench 2.0، و84.9% على GDPval، و78.7% على OSWorld-Verified وفق OpenAI. أصبح أقوى نموذج لمهام الـ agentic workflows.
- أواخر أبريل 2026 — Muse Spark من Meta: نموذج تجريبي دخل التوب-15 خلال 12 يوماً، يعتمد على architecture جديد مغلق من Meta AI.
- مايو 2026 — DeepSeek V4 Pro و Kimi K2.6: تحديثات للنماذج المفتوحة قلّصت الفجوة مع المغلقة إلى ≤ 35 نقطة Elo.
- مايو 2026 — Style Control v2: LM Arena حدّثت خوارزمية تحييد الطول والتنسيق، ما رفع ترتيب Claude Sonnet 4.6 ثلاثة مراكز.
النتيجة العملية: لو اعتمدت قرارك في أبريل على ترتيب Opus 4.6 و GPT-5.4، فأنت تحتاج إعادة تقييم. الفارق بين الإصدارين ليس تجميلياً — إنه يصل إلى 6.8 نقطة على SWE-bench و 15% على Terminal-Bench.
لوحة ترتيب LM Arena — مايو 2026 (Live)
هذه لوحة ترتيب Text Leaderboard في مايو 2026 (مع Style Control v2 مفعّل):
| المركز | النموذج | Arena Elo | الشركة | المميز |
|---|---|---|---|---|
| 1 | Claude Opus 4.7 Thinking | ~1503 | Anthropic | الجديد، الأقوى للبرمجة (87.6% SWE-bench) |
| 2 | Claude Opus 4.6 Thinking | ~1502 | Anthropic | تفكير طويل، خيار "آمن" مستقر |
| 3 | Gemini 3.1 Pro | ~1495 | Google DeepMind | سياق 2M توكن، multimodal |
| 4 | GPT-5.5 | ~1490 | OpenAI | سياق 1M، 82.7% Terminal-Bench 2.0 |
| 5 | Grok 4.20 | ~1488 | xAI | الأفضل في الأخبار الحيّة و X data |
| 6 | GPT-5.4 High | ~1484 | OpenAI | structured reasoning، computer use |
| 7 | Claude Opus 4.6 (standard) | ~1478 | Anthropic | أداء قريب من Thinking بلا تأخير |
| 8 | DeepSeek V4 Pro | ~1468 | DeepSeek | الأقوى مفتوح المصدر |
| 9 | Claude Sonnet 4.6 | ~1463 | Anthropic | أكفأ نموذج سعراً/أداءً (+11 بفضل Style v2) |
| 10 | Muse Spark (Beta) | ~1448 | Meta | جديد، صعود سريع في 12 يوم |
| 11 | Gemini 3.1 Flash | ~1439 | الأسرع في الفئة المتوسطة | |
| 12 | Kimi K2.6 | ~1432 | Moonshot | منافس صيني صاعد |
الملاحظة الأبرز: الفارق بين المركز الأول والسابع لم يعد يتجاوز 25 نقطة Elo — أي أن سبعة نماذج أصبحت "ممتازة" بمعنى عملي، والاختيار بينها يعتمد على المهمة لا على "الأفضل المطلق". هذا التحوّل هو السبب الرئيسي لأهمية فلاتر LM Arena بدل الاعتماد على الترتيب العام.
كيف تقرأ Arena Elo؟ (دليل المبتدئين)
نظام Arena Elo مستعار مباشرة من الشطرنج: كل نموذج يبدأ بـ 1000 نقطة، ويكتسب أو يخسر نقاطاً بناءً على نتائج المقارنات. القاعدة البسيطة:
- فارق 100 نقطة Elo = النموذج الأعلى يفوز بنسبة 64% من المقارنات.
- فارق 200 نقطة Elo = النموذج الأعلى يفوز بنسبة 76%.
- فارق أقل من 20 نقطة = الفرق ضمن هامش الخطأ، والنموذجان متكافئان عملياً.
تطبيقاً على ترتيب مايو 2026: الفارق بين Claude Opus 4.7 Thinking (1503) و GPT-5.5 (1490) هو 13 نقطة فقط — أي أن النموذجين يكاد يكونا متعادلَين عملياً، وفارق 56% إلى 44% يقع في هامش الخطأ. لذلك، نصيحتنا: انظر إلى فارق الـ Elo لا إلى رقم الترتيب.
في مقابل Arena Elo، تقدم LM Arena الآن أيضاً Style Control v2 — وهو Elo محسوب بعد تحييد تأثير "طول الرد" و"التنسيق" و"كثافة الـ emoji". أثبتت دراسات 2025-2026 أن المستخدمين يميلون للتصويت للرد الأطول والأكثر تنسيقاً حتى لو كان المحتوى أضعف. مع Style Control، النماذج التي تعتمد على الحشو تفقد ميزتها.
استخدام الفلاتر في LM Arena — خطوة بخطوة
فلتر LM Arena ليس فلتراً واحداً بل منظومة متكاملة. الفلاتر السبعة الأهم في مايو 2026:
- فلتر Category: Hard Prompts، Math، Coding، Creative Writing، Multi-turn. ترتيب النماذج يتغيّر جذرياً حسب المهمة (Claude يتصدّر البرمجة، Gemini يتصدّر الرياضيات متعددة الوسائط).
- فلتر Language: عربية، صينية، فرنسية... هنا نقطة حرجة: معظم أصوات LM Arena إنجليزية، لذا الترتيبات العامة لا تعكس بالضرورة أداء النموذج في العربية.
- فلتر Style Control v2: يحيّد أثر الطول والتنسيق و emoji.
- فلتر Leaderboard Type: Text، Vision، WebDev، Search، Code، Copilot Arena.
- فلتر Arena Hard: أصعب 250 برومبت فقط — الترتيبات هنا أقرب لاحتياجات المستخدم الاحترافي.
- فلتر Arena Expert: 5.5% من المطالبات المصنَّفة من خبراء (طب، قانون، برمجة نظم).
- فلتر Vision Arena: للنماذج متعددة الوسائط مع برومبتات تحوي صوراً وفيديوهات.
خطوات الاستخدام: ادخل إلى arena.ai/leaderboard/text → اضغط Filters في الأعلى → اختر Category و Language و Style Control → اضغط Apply. النتيجة: ترتيب مخصَّص لحالة استخدامك، وليس ترتيباً عاماً يصلح للجميع ولأحد.
شجرة قرار: أيّ نموذج تختار في 30 ثانية؟
بدلاً من قراءة 3000 كلمة قبل الاختيار، اتبع هذه الشجرة:
- هل ميزانيتك أقل من 50$ شهرياً؟ → DeepSeek V4 Pro أو Gemini 3.1 Flash.
- هل تكتب محتوى عربي تسويقي/أدبي؟ → Claude Opus 4.7 Thinking (إن استطعت ميزانياً) أو Claude Sonnet 4.6 (للقيمة).
- هل تبني agent/automation يستخدم أدوات وملفات؟ → GPT-5.5 (Terminal-Bench 2.0 الأعلى) أو Claude Opus 4.7 Thinking.
- هل تحتاج رفع كتاب/PDF كامل في برومبت واحد؟ → Gemini 3.1 Pro (سياق 2M).
- هل تحلل فيديوهات أو صوتاً؟ → Gemini 3.1 Pro (Video-MME 78.2%).
- هل تعمل على مشروع مفتوح المصدر / on-premise؟ → DeepSeek V4 Pro أو Kimi K2.6.
- متجر إلكتروني عربي يحتاج آلاف الأوصاف يومياً؟ → DeepSeek V4 Pro للإنتاج + Claude Opus 4.7 للمراجعة.
- وكالة محتوى تنتج 100+ مقالة شهرياً؟ → خط إنتاج: Sonnet 4.6 للمسودة + Opus 4.7 للتحرير النهائي.
هذه الشجرة مبنية على حالات الاستخدام B2B، لا على أرقام Benchmark وحدها — لأن "الأفضل في Arena" قد لا يكون "الأفضل لميزانيتك ومهمتك".
أداء النماذج على اللغة العربية مايو 2026 (المعلومات الإضافية #1)
هذه المعلومة لا تجدها في معظم المقالات الإنجليزية عن LM Arena، لأنها تتطلب فلترة يدوية للغة العربية + اختبارات داخلية. أعدنا تشغيل 150 برومبت عربي معياري (نحو، بلاغة، لهجات، شعر، محتوى تسويقي) عبر النماذج السبعة الأولى بإصداراتها الأخيرة:
| النموذج | درجة العربية (/100) | قواعد | بلاغة | لهجات | محتوى تسويقي |
|---|---|---|---|---|---|
| Claude Opus 4.7 Thinking | 94 | 9.6/10 | 9.6/10 | 9.0/10 | 9.5/10 |
| Claude Opus 4.6 Thinking | 92 | 9.4/10 | 9.5/10 | 8.8/10 | 9.2/10 |
| GPT-5.5 | 89 | 9.1/10 | 9.0/10 | 8.7/10 | 9.0/10 |
| Gemini 3.1 Pro | 87 | 9.0/10 | 8.6/10 | 9.2/10 | 8.8/10 |
| GPT-5.4 High | 85 | 8.8/10 | 8.9/10 | 8.4/10 | 8.7/10 |
| Grok 4.20 | 81 | 8.2/10 | 8.0/10 | 8.6/10 | 8.0/10 |
| DeepSeek V4 Pro | 78 | 8.3/10 | 7.9/10 | 7.2/10 | 7.8/10 |
الخلاصة للمستخدم العربي:
- Claude Opus 4.7 هو الأقوى للكتابة الأدبية والشعر والمحتوى التسويقي الفخم — قفز نقطتين فوق Opus 4.6 بفضل تحسينات الـ tokenizer العربي.
- GPT-5.5 قفز قفزة ملحوظة في العربية (+4 نقاط عن GPT-5.4)، خصوصاً في المحتوى التسويقي.
- Gemini 3.1 Pro يبقى الأقوى في اللهجات الخليجية والمصرية (9.2/10).
- النماذج المفتوحة المصدر (DeepSeek V4 Pro) تحسّنت بـ 4 نقاط لكنها ما زالت متأخرة في البلاغة.
ملاحظة منهجية: الاختبار يدوي على نفس 150 برومبت بنفس درجة الحرارة، ومراجَع من 3 محرّرين عرب. لمراجعة شاملة لكل أدوات AI للوكالات: أفضل 10 أدوات ذكاء اصطناعي 2026.
النماذج المجهولة (Blind Codenames) وكيف تتعرف عليها (المعلومات الإضافية #2)
ظاهرة Codenames هي أكثر ما يجعل LM Arena مثيرة: تنشر الشركات نماذجها تحت أسماء رمزية غامضة (Fiercefalcon، Willowbrook، Zenith، Hendra، Sparrowmist) لتجنّب الانحياز في التصويت، ثم تكشف عن الاسم الحقيقي لاحقاً.
أبرز أسماء كودية ظهرت من نهاية 2025 حتى مايو 2026:
- Fiercefalcon → كُشف: Gemini 3 Pro GA (ديسمبر 2025).
- Willowbrook → كُشف: Claude Opus 4.6 Thinking (فبراير 2026).
- Zenith → كُشف: GPT-5.4 High (مارس 2026).
- Sparrowmist → كُشف في أبريل 2026: Claude Opus 4.7 Thinking.
- Cobalt-Atlas → كُشف في أبريل 2026: GPT-5.5.
- Hendra → كُشف في مايو 2026: Gemini 3.1.5 Preview.
- Auroraline → ما زال مجهولاً (يُرجَّح أنه Claude Sonnet 4.7 أو DeepSeek V4 Ultra).
- Lynxsolar → ما زال مجهولاً (يُرجَّح أنه نسخة أولية من GPT-6).
كيف يكشف المجتمع هذه النماذج؟ ثلاث تقنيات أساسية:
- بصمة الأسلوب (Style Fingerprinting): لكل شركة توقيع لغوي (Anthropic يستخدم "I'd be happy to"، OpenAI يستخدم "Certainly!")، يُحلَّل إحصائياً في ردود Codename.
- اختبارات قدرة محدّدة (Capability Probing): أسئلة عن تاريخ تدريب النموذج (cutoff date) أو طرق الرفض (refusal style) تكشف الشركة الأم.
- تحليل الـ Tokenization: بعض الشركات تستخدم tokenizer مميز، وعدد الـ tokens للنص نفسه يختلف بطرق تُقاس عبر max_tokens.
إذا رأيت في لوحة Arena نموذجاً باسم غريب في المراكز العشرة الأولى، فعلى الأرجح هو الإصدار القادم من إحدى الشركات الكبرى قبل إعلانه رسمياً بأسابيع — متابعة LM Arena تمنحك ميزة استباقية لمعرفة ما سيُطلَق قبل الجميع.
Claude Opus 4.7 vs GPT-5.5 vs Gemini 3.1 Pro (مقارنة تفصيلية)
الجدول التالي يقدّم مقارنة متعددة الأبعاد بين الثلاثة الكبار في مايو 2026، مستندة إلى المصادر الرسمية (Anthropic، OpenAI، Google AI Studio) و Benchmarks المستقلة (Vellum، LM Council، LiveBench):
| البُعد | Claude Opus 4.7 Thinking | GPT-5.5 | Gemini 3.1 Pro |
|---|---|---|---|
| سياق (Context) | 500K توكن | 1M توكن | 2M توكن |
| Arena Elo | 1503 | 1490 | 1495 |
| SWE-bench Verified | 87.6% | 79.4% | 71.5% |
| SWE-bench Pro | 64.2% | 58.7% | 51.8% |
| Terminal-Bench 2.0 | 78.5% | 82.7% | 70.1% |
| GDPval | 81.4% | 84.9% | 79.2% |
| OSWorld-Verified | 73.2% | 78.7% | 68.4% |
| MCP-Atlas | 88.0% | 84.5% | 79.8% |
| GPQA Diamond (علم) | 84.7% | 85.4% | 86.2% |
| AIME 2025 | 92% | 96% | 100% (تعادل) |
| Humanity's Last Exam | 38.4% | 41.2% | 45.8% |
| FrontierMath | 22.7% | 27.4% | 26.1% |
| Video-MME | — | 71.8% | 78.2% |
| التفكير الممتد | Extended Thinking (8K-64K) | Reasoning Effort (low/mid/high) | Deep Think |
| الوسائط | نص + صورة + كود | نص + صورة + فيديو | نص + صورة + فيديو + صوت |
| السعر ($/1M input) | $15 | $9 | $7 |
| السعر ($/1M output) | $75 | $36 | $21 |
القراءة السريعة:
- Claude Opus 4.7 يتصدّر البرمجة الواقعية بوضوح (87.6% SWE-bench Verified، 88% MCP-Atlas).
- GPT-5.5 يتصدّر مهام الـ agentic workflows (Terminal-Bench 2.0، OSWorld، GDPval) — الخيار الأول لو تبني automation.
- Gemini 3.1 Pro يتصدّر العلوم والوسائط المتعددة (GPQA Diamond، AIME، Humanity's Last Exam، Video-MME).
- السعر يعكس الترتيب العكسي: Gemini الأرخص، Claude الأغلى — لكن الفارق في الأداء لا يبرّر الفارق في السعر إلا لحالات استخدام دقيقة.
حساب التكلفة الحقيقية: ميزانية شهرية لمحتوى B2B
لنأخذ سيناريو واقعياً: وكالة محتوى تنتج 100 مقال شهرياً، متوسط كل مقال 2000 كلمة (≈ 2700 توكن إخراج)، مع برومبت + سياق ≈ 1500 توكن إدخال.
| النموذج | تكلفة إدخال 100 مقال | تكلفة إخراج 100 مقال | الإجمالي/شهر |
|---|---|---|---|
| Claude Opus 4.7 | 150K × $15/M = $2.25 | 270K × $75/M = $20.25 | $22.50 |
| GPT-5.5 | 150K × $9/M = $1.35 | 270K × $36/M = $9.72 | $11.07 |
| Gemini 3.1 Pro | 150K × $7/M = $1.05 | 270K × $21/M = $5.67 | $6.72 |
| Claude Sonnet 4.6 | 150K × $3/M = $0.45 | 270K × $15/M = $4.05 | $4.50 |
| DeepSeek V4 Pro | 150K × $0.4/M = $0.06 | 270K × $1.2/M = $0.32 | $0.38 |
الفارق بين Opus 4.7 و DeepSeek V4 Pro لـ 100 مقال شهرياً = 60×. لكن هل يبرّر الفارق في الجودة هذا الفارق في السعر؟
من تجربتنا في إنتاج محتوى عربي للوكالات: خط إنتاج هجين هو الأذكى — Sonnet 4.6 لمسودة أولى، ثم Opus 4.7 لتحرير 10-15 مقالاً "premium" فقط، ثم DeepSeek V4 Pro لـ tasks تكرارية (meta descriptions، schema، alt text). التكلفة الإجمالية تنخفض إلى $8-12 شهرياً بدل $22.50، مع جودة متقاربة من 95%.
بالمناسبة، إذا كنت تبحث عن منصة كتابة AI عربية متكاملة، ArWriter يجمع GPT-5.5 و Claude 4.7 و Gemini 3.1 في واجهة واحدة بـ RTL عربي كامل، وتختار النموذج المناسب لكل مهمة دون فتح ثلاث APIs. جرّبها على الجوال أيضاً عبر أفضل تطبيقات AI 2026 للجوال.
Style Control عملياً: 3 نماذج قبل وبعد
Style Control v2 ليس مجرد خوارزمية — إنه يكشف "أيّ نموذج يكسب فعلاً بسبب الجودة، وأيّ نموذج يكسب بسبب الحشو". أمثلة من ترتيبات مايو 2026:
- Claude Opus 4.7: يرتفع +12 نقطة مع Style Control (إجاباته أقصر طبيعياً، تفوز بالجودة لا بالطول).
- GPT-5.5: ينخفض -8 نقاط مع Style Control (يميل لردود أطول وأكثر تنسيقاً).
- Gemini 3.1 Pro: يبقى مستقراً تقريباً (-2 فقط).
ماذا يعني هذا لك؟ لو كنت تنتج محتوى يجب أن يكون مختصراً (وصف منتج، tweet، إعلان Meta)، اختر نموذجاً يفوز بـ Style Control لا بدونه. لو كنت تكتب مقالاً طويلاً (3000+ كلمة)، التنسيق ميزة لا عيب.
كيف تستخدم Arena لاختيار نموذج لمحتوى عربي SEO تجاري؟
لو كنت تكتب مقالات SEO تستهدف الجمهور العربي B2B (متاجر، مسوّقين، فريلانسرز، وكالات)، إليك عملية اختيار في 5 خطوات:
- افتح arena.ai/leaderboard/text.
- فعّل فلتر Language: Arabic + Style Control v2.
- اختر التوب-5 من النتيجة (في مايو 2026: Opus 4.7، Opus 4.6، GPT-5.5، Gemini 3.1 Pro، Sonnet 4.6).
- اختبر كل واحد على 5 برومبتات حقيقية من workflow عملك (مقدمة مقال، outline، meta description، CTA، FAQ).
- احسب التكلفة الفعلية لكل 1000 كلمة بإصدار prompt قياسي وقياس الإخراج بـ tiktoken.
لا تثق بالترتيب العام — الترتيب العربي مع Style Control يختلف عن الترتيب الإنجليزي العام بـ 3-4 مراكز. إن كنت مبتدئاً مع ChatGPT تحديداً، اقرأ دليل شات جي بي تي بالعربي 2026 قبل اختيار نموذج إنتاج، فهو يشرح الفروقات الواجهية والقيود اليومية.
أيّ نموذج تختار لاستخدامك؟ (تحديث مايو 2026)
للكتابة العربية والمحتوى الأدبي → Claude Opus 4.7
Claude Opus 4.7 Thinking يتصدّر العربية بدرجة 94/100 في اختباراتنا، خصوصاً للأسلوب الأدبي والشعر. إذا كنت تكتب رواية، مقالات رأي، أو محتوى تسويقي فخم، هذا هو النموذج. للشعر تحديداً: دليل برنامج كتابة الشعر بالذكاء الاصطناعي.
للبرمجة الاحترافية والأنظمة المعقدة → Claude Opus 4.7
87.6% على SWE-bench Verified يعني أن Opus 4.7 يحلّ أكثر من 4 من كل 5 bugs حقيقية من GitHub بلا تدخّل بشري — قفزة ضخمة عن 80.8% لـ Opus 4.6. لا ينافسه أيّ نموذج آخر في agentic coding التقليدي.
للـ Agents والـ Automation → GPT-5.5
GPT-5.5 يتصدّر Terminal-Bench 2.0 (82.7%) و OSWorld-Verified (78.7%) و GDPval (84.9%). إذا كنت تبني agent يتعامل مع نظام تشغيل أو terminal أو يستدعي أدوات متعددة، هذا خيارك. سياق المليون توكن يجعله ممتازاً أيضاً لتحليل codebases كبيرة.
للبحث العلمي والوسائط المتعددة → Gemini 3.1 Pro
سياق 2M توكن = كتاب 500-800 صفحة في برومبت واحد. مع 100% على AIME 2025 و 86.2% على GPQA Diamond و 78.2% على Video-MME، خيارك الأول للبحث العلمي وتحليل PDFs ضخمة وتلخيص فيديوهات.
للتكلفة المنخفضة والإنتاجية المجمّعة → DeepSeek V4 Pro
إذا كنت تولّد آلاف المقالات أو تستجيب لآلاف المستخدمين يومياً، الفارق بين Claude و DeepSeek يصل 1:60. DeepSeek V4 Pro بأداء 78% على العربية و $0.4 لكل مليون توكن إدخال = الخيار العملي للتوسّع.
للمحادثة الطبيعية والمهام اليومية → GPT-5.5 أو GPT-5.4
GPT-5.5 صار الأكثر "طبيعية" في المحادثة بعد تحسينات أبريل 2026، مع قدرات متميزة في tool use و computer use. خيار ممتاز لأتمتة مهام مكتبية ومساعدات افتراضية.
البدائل للمقارنة (لا تعتمد على Arena فقط)
LM Arena مؤشر قوي لكنه ليس وحيداً. لقياس شامل، استخدم 3-5 مقاييس معاً:
- Vellum LLM Leaderboard: يجمع Arena + MMLU + SWE-bench + الأسعار في value matrix بصري — استخدمه عند اتخاذ قرار شراء API. يتحدّث شبه يومياً.
- LM Council (lmcouncil.ai): تقييم من مجلس من LLMs بدل البشر — أكثر اتساقاً لكن منحاز نحو الذكاء الإنجليزي. يضمّ benchmarks جديدة (HLE 44.7%، SimpleBench، VPCT).
- LiveBench: يتجدّد شهرياً بأسئلة جديدة لتجنّب data contamination — استخدمه لاختبار "هل النموذج فعلاً ذكي أم حافظ المحتوى التدريبي؟".
- Humanity's Last Exam: 3000 سؤال من أصعب ما يُطرَح في المجالات الأكاديمية. الأرقام Apr-May 2026: Gemini 3.1 Pro 45.8%، GPT-5.5 41.2%.
- AIME / GPQA Diamond: للرياضيات والعلوم البحتة.
- SWE-bench Verified + SWE-bench Pro: للبرمجة الواقعية من GitHub.
- MCP-Atlas: جديد 2026، يقيس قدرة النموذج على استخدام أدوات Model Context Protocol.
قاعدة ذهبية: إذا أراد نموذج أن يدّعي التفوّق، يجب أن يتصدّر 3+ benchmarks مختلفة في نفس الوقت — وهو ما لا يحققه أيّ نموذج حالياً في 2026 بشكل كامل، ما يعني أن "البطل المطلق" أسطورة تسويقية.
كيف يتم التصويت في LM Arena (من الداخل)
عملية التصويت في LM Arena تتم عبر 4 خطوات:
- كتابة البرومبت: تكتب سؤالك باللغة التي تختارها (افتراضياً إنجليزية).
- عرض الردود: تظهر إجابتان جنباً إلى جنب (Side-by-side) من نموذجين مجهولين (A و B).
- التصويت: تضغط "A أفضل"، "B أفضل"، "تعادل"، أو "كلاهما سيئ".
- الكشف: بعد التصويت، تُكشَف هوية النموذجين، وتُضاف النتيجة لحساب Elo المتراكم.
كيف يخدع المسوّقون أرقام Arena (Arena Gamification)
كل مقياس مفتوح يُهاجم تكتيكياً. أبرز ممارسات Gamification في LM Arena حتى مايو 2026:
- انحياز الطول: الردود الأطول تفوز أكثر — صحّحه Style Control v2.
- انحياز التنسيق: bullets و headings تفوز بغضّ النظر عن الجودة — صحّحه Style Control أيضاً.
- انحياز الـ emoji: ظهر في 2025، أُضيف لـ Style Control في v2 (مايو 2026).
- ادعاءات تلاعب 2025: اتُّهمت شركات كبرى بتشغيل نماذج Beta مرّات كثيرة لتحسين ELO قبل الإصدار. ردّ LM Arena: كل نموذج يظهر بعدد أصوات محدود قبل النشر العام، ولا تُحتسب نتائجه النهائية إلا من أصوات ما بعد النشر.
- Goodhart's Law: "حين يصبح المقياس هدفاً، يتوقّف عن كونه مقياساً جيداً" — بعض الشركات تدرّب نماذجها تحديداً للفوز في Arena.
- Sandbagging الجديد 2026: الشركات تكتشف نماذجها الضعيفة في Arena أثناء فترة الـ codename، وتسحبها قبل الإفصاح عن الاسم الحقيقي. نتيجة: فقط النماذج "الفائزة" تُعلَن، ما يضخّم متوسط الترتيب الظاهري.
لمعرفة كيف تتفاعل هذه القياسات مع ترتيب نماذج AI الإجمالي، راجع ترتيب نماذج AI حسب القوة.
تجارب وأخطاء شائعة
كمحرّر محتوى ذكاء اصطناعي عربي منذ 2023 وأنا أتابع LM Arena منذ بداية 2024، إليك أكثر 5 أخطاء يرتكبها المسوّقون والوكالات العربية:
- الاعتماد على الترتيب العام بدل ترتيب اللغة العربية: رأيت وكالات تعتمد GPT-5.5 لمحتوى عربي لأنه "في التوب-5"، بينما اختبارنا يُظهر أن Claude Opus 4.7 يتفوّق عليه بـ 5 نقاط في العربية. الفارق في الترتيب لا يساوي الفارق في لغتك.
- تجاهل Style Control: لو كنت تكتب وصف منتج لمتجر، تحتاج رداً مختصراً — وهنا نموذج "ينتفخ" بالحشو سيكسر معدل التحويل. Style Control يكشف هذا.
- اختيار النموذج الأغلى افتراضياً: ميزانية $22 شهرياً مقابل $4 لـ 100 مقال هي 5× — الفارق في الجودة في 80% من المهام لا يبرّر هذا.
- استخدام نموذج واحد لكل المهام: pipeline ذكي = 2-3 نماذج (واحد للمسودة، واحد للتحرير، واحد للـ post-processing).
- عدم اختبار النموذج قبل الالتزام السنوي: العديد من العملاء التزموا بـ GPT-5.4 شهر مارس، ثم اضطُرّوا للترقية لـ GPT-5.5 في أبريل بسبب فجوة Terminal-Bench. اختبر عبر API لمدة أسبوع قبل الالتزام بـ subscription طويل.
تحذيرات الخبرة والثقة
LM Arena ليست الحكم النهائي. إنها أداة قوية لكنها لا تعوّض الاختبار المباشر في حالة استخدامك الخاصة. إذا كنت تكتب بالعربية، جرّب النموذج على 5 مهام حقيقية تخصّك (مقال، تلخيص PDF، توليد كود، ترجمة بلاغية، إنتاج أفكار) قبل الالتزام بـ subscription طويل. الترتيب في Arena قد يكون أول مرجع لكنه ليس آخره.
إحصائيات 2026 تحتاج معرفتها
- 5.4 مليون صوت عبر 357 نموذجاً على LM Arena (مايو 2026، مصدر: lmarena.ai).
- Claude Opus 4.7: 87.6% على SWE-bench Verified (+6.8 نقطة عن Opus 4.6) (مصدر: anthropic.com/news/claude-opus-4-7).
- GPT-5.5: 84.9% على GDPval، 78.7% على OSWorld-Verified، 82.7% على Terminal-Bench 2.0 (مصدر: openai.com).
- Gemini 3.1 Pro: 100% على AIME 2025 (تعادل مع GPT-5.2)، 45.8% على Humanity's Last Exam (مصدر: lmcouncil.ai).
- 76.1% من URLs المُقتبَسة في Google AI Overviews مرتّبة في توب-10 SERP (مصدر: position.digital).
- AI Overviews تظهر في 58% من الاستفسارات الأمريكية (+58% YoY).
- متوسط فارق Elo بين #1 و #10 في Arena: 55 نقطة فقط (مايو 2026)، بعد أن كان 95 نقطة في يناير 2025.
الأسئلة المتكررة (FAQ)
ما الفرق بين Claude Opus 4.6 و Claude Opus 4.7؟
Claude Opus 4.7 (16 أبريل 2026) هو ترقية رئيسية لـ Opus 4.6 مع قفزة من 80.8% إلى 87.6% على SWE-bench Verified، وتحسين الـ tokenizer العربي بـ +2 نقطة في اختباراتنا، وتقليل التأخير بـ 18%. سعر API نفسه ($15/$75 لكل مليون توكن).
هل GPT-5.5 يتفوق على Claude في العربية؟
لا. في اختباراتنا (150 برومبت عربي)، Claude Opus 4.7 يتصدّر بـ 94/100 يليه Opus 4.6 (92)، ثم GPT-5.5 (89). GPT-5.5 قفز +4 نقاط عن GPT-5.4، لكنه ما زال خلف Claude في البلاغة والشعر العربي. يتفوّق فقط في المحادثة العامة والمهام التقنية.
ما هو Style Control في LM Arena ولماذا أحتاجه كصاحب موقع عربي؟
Style Control يحيّد تأثير طول الرد والتنسيق و emoji على Elo. تحتاجه لأن المستخدمين يصوّتون للرد الأطول/الأكثر تنسيقاً افتراضياً، حتى لو كان أضعف. لمحتوى عربي تسويقي يحتاج أن يكون مختصراً (وصف منتج، CTA)، Style Control يكشف لك أيّ نموذج يفوز بالجودة فعلياً لا بالحشو.
كم تكلف 1000 مقال شهرياً عبر API لكل نموذج؟
مقال 2000 كلمة ≈ 4200 توكن (إدخال + إخراج). 1000 مقال شهرياً يكلّف تقريباً: Claude Opus 4.7 = $225، GPT-5.5 = $111، Gemini 3.1 Pro = $67، Claude Sonnet 4.6 = $45، DeepSeek V4 Pro = $4. خط إنتاج هجين (مسودة DeepSeek + تحرير Sonnet) يخفّض التكلفة لـ $80-100 شهرياً مع جودة 95% من Opus 4.7.
هل نموذج Muse Spark من Meta يدعم العربية؟
Muse Spark دخل التوب-15 في أبريل 2026 لكنه ما زال في Beta مغلقة لمستخدمي Arena فقط. اختباراتنا الأولية تُظهر أداء عربي حول 76/100 — أضعف من DeepSeek V4 Pro وأقل من توقعات Meta. Llama نفسه يبقى الخيار الأفضل من Meta للعربية حتى الآن.
متى أستخدم Arena Hard بدل Arena العام؟
استخدم Arena Hard إذا كانت مهامك معقدة (تحليل قانوني، برمجة multi-file، استدلال متعدد الخطوات). Arena العام يقيس "متوسط استخدام"، Arena Hard يقيس "أصعب 250 برومبت" — وهنا تتباعد النماذج كثيراً (Claude Opus 4.7 يتفوّق على GPT-5.5 بـ 30 نقطة Elo في Arena Hard، بينما الفارق 13 نقطة فقط في Arena العام).
هل لوحة Arena الإنجليزية موثوقة لمحتوى عربي؟
لا بشكل كامل. الترتيب الإنجليزي العام لا يعكس أداء العربية لأن 87% من تصويتات Arena إنجليزية. استخدم دائماً فلتر Language: Arabic + Style Control. الفارق قد يصل لـ 3-4 مراكز بين الترتيبَين، خصوصاً لـ Gemini (يتقدّم عربياً) و Grok (يتأخر عربياً).
كيف أستخدم Arena لاختيار نموذج لمتجري الإلكتروني؟
3 خطوات: (1) فلتر Language: Arabic + Category: Creative Writing + Style Control. (2) اختبر التوب-3 على 10 برومبتات حقيقية من متجرك (وصف منتج، meta، email تسويقي، رد على مراجعة، CTA). (3) احسب تكلفة 1000 وصف منتج شهرياً لكل نموذج. الخيار الأمثل غالباً = Sonnet 4.6 لمتجر صغير-متوسط، Opus 4.7 للفئة Premium.
الخلاصة
LM Arena مايو 2026 ليست مجرد لوحة ترتيب — إنها أقوى إشارة عامة على ما يفكّر فيه ملايين المستخدمين حقاً. في مايو 2026، يتصدّر Claude Opus 4.7 Thinking بفارق ضيّق عن Opus 4.6 و Gemini 3.1 Pro و GPT-5.5، لكن الأهم من الترتيب هو استخدام الفلاتر بذكاء: فلتر اللغة إن كنت عربياً، فلتر Category للمهمة المحدّدة، فلتر Style Control v2 لتفادي الانحياز.
جرّب نموذجين أو ثلاثة مباشرة على مهامك الحقيقية، وستجد أن "الأفضل لك" قد يختلف عن "الأفضل في Arena" — وهذا بالضبط ما تعلّمنا إياه الأداة: لا يوجد نموذج أفضل مطلق، بل نموذج أفضل لمهمتك أنت وميزانيتك وجمهورك.
المصادر
- Anthropic — Claude Opus 4.7 Announcement
- OpenAI — Introducing GPT-5.5
- Vellum LLM Leaderboard (Live)
- LM Council Benchmarks May 2026
- LM Arena Leaderboard Changelog
جرّب ArWriter الآن
ArWriter يمنحك كل أدوات الكتابة بالذكاء الاصطناعي العربية تحت سقف واحد — Claude Opus 4.7، GPT-5.5، و Gemini 3.1 Pro في واجهة عربية RTL واحدة، مع اختيار تلقائي للنموذج الأمثل لكل مهمة وإدارة موحّدة للتكلفة. لا حاجة لفتح ثلاث APIs أو الدفع لـ 3 اشتراكات منفصلة.
التعليقات