نشر تحدٍ جديد لترميز الذكاء الاصطناعى نتائجه الأولى – وهم ليسوا جميلة

كشف تحدي ترميز الذكاء الاصطناعي الجديد عن الفائز الأول-ووضع شريطًا جديدًا لمهندسي البرمجيات الذين يعملون ذوي الذكاء الاصطناعى.
في يوم الأربعاء في الساعة 5 مساءً ، أعلن معهد Laude غير الربحي عن أول فائز بجائزة K ، وهو تحدي ترميز من الذكاء الاصطناعى متعدد الجولات الذي أطلقته Databricks والمؤسس المشارك للحيرة Andy Konwinski. كان الفائز مهندسًا موجهًا برازيليًا يدعى إدواردو روشا دي أندرادي ، والذي سيحصل على 50،000 دولار للجائزة. ولكن أكثر إثارة للدهشة من الفوز كانت درجاته النهائية: لقد فاز بإجابات صحيحة على 7.5 ٪ فقط من الأسئلة في الاختبار.
وقال كونوينسكي: “نحن سعداء لأننا بنينا معيارًا صعبًا بالفعل”. وتابع: “يجب أن تكون المعايير صعبة إذا كانت مهمة” ، مضيفًا: “ستكون الدرجات مختلفة إذا كانت المختبرات الكبيرة قد دخلت في نماذجها الأكبر. لكن هذا نوع من النقطة. تم تشغيل جائزة K دون اتصال مع حساب محدود ، لذلك تفضل نماذج أصغر ومفتوحة. أنا أحب ذلك.
تعهد Konwinski بمليون دولار لنموذج مفتوح المصدر الأول والذي يمكن أن يسجل أكثر من 90 ٪ في الاختبار.
على غرار نظام SWE-BECT المعروف ، تختبر جائزة K نماذج مقابل المشكلات التي تم وضعها في مجال الإبلاغ عن GitHub كاختبار لمدى قدرة النماذج على التعامل مع مشاكل البرمجة في العالم الحقيقي. ولكن على الرغم من أن SWE-BENCED تعتمد على مجموعة ثابتة من المشكلات التي يمكن أن تتدرب عليها النماذج ، إلا أن جائزة K مصممة كـ “نسخة خالية من التلوث من SWE-BENCE” ، باستخدام نظام دخول موقوتة للحراسة ضد أي تدريب خاص بالمعايير. بالنسبة للجولة الأولى ، كان النماذج مستحقة بحلول 12 مارس. ثم قام منظمو الجائزة K ببناء الاختبار باستخدام مشكلات GitHub فقط بعد ذلك التاريخ.
تتناقض الدرجات الأعلى بنسبة 7.5 ٪ في تناقض ملحوظ مع Swe-Bench نفسها ، والتي تُظهر حاليًا درجة أعلى بنسبة 75 ٪ في اختبار “التحقق” الأسهل و 34 ٪ في اختبارها “الكامل” الأصعب. لا يزال Konwinski غير متأكد مما إذا كان التباين يرجع إلى تلوث على مقاعد البدلاء أو مجرد تحدٍ يتمثل في جمع مشكلات جديدة من Github ، لكنه يتوقع أن يجيب مشروع جائزة K على السؤال قريبًا.
وقال لـ TechCrunch: “بينما نحصل على المزيد من أشواط الشيء ، سيكون لدينا شعور أفضل ،” لأننا نتوقع أن يتكيف الناس مع ديناميات التنافس على هذا كل بضعة أشهر. “
حدث TechCrunch
سان فرانسيسكو
|
27-29 أكتوبر ، 2025
قد يبدو الأمر وكأنه مكان غريب للتقدم ، بالنظر إلى مجموعة واسعة من أدوات ترميز الذكاء الاصطناعى المتاحة بالفعل للجمهور – ولكن مع أن تصبح المعايير سهلة للغاية ، يرى العديد من النقاد مشاريع مثل جائزة K كخطوة ضرورية نحو حل مشكلة التقييم المتزايدة في الذكاء الاصطناعي.
يقول برينستون باحث ساياش كابور ، الذي طرح فكرة مماثلة في ورقة حديثة: “أنا متفائل تمامًا بشأن بناء اختبارات جديدة للمعايير الحالية”. “بدون مثل هذه التجارب ، لا يمكننا في الواقع معرفة ما إذا كانت المشكلة هي تلوث ، أو حتى استهداف لوحة المتصدرين Swe-bench مع إنسان في الحلقة.”
بالنسبة إلى Konwinski ، إنه ليس مجرد معيار أفضل ، ولكنه يمثل تحديًا مفتوحًا لبقية الصناعة. يقول: “إذا استمعت إلى الضجيج ، فسيجب أن نرى أطباء الذكاء الاصطناعي ومحامو الذكاء الاصطناعى ومهندسي برامج الذكاء الاصطناعى ، وهذا ليس صحيحًا”. “إذا لم نتمكن من الحصول على أكثر من 10 ٪ على مقعد خالي من التلوث ، فهذا هو التحقق من الواقع بالنسبة لي.”
روابط قد تهمك
مؤسسة اشراق العالم خدمات المواقع والمتاجر باك لينكات باقات الباك لينك
روابط قد تهمك
مؤسسة اشراق العالم خدمات المواقع والمتاجر باك لينكات باقات الباك لينك