نشر تحدٍ جديد لترميز الذكاء الاصطناعى نتائجه الأولى – وهم ليسوا جميلة

0 3 2 دقائق

نشر تحدٍ جديد لترميز الذكاء الاصطناعى نتائجه الأولى – وهم ليسوا جميلة

كشف تحدي ترميز الذكاء الاصطناعي الجديد عن الفائز الأول-ووضع شريطًا جديدًا لمهندسي البرمجيات الذين يعملون ذوي الذكاء الاصطناعى.

في يوم الأربعاء في الساعة 5 مساءً ، أعلن معهد Laude غير الربحي عن أول فائز بجائزة K ، وهو تحدي ترميز من الذكاء الاصطناعى متعدد الجولات الذي أطلقته Databricks والمؤسس المشارك للحيرة Andy Konwinski. كان الفائز مهندسًا موجهًا برازيليًا يدعى إدواردو روشا دي أندرادي ، والذي سيحصل على 50،000 دولار للجائزة. ولكن أكثر إثارة للدهشة من الفوز كانت درجاته النهائية: لقد فاز بإجابات صحيحة على 7.5 ٪ فقط من الأسئلة في الاختبار.

وقال كونوينسكي: “نحن سعداء لأننا بنينا معيارًا صعبًا بالفعل”. وتابع: “يجب أن تكون المعايير صعبة إذا كانت مهمة” ، مضيفًا: “ستكون الدرجات مختلفة إذا كانت المختبرات الكبيرة قد دخلت في نماذجها الأكبر. لكن هذا نوع من النقطة. تم تشغيل جائزة K دون اتصال مع حساب محدود ، لذلك تفضل نماذج أصغر ومفتوحة. أنا أحب ذلك.

تعهد Konwinski بمليون دولار لنموذج مفتوح المصدر الأول والذي يمكن أن يسجل أكثر من 90 ٪ في الاختبار.

على غرار نظام SWE-BECT المعروف ، تختبر جائزة K نماذج مقابل المشكلات التي تم وضعها في مجال الإبلاغ عن GitHub كاختبار لمدى قدرة النماذج على التعامل مع مشاكل البرمجة في العالم الحقيقي. ولكن على الرغم من أن SWE-BENCED تعتمد على مجموعة ثابتة من المشكلات التي يمكن أن تتدرب عليها النماذج ، إلا أن جائزة K مصممة كـ “نسخة خالية من التلوث من SWE-BENCE” ، باستخدام نظام دخول موقوتة للحراسة ضد أي تدريب خاص بالمعايير. بالنسبة للجولة الأولى ، كان النماذج مستحقة بحلول 12 مارس. ثم قام منظمو الجائزة K ببناء الاختبار باستخدام مشكلات GitHub فقط بعد ذلك التاريخ.

تتناقض الدرجات الأعلى بنسبة 7.5 ٪ في تناقض ملحوظ مع Swe-Bench نفسها ، والتي تُظهر حاليًا درجة أعلى بنسبة 75 ٪ في اختبار “التحقق” الأسهل و 34 ٪ في اختبارها “الكامل” الأصعب. لا يزال Konwinski غير متأكد مما إذا كان التباين يرجع إلى تلوث على مقاعد البدلاء أو مجرد تحدٍ يتمثل في جمع مشكلات جديدة من Github ، لكنه يتوقع أن يجيب مشروع جائزة K على السؤال قريبًا.

وقال لـ TechCrunch: “بينما نحصل على المزيد من أشواط الشيء ، سيكون لدينا شعور أفضل ،” لأننا نتوقع أن يتكيف الناس مع ديناميات التنافس على هذا كل بضعة أشهر. “

حدث TechCrunch

سان فرانسيسكو
|
27-29 أكتوبر ، 2025

قد يبدو الأمر وكأنه مكان غريب للتقدم ، بالنظر إلى مجموعة واسعة من أدوات ترميز الذكاء الاصطناعى المتاحة بالفعل للجمهور – ولكن مع أن تصبح المعايير سهلة للغاية ، يرى العديد من النقاد مشاريع مثل جائزة K كخطوة ضرورية نحو حل مشكلة التقييم المتزايدة في الذكاء الاصطناعي.

يقول برينستون باحث ساياش كابور ، الذي طرح فكرة مماثلة في ورقة حديثة: “أنا متفائل تمامًا بشأن بناء اختبارات جديدة للمعايير الحالية”. “بدون مثل هذه التجارب ، لا يمكننا في الواقع معرفة ما إذا كانت المشكلة هي تلوث ، أو حتى استهداف لوحة المتصدرين Swe-bench مع إنسان في الحلقة.”

بالنسبة إلى Konwinski ، إنه ليس مجرد معيار أفضل ، ولكنه يمثل تحديًا مفتوحًا لبقية الصناعة. يقول: “إذا استمعت إلى الضجيج ، فسيجب أن نرى أطباء الذكاء الاصطناعي ومحامو الذكاء الاصطناعى ومهندسي برامج الذكاء الاصطناعى ، وهذا ليس صحيحًا”. “إذا لم نتمكن من الحصول على أكثر من 10 ٪ على مقعد خالي من التلوث ، فهذا هو التحقق من الواقع بالنسبة لي.”

Source link