اشراق العالم 24 متابعات تقنية:
نقدم لكم في اشراق العالم 24 خبر بعنوان “مخطوطة Openai هي جزء من مجموعة جديدة من أدوات الترميز الوكيل
” نترككم مع محتوى الخبر
يوم الجمعة الماضي ، قدم Openai نظام ترميز جديد يسمى Codex ، مصمم لأداء مهام البرمجة المعقدة من أوامر اللغة الطبيعية. ينقل Codex Openai إلى مجموعة جديدة من أدوات الترميز الوكيل التي بدأت للتو في التبلور.
من CoPilot المبكر لـ Github إلى الأدوات المعاصرة مثل المؤشر و Windsurf ، يعمل معظم مساعدي ترميز الذكاء الاصطناعى كشكل ذكي بشكل استثنائي من الإكمال التلقائي. تعيش الأدوات عمومًا في بيئة تطوير متكاملة ، ويتفاعل المستخدمون مباشرة مع الكود الذي تم إنشاؤه بواسطة الذكاء الاصطناعى. إن احتمال تعيين مهمة والعودة عند الانتهاء بعيدة المنال إلى حد كبير.
لكن هذه أدوات الترميز الوكيل الجديدة ، بقيادة منتجات مثل Devin و SWE-Agent و OpenHands و Openai Codex المذكورة أعلاه ، مصممة للعمل دون أن يضطر المستخدمون إلى رؤية الرمز. الهدف من ذلك هو العمل مثل مدير فريق هندسي ، وتعيين المشكلات من خلال أنظمة مكان العمل مثل Asana أو Slack والتحقق من حل الحل.
بالنسبة للمؤمنين بأشكال من الذكاء الاصطناعي للغاية ، فهي الخطوة المنطقية التالية في تقدم طبيعي للأتمتة التي تتولى المزيد والمزيد من أعمال البرمجيات.
يوضح كيليان ليريت ، باحث برينستون وعضو في فريق SWE-Agent: “في البداية ، كتب الناس للتو رمزًا من خلال الضغط على كل ضغط مفتاح واحد”. “كان Github Copilot أول منتج يوفر إكمالًا تلقائيًا حقيقيًا ، وهو نوع من المرحلة الثانية. أنت لا تزال في الحلقة تمامًا ، ولكن في بعض الأحيان يمكنك أخذ اختصار.”
يتمثل الهدف من الأنظمة الوهمية في تجاوز بيئات المطورين تمامًا ، وبدلاً من ذلك تقديم وكلاء الترميز مع مشكلة وتركهم لحلها بمفردهم. يقول ليريت: “نقوم بإعادة الأمور إلى طبقة الإدارة ، حيث أقوم فقط بتعيين تقرير الأخطاء ويحاول الروبوت إصلاحها بشكل مستقل تمامًا”.
إنه هدف طموح ، وحتى الآن ، ثبت أنه صعب.
بعد أن أصبح Devin متاحًا بشكل عام في نهاية عام 2024 ، وجهت انتقادًا من النقاد على YouTube ، بالإضافة إلى نقد أكثر قياسًا من عميل مبكر في Assefl.ai. كان الانطباع العام مألوفًا للمحاربين القدامى الذين يرشدون الأجواء: مع وجود العديد من الأخطاء ، فإن الإشراف على النماذج يأخذ الكثير من العمل مثل القيام بالمهمة يدويًا. (على الرغم من أن Devin’s Prowout كان صخريًا بعض الشيء ، إلا أنه لم يمنع لجمع التبرعات من الاعتراف بالإمكانات – في مارس / آذار ، قامت شركة Devin الأم ، AI ، بتجميع مئات الملايين من الدولارات بتقييم 4 مليارات دولار.)
حتى أنصار التكنولوجيا تحذر من ترميز الأجواء غير الخاضعة للإشراف ، ورؤية عوامل الترميز الجديدة كعناصر قوية في عملية تنمية خاضعة للإشراف على الإنسان.
يقول روبرت برينان ، الرئيس التنفيذي لجميع Hands AI ، الذي يحافظ على أدوات مفتوحة: “في الوقت الحالي ، وأود أن أقول ، في المستقبل المنظور ، يجب على الإنسان التدخل في وقت مراجعة الكود للنظر في الكود الذي تمت كتابته”. “لقد رأيت العديد من الأشخاص يعملون في حالة من الفوضى من خلال مجرد تربية تلقائية لكل كود يكتبه الوكيل. إنه يخرج عن السيطرة بسرعة.”
الهلوسة هي مشكلة مستمرة كذلك. يتذكر برينان حادثة واحدة ، عندما سئل عن واجهة برمجة التطبيقات التي تم إصدارها بعد قطع بيانات تدريب وكيل OpenHands ، قام الوكيل بتصنيع التفاصيل عن واجهة برمجة التطبيقات التي تتناسب مع الوصف. تقول All Hands AI إنها تعمل على أنظمة للقبض على هذه الهلوسة قبل أن تتسبب في ضرر ، ولكن لا يوجد حل بسيط.
يمكن القول إن أفضل مقياس للتقدم في البرمجة الوكلاء هو ألواح المتصدرين SWE-Bench ، حيث يمكن للمطورين اختبار نماذجهم مقابل مجموعة من القضايا التي لم يتم حلها من مستودعات GitHub المفتوحة. يحتل OpenHands حاليًا المركز الأول على لوحة المتصدرين التي تم التحقق منها ، وحل 65.8 ٪ من مجموعة المشكلات. يدعي Openai أن أحد النماذج التي تعمل على تشغيل Codex ، Codex-1 ، يمكن أن تعمل بشكل أفضل ، حيث سرد درجة 72.1 ٪ في إعلانها-على الرغم من أن النتيجة جاءت مع بعض التحذيرات ولم يتم التحقق منها بشكل مستقل.
إن القلق بين الكثيرين في صناعة التكنولوجيا هو أن الدرجات المرجعية المرتفعة لا تترجم بالضرورة إلى ترميز وكيل الوكيل حقًا. إذا كان بإمكان المبرمجون العاملون حل ثلاثة من بين كل أربع مشاكل ، فسوف يحتاجون إلى إشراف كبير من المطورين البشريين – خاصة عند التعامل مع الأنظمة المعقدة مع مراحل متعددة.
مثل معظم أدوات الذكاء الاصطناعى ، فإن الأمل هو أن تأتي التحسينات في نماذج الأساس بوتيرة ثابتة ، مما يتيح في النهاية أنظمة الترميز الوكيل من النمو إلى أدوات مطور موثوقة. لكن إيجاد طرق لإدارة الهلوسة وقضايا الموثوقية الأخرى سيكون أمرًا بالغ الأهمية للوصول إلى هناك.
يقول برينان: “أعتقد أن هناك القليل من تأثير حاجز الصوت”. “السؤال هو ، ما مقدار الثقة التي يمكنك أن تنتقلها إلى الوكلاء ، لذلك يأخذون المزيد من عبء العمل في نهاية اليوم؟”
نشكركم على قراءة الخبر على اشراق 24. اشترك معنا في النشرة الإخبارية لتلقي الجديد كل لحظة.
اقرأ على الموقع الرسمي
روابط قد تهمك
مؤسسة اشراق العالم خدمات المواقع والمتاجر باك لينكات باقات الباك لينك
روابط قد تهمك
مؤسسة اشراق العالم خدمات المواقع والمتاجر باك لينكات باقات الباك لينك
اكتشاف المزيد من في بي دبليو الشامل
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.