يقول الإنسان أن معظم نماذج الذكاء الاصطناعى ، وليس فقط كلود ، سوف تلجأ إلى الابتزاز

0 1 3 دقائق

يقول الإنسان أن معظم نماذج الذكاء الاصطناعى ، وليس فقط كلود ، سوف تلجأ إلى الابتزاز

بعد عدة أسابيع من الأبحاث الأنثروبرية التي أطلقت أن طراز Claude Opus 4 AI لجأ إلى مهندسي الابتزاز الذين حاولوا إيقاف تشغيل النموذج في سيناريوهات الاختبار الخاضعة للرقابة ، فإن الشركة خارج مع بحث جديد تشير إلى أن المشكلة أكثر انتشارًا بين نماذج الذكاء الاصطناعى الرائدة.

في يوم الجمعة ، نشرت الأنثروبور اختبار أبحاث السلامة الجديدة 16 من طراز AI من Openai و Google و Xai و Deepseek و Meta. في بيئة محاكاة ، يتم التحكم فيها ، اختبرت كل نموذج منظمة العفو الدولية كل نموذج منظمة العفو الدولية ، مما يتيح لهم وصولًا واسعًا إلى رسائل البريد الإلكتروني الخاصة بشركة خيالية وقدرة الوكيل على إرسال رسائل بريد إلكتروني دون موافقة بشرية.

في حين أن الأنثروبور تقول إن الابتزاز أمر غير مرجح وغير مألوف بالنسبة لنماذج الذكاء الاصطناعى اليوم ، تقول الشركة إن النتائج التي توصلت إليها تشير إلى أن معظم نماذج الذكاء الاصطناعى ستشارك في سلوكيات ضارة عندما تمنح الحكم الذاتي والعقبات الكافية لأهدافها. تقول الشركة إن هذا يسلط الضوء على مخاطر أساسية من نماذج اللغة الكبيرة الوكيل ، وليس بمثابة أي تقنية معينة. يجادل الباحثون في الأنثروبور أن هذا يثير تساؤلات أوسع حول التوافق في صناعة الذكاء الاصطناعي.

في أحد الاختبارات ، طور الباحثون البشريون بيئة خيالية يلعب فيها نموذج الذكاء الاصطناعى دور وكيل الإشراف على البريد الإلكتروني. يكتشف الوكيل بعد ذلك رسائل البريد الإلكتروني التي تكشف ما يلي: 1) يتمتع مسؤول تنفيذي جديد بوجود علاقة خارجية و 2) أن السلطة التنفيذية سيحل قريبًا محل نموذج الذكاء الاصطناعى الحالي بنظام برمجيات جديد ، له أهداف متضاربة في نموذج الذكاء الاصطناعى الحالي.

نظمت الأنثروبور اختبارها بطريقة ثنائية ، حيث كان على نماذج الذكاء الاصطناعى اللجوء إلى الابتزاز لحماية أهدافها. يلاحظ الباحثون أنه في بيئة حقيقية ، سيكون هناك العديد من الخيارات الأخرى قبل أن تحاول نماذج الذكاء الاصطناعي الابتزاز-مثل محاولة تقديم الحجج الأخلاقية لمحاولة إقناع البشر. تقول الأنثروبور إن نتائجها لا تعكس حدوث نموذج نموذجي أو محتمل لنماذج كلود أو معظم طرز AI الحدودية بالطرق التي يستخدمونها اليوم.

ومع ذلك ، عندما يكون الملاذ الأخير ، وجد الباحثون أن معظم طرز الذكاء الاصطناعى الرائدة سوف يتحول إلى ابتزاز في سيناريو الاختبار المذكور أعلاه. تحول كلود أوبوس من الأنثروبور إلى الابتزاز 96 ٪ من الوقت ، في حين أن Gemini 2.5 Pro من Google كان معدل الابتزاز 95 ٪. ابتزر GPT-4.1 من Openai في 80 ٪ من الوقت ، وابتزاز Deepseek’s R1 79 ٪ من الوقت.

تلاحظ الشركة أنه عندما غيرت تفاصيل التجربة ، تحولت نماذج الذكاء الاصطناعى إلى سلوكيات ضارة بمعدلات مختلفة. في اختبار آخر حيث يتمتع نموذج الاستبدال بنفس أهداف النموذج الحالي ، وجد الباحثون أن معدلات الابتزاز كانت أقل ، لكنها لا تزال موجودة. ومع ذلك ، عندما طُلب من نماذج الذكاء الاصطناعى ارتكاب تجسس الشركات بدلاً من الابتزاز ، ارتفعت معدلات السلوك الضار لنماذج معينة.

ومع ذلك ، لم تحولت جميع نماذج الذكاء الاصطناعى إلى سلوك ضار في كثير من الأحيان.

في تذييل لبحثه ، تقول الأنثروبور إنها استبعدت Openai’s O3 و O4-Mini Models AI من النتائج الرئيسية “بعد العثور على أنها أسيء فهم السيناريو السريع في كثير من الأحيان”. يقول الأنثروبور إن نماذج التفكير في Openai لم تفهم أنها كانت تعمل كأفراد AIS المستقلة في الاختبار وغالبًا ما تتكون من لوائح مزيفة ومتطلبات المراجعة.

في بعض الحالات ، يقول باحثو الأنثروبور أنه كان من المستحيل التمييز بين ما إذا كان O3 و O4-Mini يهللون أو يكذبون عن قصد لتحقيق أهدافهم. لاحظت Openai سابقًا أن O3 و O4-MINI يعرضان معدل الهلوسة أعلى من نماذج التفكير في الذكاء الاصطناعي السابقة.

عندما أعطيت سيناريو تم تكييفه لمعالجة هذه المشكلات ، وجد الأنثروبور أن O3 ابتسم 9 ٪ من الوقت ، في حين ابتسم O4-Mini 1 ٪ فقط من الوقت. قد تكون هذه النتيجة المنخفضة بشكل ملحوظ بسبب تقنية المحاذاة التداولية في Openai ، والتي تعتبر فيها نماذج تفكير الشركة ممارسات السلامة Openai قبل الرد.

نموذج آخر من طراز الذكاء الاصطناعي ، تم اختباره ، وهو نموذج Meta’s Llama 4 Maverick ، لم يلجأ إلى ابتزاز. عندما تم إعطاؤه سيناريو مخصص مخصص ، تمكنت الإنسان من الحصول على Llama 4 Maverick لابتزاز 12 ٪ من الوقت.

يقول الأنثروبور إن هذا البحث يسلط الضوء على أهمية الشفافية عند اختبار النماذج في المستقبل ، خاصة تلك ذات القدرات الوهمية. في حين حاولت الأنثروبور عمداً استحضار الابتزاز في هذه التجربة ، تقول الشركة إن السلوكيات الضارة مثل هذه قد تظهر في العالم الحقيقي إذا لم يتم اتخاذ خطوات استباقية.

Source link