لقد قمت ببناء قلاع المارشميلو في مولد عالم الذكاء الاصطناعي الجديد من Google

اشراق العالم 24 متابعات تقنية:
نقدم لكم في اشراق العالم 24 خبر بعنوان “لقد قمت ببناء قلاع المارشميلو في مولد عالم الذكاء الاصطناعي الجديد من Google
” نترككم مع محتوى الخبر
يفتح Google DeepMind إمكانية الوصول إلى Project Genie، أداة الذكاء الاصطناعي الخاصة به لإنشاء عوالم ألعاب تفاعلية من المطالبات النصية أو الصور.
بدءًا من يوم الخميس، يمكن لمشتركي Google AI Ultra في الولايات المتحدة تجربة النموذج الأولي للبحث التجريبي، والذي يتم تشغيله بواسطة مزيج من أحدث طراز عالمي من Google Genie 3، ونموذج توليد الصور Nano Banana Pro، وGemini.
تأتي هذه الخطوة بعد خمسة أشهر من معاينة بحث Genie 3، وهي جزء من حملة أوسع لجمع تعليقات المستخدمين وبيانات التدريب بينما تتسابق DeepMind لتطوير نماذج عالمية أكثر قدرة.
النماذج العالمية هي أنظمة الذكاء الاصطناعي التي تولد تمثيلاً داخليًا للبيئة، ويمكن استخدامها للتنبؤ بالنتائج المستقبلية وتخطيط الإجراءات. يعتقد العديد من قادة الذكاء الاصطناعي، بما في ذلك أولئك الذين يعملون في شركة DeepMind، أن النماذج العالمية هي خطوة حاسمة لتحقيق الذكاء العام الاصطناعي (AGI). لكن على المدى القريب، تتصور مختبرات مثل DeepMind خطة للذهاب إلى السوق تبدأ بألعاب الفيديو وغيرها من أشكال الترفيه وتتفرع إلى تدريب العملاء المتجسدين (المعروفين أيضًا باسم الروبوتات) في المحاكاة.
يأتي إصدار DeepMind لـ Project Genie مع بدء احتدام سباق النماذج العالمية. أصدرت مختبرات Fei-Fei Li’s World Labs في أواخر العام الماضي أول منتج تجاري لها يسمى الرخام. كما أطلقت شركة Runway، الشركة الناشئة لتوليد الفيديو بتقنية الذكاء الاصطناعي، نموذجًا عالميًا مؤخرًا. وستركز شركة AMI Labs الناشئة، التي أنشأها كبير العلماء السابق في Meta، Yann LeCun، أيضًا على نماذج العالم النامية.
قال شلومي فروشتر، مدير الأبحاث في DeepMind، لـ TechCrunch عبر مقابلة بالفيديو، وهو يبتسم من الأذن إلى الأذن في حماسة واضحة بشأن إصدار Project Genie: “أعتقد أنه من المثير أن نكون في مكان حيث يمكننا أن نجعل المزيد من الأشخاص يصلون إليه ويقدمون لنا تعليقاتهم”.
كان باحثو DeepMind الذين تحدثت إليهم TechCrunch صريحين بشأن الطبيعة التجريبية للأداة. يمكن أن تكون غير متسقة، وفي بعض الأحيان تولد عوالم قابلة للعب بشكل مثير للإعجاب، وفي أحيان أخرى تنتج نتائج محيرة تخطئ الهدف. وإليك كيف يعمل.
حدث تك كرانش
بوسطن، MA
|
23 يونيو 2026
تبدأ بـ “رسم للعالم” من خلال توفير مطالبات نصية لكل من البيئة والشخصية الرئيسية، والتي ستتمكن لاحقًا من المناورة بها عبر العالم إما من منظور الشخص الأول أو منظور الشخص الثالث. يقوم Nano Banana Pro بإنشاء صورة بناءً على المطالبات التي يمكنك، نظريًا، تعديلها قبل أن يستخدم Genie الصورة كنقطة انطلاق لعالم تفاعلي. نجحت التعديلات في الغالب، لكن النموذج كان يتعثر أحيانًا ويعطيك شعرًا أرجوانيًا عندما تطلب اللون الأخضر.
يمكنك أيضًا استخدام صور الحياة الواقعية كخط أساس للنموذج لبناء عالم عليه، والذي، مرة أخرى، قد تم ضربه أو فشله. (المزيد عن ذلك لاحقًا.)
بمجرد أن تشعر بالرضا عن الصورة، سيستغرق Project Genie بضع ثوان لإنشاء عالم قابل للاستكشاف. يمكنك أيضًا إعادة مزج العوالم الموجودة في تفسيرات جديدة من خلال البناء على مطالباتها، أو استكشاف عوالم منسقة في المعرض أو عبر أداة التوزيع العشوائي للإلهام. يمكنك بعد ذلك تنزيل مقاطع فيديو للعالم الذي استكشفته للتو.
تمنح DeepMind 60 ثانية فقط من التوليد العالمي والتنقل في الوقت الحالي، ويرجع ذلك جزئيًا إلى قيود الميزانية والحوسبة. نظرًا لأن Genie 3 هو نموذج رجعي تلقائي، فإنه يتطلب الكثير من الحوسبة المخصصة – مما يضع سقفًا ضيقًا لمدى قدرة DeepMind على توفيره للمستخدمين.
وقال فروشتر: “السبب في تحديد مدته بـ 60 ثانية هو أننا أردنا تقديمه لعدد أكبر من المستخدمين”. “في الأساس، عندما تستخدمها، تكون هناك شريحة في مكان ما خاصة بك فقط ويتم تخصيصها لجلستك.”
وأضاف أن تمديده لأكثر من 60 ثانية من شأنه أن يقلل من القيمة الإضافية للاختبار.
“البيئات مثيرة للاهتمام، ولكن في مرحلة ما، بسبب مستوى تفاعلها وديناميكية البيئة، تكون محدودة إلى حد ما. ومع ذلك، فإننا نرى ذلك باعتباره قيدًا نأمل في تحسينه.”
النزوة تنجح، والواقعية لا تنجح

عندما استخدمت النموذج، كانت حواجز الأمان جاهزة للعمل بالفعل. لم أتمكن من إنتاج أي شيء يشبه العري، ولا يمكنني إنشاء عوالم تستنشق حتى عن بعد ديزني أو غيرها من المواد المحمية بحقوق الطبع والنشر. (في ديسمبر/كانون الأول، ضربت شركة ديزني شركة جوجل بقرار التوقف والكف، متهمة نماذج الذكاء الاصطناعي التابعة للشركة بانتهاك حقوق الطبع والنشر من خلال التدريب على شخصيات ديزني والملكية الفكرية وإنشاء محتوى غير مصرح به، من بين أمور أخرى). لم أتمكن حتى من جعل جيني تولد عوالم من حوريات البحر تستكشف أراضي خيالية تحت الماء أو ملكات الجليد في قلاعها الشتوية.
ومع ذلك، كان العرض التوضيحي مثيرًا للإعجاب للغاية. العالم الأول الذي قمت ببنائه كان محاولة لأعيش خيالًا صغيرًا من طفولتي، حيث يمكنني استكشاف قلعة في السحب مكونة من أعشاب من الفصيلة الخبازية مع نهر من صلصة الشوكولاتة وأشجار مصنوعة من الحلوى. (نعم، كنت طفلاً بدينًا.) طلبت من العارضة أن تفعل ذلك بأسلوب الطين، وقد قدمت لي عالمًا غريبًا كنت سأأكله في طفولتي، حيث تبدو أبراج وأبراج القلعة ذات الألوان الفاتحة والأبيض منتفخة ولذيذة بما يكفي لتمزيق قطعة منها وغمرها في خندق الشوكولاتة. (الفيديو أعلاه).

ومع ذلك، لا يزال لدى Project Genie بعض مكامن الخلل التي يجب حلها.
برعت العارضات في إنشاء عوالم بناءً على المطالبات الفنية، مثل استخدام الألوان المائية أو أسلوب الرسوم المتحركة أو جماليات الرسوم المتحركة الكلاسيكية. لكنها تميل إلى الفشل عندما يتعلق الأمر بالعوالم الواقعية أو السينمائية، وغالبًا ما تظهر وكأنها لعبة فيديو وليس أشخاصًا حقيقيين في بيئة حقيقية.
كما أنها لم تستجيب دائمًا بشكل جيد عند إعطائها صورًا حقيقية للعمل معها. عندما أعطيته صورة لمكتبي وطلبت منه إنشاء عالم يعتمد على الصورة كما كانت تمامًا، أعطاني عالمًا يحتوي على بعض أثاث مكتبي نفسه – مكتب خشبي، ونباتات، وأريكة رمادية – مرتبة بشكل مختلف. وبدا عقيمًا ورقميًا وليس نابضًا بالحياة.
عندما أطعمته صورة لمكتبي مع لعبة محشوة، قام Project Genie بتحريك اللعبة وهي تتنقل في الفضاء، بل وكان هناك أشياء أخرى تتفاعل أحيانًا أثناء تحركها بجوارها.
هذا التفاعل هو شيء تعمل شركة DeepMind على تحسينه. كانت هناك عدة مناسبات مرت فيها شخصياتي عبر الجدران أو غيرها من الأشياء الصلبة.

عندما أصدرت DeepMind لعبة Genie 3 في البداية، سلط الباحثون الضوء على كيف أن بنية النموذج التلقائية الانحدارية تعني أنه يمكنه تذكر ما أنشأه، لذلك أردت اختبار ذلك من خلال العودة إلى أجزاء من البيئة التي أنشأها بالفعل لمعرفة ما إذا كانت ستكون هي نفسها. بالنسبة للجزء الأكبر، نجح النموذج. في إحدى الحالات، قمت بإنشاء قطة تستكشف مكتبًا آخر، ومرة واحدة فقط عندما عدت إلى الجانب الأيمن من المكتب، قام النموذج بإنشاء كوب ثانٍ.
الجزء الذي وجدته أكثر إحباطًا هو الطريقة التي تتنقل بها في المساحة باستخدام الأسهم للنظر حولك، ومفتاح المسافة للقفز أو الصعود، ومفاتيح WASD للتحرك. أنا لست لاعبًا، لذلك لم يخطر ببالي هذا الأمر بشكل طبيعي، ولكن المفاتيح غالبًا ما كانت غير مستجيبة، أو أرسلتك في الاتجاه الخاطئ. غالبًا ما أصبحت محاولة المشي من أحد جوانب الغرفة إلى المدخل الموجود على الجانب الآخر بمثابة تمرين متعرج فوضوي، مثل محاولة توجيه عربة تسوق بعجلة مكسورة.
وأكد لي فروشتر أن فريقه كان على علم بهذه العيوب، وذكرني مرة أخرى بأن مشروع جيني هو نموذج أولي تجريبي. وقال إن الفريق يأمل في المستقبل في تعزيز الواقعية وتحسين قدرات التفاعل، بما في ذلك منح المستخدمين مزيدًا من التحكم في الإجراءات والبيئات.
“نحن لا نفكر [Project Genie] كمنتج شامل يمكن للناس العودة إليه كل يوم، ولكننا نعتقد أن هناك بالفعل لمحة عن شيء مثير للاهتمام وفريد من نوعه ولا يمكن القيام به بطريقة أخرى.
نشكركم على قراءة الخبر على اشراق 24. اشترك معنا في النشرة الإخبارية لتلقي الجديد كل لحظة.
اقرأ على الموقع الرسمي



