تعلن أمازون عن Nova، وهي عائلة جديدة من نماذج الذكاء الاصطناعي متعددة الوسائط

في مؤتمر re:Invent الذي انعقد يوم الثلاثاء، أعلنت Amazon Web Services (AWS)، قسم الحوسبة السحابية في Amazon، عن عائلة جديدة من نماذج الذكاء الاصطناعي التوليدية متعددة الوسائط التي تطلق عليها اسم Nova.

هناك أربعة نماذج لإنشاء النص إجمالاً: Micro، وLite، وPro، وPremier. قال آندي جاسي، الرئيس التنفيذي لشركة أمازون، على خشبة المسرح، إن Micro وLite وPro متاحة يوم الثلاثاء لعملاء AWS، بينما سيصل Premier في أوائل عام 2025.

بالإضافة إلى ذلك، هناك نموذج لتوليد الصور، Nova Canvas، ونموذج لتوليد الفيديو، Nova Reel. تم إطلاق كلاهما أيضًا على AWS هذا الصباح.

وقال جاسي: “لقد واصلنا العمل على نماذجنا الحدودية الخاصة، وقد حققت هذه النماذج الحدودية قدرًا هائلاً من التقدم خلال الأشهر الأربعة إلى الخمسة الماضية. واعتقدنا أننا إذا كنا نجد قيمة منها، فمن المحتمل أن تجد قيمة منها.

مايكرو، لايت، برو، ورئيس الوزراء

تتميز نماذج Nova المولدة للنص، والتي تم تحسينها لـ 15 لغة (لكن الإنجليزية في المقام الأول)، بأحجام وقدرات متباينة على نطاق واسع.

يمكن لـ Micro استيعاب النص وإخراج النص فقط، ولكنه يوفر أقل زمن وصول للمجموعة — حيث يقوم بمعالجة النص وإنشاء الاستجابات بشكل أسرع.

يمكن لـ Lite معالجة مدخلات الصور والفيديو والنص بسرعة معقولة. يقدم Pro مزيجًا متوازنًا من الدقة والسرعة والتكلفة لمجموعة من المهام. وPremier هو الأكثر قدرة، وهو مصمم لأحمال العمل المعقدة.

يمكن لـ Pro وPremier، مثل Lite، تحليل النصوص والصور والفيديو. تعتبر البرامج الثلاثة مناسبة تمامًا لمهام مثل استيعاب المستندات وتلخيص المخططات والاجتماعات والرسوم البيانية. ومع ذلك، تقوم AWS بوضع Premier على أنه نموذج “معلم” لإنشاء نماذج مخصصة مضبوطة، بدلاً من نموذج يمكن استخدامه بمفرده.

يحتوي Micro على نافذة سياق تحتوي على 128000 رمز، مما يعني أنه يمكنه معالجة ما يصل إلى حوالي 100000 كلمة. يحتوي Lite وPro على 300000 نافذة سياقية، والتي تصل إلى حوالي 225000 كلمة، أو 15000 سطر من أكواد الكمبيوتر، أو 30 دقيقة من اللقطات.

تقول AWS إنه في أوائل عام 2025، ستتوسع نوافذ سياق بعض نماذج Nova لدعم أكثر من 2 مليون رمز مميز.

يدعي جاسي أن موديلات Nova هي من بين الأسرع في فئتها – ومن بين الأقل تكلفة في التشغيل. وهي متوفرة في AWS Bedrock، منصة تطوير الذكاء الاصطناعي التابعة لشركة Amazon، حيث يمكن ضبطها بدقة على النصوص والصور والفيديو وتقطيرها لتحسين السرعة والكفاءة الأعلى.

وأضاف جاسي: “لقد قمنا بتحسين هذه النماذج للعمل مع الأنظمة الخاصة وواجهات برمجة التطبيقات، بحيث يمكنك القيام بعدة خطوات تلقائية منسقة – سلوك الوكيل – بسهولة أكبر باستخدام هذه النماذج”. “لذلك أعتقد أن هذه مقنعة للغاية.”

قماش وبكرة

يعتبر Canvas وReel أقوى عروض AWS حتى الآن للوسائط التوليدية.

يتيح Canvas للمستخدمين إنشاء الصور وتحريرها باستخدام المطالبات (على سبيل المثال، لإزالة الخلفيات) ويوفر عناصر تحكم لأنظمة ألوان وتخطيطات الصور التي تم إنشاؤها. يقوم Reel، وهو النموذج الأكثر طموحًا بين النموذجين، بإنشاء مقاطع فيديو يصل طولها إلى ست ثوانٍ من المطالبات أو الصور المرجعية اختياريًا. باستخدام Reel، يمكن للمستخدمين ضبط حركة الكاميرا لإنشاء مقاطع فيديو باستخدام المقالي والدوران بزاوية 360 درجة والتكبير/التصغير.

يقتصر Reel حاليًا على مقاطع فيديو مدتها ست ثوانٍ (والتي يستغرق إنشاؤها حوالي ثلاث دقائق)، ولكن الإصدار الذي يمكنه إنشاء مقاطع فيديو مدتها دقيقتين “سيتوفر قريبًا”، وفقًا لـ AWS.

وهنا عينة:

اعتمادات الصورة:أوس

وآخر:

وهذه صور من قماش:

قماش AWS نوفا — يمكن لـ Canvas إنشاء صور بمجموعة من الأنماط، كما تقول AWS، وتوسيع الصور الموجودة أو إدراج كائنات في المشاهد. **اعتمادات الصورة:**أوس

وشدد جاسي على أن كلا من Canvas وReel لديهما ضوابط “مدمجة” للاستخدام المسؤول، بما في ذلك العلامات المائية والإشراف على المحتوى. “[We’re trying] للحد من توليد المحتوى الضار”.

توسعت AWS في إجراءات الحماية في منشور بالمدونة، قائلة إن Nova “تمتد [its] تدابير السلامة لمكافحة انتشار المعلومات المضللة ومواد الاعتداء الجنسي على الأطفال والمخاطر الكيميائية أو البيولوجية أو الإشعاعية أو النووية. ومع ذلك، ليس من الواضح ما يعنيه هذا من الناحية العملية، أو ما هي الأشكال التي تتخذها هذه التدابير.

لا تزال AWS أيضًا غامضة بشأن البيانات التي تستخدمها بالضبط لتدريب جميع نماذجها التوليدية. أخبرت الشركة سابقًا موقع TechCrunch فقط أنها عبارة عن مزيج من البيانات الخاصة والمرخصة.

قليل من البائعين يكشفون عن مثل هذه المعلومات عن طيب خاطر. إنهم ينظرون إلى بيانات التدريب باعتبارها ميزة تنافسية، وبالتالي يحافظون عليها – والمعلومات المتعلقة بها – سرًا تحت حراسة مشددة. وتشكل تفاصيل بيانات التدريب أيضًا مصدرًا محتملاً للدعاوى القضائية المتعلقة بالملكية الفكرية، وهو ما يشكل عائقًا آخر للكشف عن الكثير.

بدلاً من الشفافية، تقدم AWS سياسة تعويض تغطي العملاء في حالة قيام أحد نماذجها بالتقيؤ (أي بصق نسخة طبق الأصل من) صورة يحتمل أن تكون محمية بحقوق الطبع والنشر.

إذن، ما هي الخطوة التالية بالنسبة لنوفا؟ يقول جاسي إن AWS تعمل على نموذج تحويل الكلام إلى كلام – وهو نموذج سيستقبل الكلام ويخرج نسخة محولة منه – للربع الأول من عام 2025، ونموذج “من أي شخص إلى أي شخص” في منتصف عام 2025 تقريبًا .

إعادة AWS: اختراع 2024 نوفا — **اعتمادات الصورة:**فريدريك لاردينوا / تك كرانش

وتقول أمازون إن نموذج تحويل الكلام إلى كلام سيكون قادرًا أيضًا على تفسير الإشارات اللفظية وغير اللفظية، مثل النغمة والإيقاع، وتقديم أصوات طبيعية “شبيهة بالإنسان”. أما بالنسبة لنموذج “من أي إلى أي شخص”، فإنه من الناحية النظرية سيعمل على تشغيل التطبيقات من المترجمين إلى محرري المحتوى إلى مساعدي الذكاء الاصطناعي.

هذا على افتراض أنها لا تعاني من أي انتكاسات بالطبع.

“ستكون قادرًا على إدخال النص أو الكلام أو الصور أو الفيديو وإخراج النص أو الكلام أو الصور أو الفيديو”، قال جاسي عن نموذج “أي شيء إلى أي شخص”. “هذا هو مستقبل كيفية بناء النماذج الحدودية واستهلاكها.”

Source link