مايكروسوفت تطلق يد الذكاء الاصطناعي لتوليد الفيديو
واشنطن – انجزت مايكروسوفت قفزة اخرى في مجال توليد الفيديو بالذكاء الاصطناعي باطلاق نموذج توليدي يوفير تحكم دقيق في انشاء الفيديو من خلال استخدام النص والصور والمسار.
ويمكن "دراغنوا" من تسهيل توليد مقطع فيديو يمكن التحكم فيه بشكل كبير من الجوانب الدلالية والمكانية والزمانية.
ويسمح النموذج للمستخدمين بمعالجة الخلفيات أو الكائنات داخل الصور مباشرة، ويترجم هذه الإجراءات بسلاسة إلى حركات الكاميرا أو حركات الكائنات، مما يؤدي إلى توليد الفيديو المقابل.
ويضيف النموذج التوليد المستند إلى المسار بصفته أسلوبا جديدًا إلى جانب الأساليب المعروفة التي تشمل المطالبة المستندة إلى النص والمطالبة المستندة إلى الصورة.
ويتيح ذلك للمستخدمين معالجة الكائنات أو إطارات الفيديو بأكملها عبر مسارات محددة. ويوفر هذا طريقة سهلة لتوليد فيديو يمكن التحكم فيه بشكل كبير من الجوانب الدلالية والمكانية والزمانية، مع ضمان إخراج عالي الجودة في الوقت نفسه.
وقدمت مايكروسوفت المعايير القابلة للتعلم للنموذج بشكل مفتوح المصدر، ووفرت عرضًا توضيحيًا للمشروع، مما يسمح للمجتمع بتجربته.
ويتمحور توليد الفيديو بالذكاء الاصطناعي حول النص أو الصورة أو المدخلات المستندة إلى المسار، وواجه كل نهج صعوبات في توفير تحكم دقيق في المخرجات المطلوبة.
ويفشل الجمع بين النص والصور بمفرده في نقل تفاصيل الحركة المعقدة الموجودة في الفيديو، وقد لا تمثل الصور والمسارات الأشياء المستقبلية بشكل مناسب، ويمكن أن تؤدي النصوص والمسارات إلى الغموض عند التعبير عن المفاهيم المجردة.
واقترح فريق الذكاء الاصطناعي في مايكروسوفت في شهر أغسطس/حزيران 2023 نموذج "دراغنوا" للتغلب على هذه المشكلة، إذ إنه نموذج قائم على الانتشار مفتوح المدى يجمع بين العوامل الثلاثة.
ويتيح ذلك للمستخدم التحديد الدقيق للنص والصورة والمسار المطلوب في الإدخال للتحكم في جوانب، مثل حركات الكاميرا، ويشمل ذلك تأثيرات التكبير أو التصغير، أو حركة الكائن في الفيديو الناتج.
ويوفر المسار تفاصيل الحركة، وتعطي النصوص تفاصيل عن الأشياء المستقبلية، وتضيف الصور التمييز بين الكائنات.
وزعمت مايكروسوفت في اختباراتها أن النموذج كان قادرًا على تحقيق حركات دقيقة للكاميرا والكائنات بمسارات سحب مختلفة.
والاطلاق يأتي ضمن سباق شركات الذكاء الاصطناعي لإتقان توليد الفيديو.
وكانت مايكروسوفت أتاحت مؤخرا لمستخدميها إمكانية إنشاء الموسيقى وتأليف الأغاني اعتمادا على الذكاء الاصطناعي بفضل إدماج أداة "سونو في مساعدها الذكي "كوبايلوت" (Copilot) الذي زودت به متصفحها "إيدج" (Edge).
وتتيح الأداة للمستخدمين توليد أغانٍ كاملة متضمنة الكلمات والألحان والأصوات عندما يُدخل المستخدم أمرا نصيا إلى مساعد الذكاء الاصطناعي كوبايلوت في ويندوز.
ويجري تدريب كافة نماذج توليد الأصوات والموسيقى على المواد المتاحة على الإنترنت، حتى وإن كانت محمية بحقوق الطبع والنشر، ثم تتعلم خوارزميات الذكاء الاصطناعي منها وتحاول محاكاتها، ولا تزال مخرجات أدوات الذكاء الاصطناعي وآليات عملها محل جدل واسع في ظل غياب قوانين واضحة وتشريعات ملزمة ومنظمة لها.