حوّل نصوصك الخيالية الى مقاطع فيديو بضغطة زر

'أوبن إيه آي' تتيح توليد مقاطع فيديو انطلاقا من نصوص وصفية، في نقلة نوعية جديدة للإمكانيات المذهلة التي تيحها الذكاء الاصطناعي.

واشنطن – اصبح بإمكان الجمهور الواسع من مستخدمي أدوات "أوبن إيه آي" توليد مقاطع فيديو انطلاقا من نصوص وصفية، في نقلة نوعية جديدة للإمكانيات المذهلة التي تيحها الذكاء الاصطناعي.

وكانت "أوبن إيه آي" اشترت سابقا ببرنامج "تشات جي بي تي" الذي أتاح للمستخدمين العاديين إمكانية توظيف الذكاء الاصطناعي التوليدي. 

ومن خلال تقديم وصف مختصر أو تفصيلي أو صورة ثابتة، يمكن لنموذج "سورا" توليد مشاهد تشبه الأفلام بدقة قدرها 1080 بكسل مع شخصيات متعددة وأنواع مختلفة من الحركة وتفاصيل الخلفية.

ويستطيع "سورا" أيضًا تمديد مقاطع الفيديو الموجودة، إذ يبذل قصارى جهده لملء التفاصيل المفقودة.

وكتبت "أوبن إيه آي"  في تدوينة: “يتمتع "سور" بفهم عميق للغة، مما يمكنه من تفسير المطالبات بدقة وتوليد شخصيات مقنعة تعبر عن المشاعر النابضة بالحياة. يفهم النموذج ما طلبه المستخدم في الموجه، وكذلك كيفية وجود هذه الأشياء في العالم المادي”.

ويستطيع "سورا" توليد مقاطع فيديو بمجموعة من الأنماط، مثل الصور الواقعية والرسوم المتحركة والأسود والأبيض، لمدة تصل إلى دقيقة واحدة، أي أطول بكثير من معظم نماذج تحويل النص إلى فيديو.

وتحافظ مقاطع الفيديو على ترابط مقبول، بمعنى أن الأجسام لا تتحرك في اتجاهات مستحيلة فيزيائيًا.

وتحافظ مقاطع الفيديو على ترابط مقبول، بمعنى أن الأجسام لا تتحرك في اتجاهات مستحيلة فيزيائيًا.

وتقر "أوبن إيه آي"  بأن النموذج ليس مثاليًا، إذ قالت: “قد يواجه «سورا» صعوبة في المحاكاة الدقيقة لفيزياء مشهد معقد، وقد لا يفهم حالات محددة من السبب والنتيجة”.

وقد يخلط النموذج بين التفاصيل المكانية للموجه، مثل الخلط بين اليسار واليمين، وقد يواجه صعوبة في الوصف الدقيق للأحداث التي تحدث بمرور الوقت، مثل اتباع مسار معين للكاميرا.

وقالت الشركة: "نحن نعلّم الذكاء الاصطناعي ليتمكن من فهم ومحاكاة العالم الواقعي في حركته، بهدف تدريب النماذج التي من شأنها أن تساعد الأشخاص على حل المشاكل التي تتطلب التفاعل مع العالم الواقعي".  

ويستطيع "سورا""توليد مقاطع فيديو بمجموعة من الأنماط، مثل الصور الواقعية والرسوم المتحركة والأسود والأبيض، لمدة تصل إلى دقيقة واحدة، أي أطول بكثير من معظم نماذج تحويل النص إلى فيديو.

وأضافت الشركة في مدونتها عدة أمثلة على تلك الفيديوهات الأولية التي يمكن للنموذج صنعها، منها "تريلر لفيلم يظهر مغامرات عالم فضاء ثلاثيني يرتدي بدلة مصنوعة من الصوف الأحمر وخوذة للدراجات النارية، سماء زرقاء، صحراء ملحية، بأسلوب سينمائي، التقط بفيلم 35 ملم، ألوان ساطعة". 

وأعلنت الشركة أنها فتحت المجال لاستخدام "سورا" أمام عدد من الباحثين وصناع الفيديو، وسيتاح للفريق الذي لقبته بـ "red team" اختبار النموذج للتأكد من مواكبته شروط خدمة "أوبن إيه آي" التي تحظر "المحتوى العنيف بشكل مبالغ به والإباحية والصور التي تبث الكراهية وأشباه المشاهير…". 

ولا تزال تجربة النموذج مقتصرة على الباحثين وفناني المحتوى المرئي وصناع الأفلام فقط، إلا أن المدير التنفيذي للشركة، سام ألتمان، استجاب لطلبات المستخدمين عبر تويتر بمقاطع فيديو تم توليدها باستخدام "سورا"، وظهرت علامة عليها تؤكد أن المحتوى تم توليده بالذكاء الاصطناعي. 

وأطلقت الشركة لأول مرة مولد الصور الثابتة "دال-إي" في عام 2021 وروبوت الدردشة المولد بالذكاء الاصطناعي "تشات جي بي تي" في نوفمبر عام 2022، والذي جمع بسرعة 100 مليون مستخدم.