غوغل تكشف عن "جيميني أومني": نموذج ذكاء اصطناعي متكامل يحول المدخلات المتعددة إلى فيديو بجودة عالية

كشفت شركة Google الأمريكية عن نموذجها الجديد للذكاء الاصطناعي الذي يحمل اسم «جيميني أومني»، في خطوة تعزز توجهها نحو تطوير أنظمة قادرة على إنتاج محتوى متكامل ومتعدد الوسائط بالاعتماد على مختلف أنواع المدخلات الرقمية.

وذكر موقع TechCrunch التقني الأمريكي أن الشركة أطلقت عائلة جديدة من النماذج الذكية متعددة الوسائط تحت اسم «جيميني أومني». وأكد الرئيس التنفيذي لـ«غوغل» Sundar Pichai أن النموذج قادر على إنشاء أي محتوى انطلاقاً من أي نوع من المدخلات، سواء كانت نصوصاً أو صوراً أو مقاطع صوتية، مع تركيز أولي على إنتاج الفيديو.

وأشار إلى أن «جيميني أومني» لا يقتصر على دمج الصور والصوت والنصوص ضمن مقطع فيديو واحد، بل يعتمد على تحليلها بصورة متكاملة لإنتاج مقاطع فيديو متناسقة وعالية الجودة، تعكس فهماً لقوانين الفيزياء والثقافة والتاريخ والعلوم.

كما يتيح النموذج تعديل الصور باستخدام أوامر نصية بسيطة، إضافة إلى إمكانية إنشاء فيديو عبر صورة رمزية رقمية تحاكي المستخدم، بعد تسجيل قصير لصوته وحركاته، وذلك في إطار جهود الحد من تقنيات التزييف العميق.

ويأتي هذا التطور بعد ثلاثة أعوام من إطلاق نظام «جيميني»، حيث تؤكد «غوغل» أن «جيميني أومني» لا يمثل مجرد تحديث لنموذج الفيديو السابق «فيو»، بل يشكل خطوة جديدة لدمج قدرات الذكاء الاصطناعي بإنتاج الوسائط المتعددة، مع اعتماد علامة مائية رقمية للتحقق من مصدر المحتوى.