شنبه, اردیبهشت ۲۰, ۱۴۰۴

مدل تشکیل ویدیو Sora از OpenAI «محکوم به ناکامی» است

مریم یزدانی
4 Min Read


هفته قبل، OpenAI با معارفه مدل هوش مصنوعی Sora که بر پایه متن می‌تواند ویدیو بسازد، او گفت و گو‌های بسیاری را تشکیل کرد. اما «یان لی‌کان» (Yann Lecun)، دانشمند ارشد هوش مصنوعی که هم‌اکنون در متا مشغول به فعالیت است، نظر دارد این همه شوق برای مدل متن به ویدیو هیچ‌وپوچ است و این مدل در تحقق اهداف ادعا‌شده توسط OpenAI ناکامی می‌خورد.

به‌طور خلاصه، لی‌کان از این ادعای OpenAI انتقاد کرده است که Sora در نهایت ساخت «همانند‌سازهای همه‌منظوره از دنیای فیزیکی» را ممکن می‌کند. او می‌گوید که رویکرد OpenAI برای ساخت یک «همانند‌ساز دنیا» مطلقاً نادرست است.

دانشمند ارشد هوش مصنوعی متا با انتشار کردن یک پست در ایکس نوشت:

«مدل‌سازی متحرک دنیا با تشکیل پیکسل‌ها بی‌منفعت و محکوم به ناکامی است، همانند ایده عمدتاً رهاشده آنالیز با سنتز

یان لی‌کان مدل‌های تولیدگر را برای همانند‌سازی دنیای فیزیکی بی فایده می‌داند و درحال کار روی مدل خود در متا است که پیش‌بینی‌های واقعی‌تری از دنیا انجام می‌دهد.

لی‌کان یکی از پدرخوانده‌های هوش مصنوعی محسوب می‌بشود. برخلاف پدرخوانده‌های دیگر که از ساخت هوش مصنوعی ابراز پشیمانی کرده‌اند، او به کار خود با متا ادامه می‌دهد. لی‌کان این چنین یکی از صریح‌ترین و بی‌پرده‌ترین منتقدان رقبای خود در دنیای هوش مصنوعی است.

پیچیدگی تشکیل عکس

1708685036 252 مدل تشکیل ویدیو Sora از OpenAI محکوم به ناکامی است

لی‌کان با نظر خود به یک او گفت و گو قدیمی دریادگیری ماشین بین مدل‌های تولیدکننده و مدل‌های متمایزکننده اشاره دارد. او می‌گوید مدل‌های تولیدکننده که با «متغیرهای نهان بیانگر» پیکسل می‌سازند، زیاد بی فایده می باشند و این مدل نمی‌تواند عدم قطعیت‌های ناشی از پیش‌بینی پیچیدگی‌های یک فضای سه‌بعدی را به‌خوبی کنترل کند.

به‌زبان ساده، او می‌گوید این مدل‌ها تلاش می‌کنند تا جزئیاتی زیاد بی‌ربط را «استنتاج» کنند. برای مثال، حرکت یک توپ فوتبال را با تلاش برای فهمیدن نقش همه مواد سازنده توپ در حرکت محاسبه می‌کنند، نه تمرکز روی چیزهایی همانند جرم و وزن توپ.

او در ادامه پست خود او گفت:

«اگر مقصد شما واقعاً تشکیل ویدیو باشد، منفعت گیری از این مدل هیچ اشکالی ندارد. اما اگر مقصد‌تان فهمیدن چگونگی کارکرد دنیاست، این کار به ناکامی می‌انجامد.»

سریعترین موتور جستجوگر خبر پارسی – اخبار لحظه به لحظه از معتبرترین خبرگزاری های پارسی زبان در آفتاب شرق

رقیب هوش مصنوعی ویدیوساز Sora از متا

1708685036 893 مدل تشکیل ویدیو Sora از OpenAI محکوم به ناکامی است

لی‌کان می‌گوید مدل‌های زبانی بزرگ همانند ChatGPT تا الان کارآمد بوده‌اند، «چون متن با تعداد محدودی نماد نزدیک است.» اما اگر بخواهید همانند Sora دنیا را همانند‌سازی کنید، با چیزی زیاد تر از چند کاراکتر سروکار خواهید داشت.

لی‌کان برای رقابت با فناوری OpenAI روی مدل خود در متا کار می‌کند. این مدل مَفصل ویدیو حامل معماری پیش‌بینی‌گر (V-JEPA) نام دارد و هفته قبل رونمایی شد.

کمپانی متا در یک پست بلاگ اظهار کرده که «برخلاف رویکردهای تولیدگر که تلاش می‌کنند هر پیکسل گم‌شده‌ای را پر کنند، V-JEPA این انعطاف را دارد که اطلاعات پیش‌بینی‌ناپذیر را حذف کند، که تمرین و کارایی نمونه را بین ۱٫۵ تا ۶ برابر بهبود می‌دهد.»

کار لی‌کان به‌اندازه محصولات OpenAI با تصاویر و متن‌های پرزرق‌وبرقی که دارند شوق‌انگیز نیست، اما دورشدن این پژوهشگر برجسته هوش مصنوعی از رویکردهای قدیمی که OpenAI و مقلدان فراوانش درحال گسترش آن‌ها می باشند، دلنشین است.





منبع
Share This Article