هفته قبل، OpenAI با معارفه مدل هوش مصنوعی Sora که بر پایه متن میتواند ویدیو بسازد، او گفت و گوهای بسیاری را تشکیل کرد. اما «یان لیکان» (Yann Lecun)، دانشمند ارشد هوش مصنوعی که هماکنون در متا مشغول به فعالیت است، نظر دارد این همه شوق برای مدل متن به ویدیو هیچوپوچ است و این مدل در تحقق اهداف ادعاشده توسط OpenAI ناکامی میخورد.
بهطور خلاصه، لیکان از این ادعای OpenAI انتقاد کرده است که Sora در نهایت ساخت «همانندسازهای همهمنظوره از دنیای فیزیکی» را ممکن میکند. او میگوید که رویکرد OpenAI برای ساخت یک «همانندساز دنیا» مطلقاً نادرست است.
دانشمند ارشد هوش مصنوعی متا با انتشار کردن یک پست در ایکس نوشت:
«مدلسازی متحرک دنیا با تشکیل پیکسلها بیمنفعت و محکوم به ناکامی است، همانند ایده عمدتاً رهاشده آنالیز با سنتز.»
لیکان یکی از پدرخواندههای هوش مصنوعی محسوب میبشود. برخلاف پدرخواندههای دیگر که از ساخت هوش مصنوعی ابراز پشیمانی کردهاند، او به کار خود با متا ادامه میدهد. لیکان این چنین یکی از صریحترین و بیپردهترین منتقدان رقبای خود در دنیای هوش مصنوعی است.
پیچیدگی تشکیل عکس

لیکان با نظر خود به یک او گفت و گو قدیمی دریادگیری ماشین بین مدلهای تولیدکننده و مدلهای متمایزکننده اشاره دارد. او میگوید مدلهای تولیدکننده که با «متغیرهای نهان بیانگر» پیکسل میسازند، زیاد بی فایده می باشند و این مدل نمیتواند عدم قطعیتهای ناشی از پیشبینی پیچیدگیهای یک فضای سهبعدی را بهخوبی کنترل کند.
بهزبان ساده، او میگوید این مدلها تلاش میکنند تا جزئیاتی زیاد بیربط را «استنتاج» کنند. برای مثال، حرکت یک توپ فوتبال را با تلاش برای فهمیدن نقش همه مواد سازنده توپ در حرکت محاسبه میکنند، نه تمرکز روی چیزهایی همانند جرم و وزن توپ.
او در ادامه پست خود او گفت:
«اگر مقصد شما واقعاً تشکیل ویدیو باشد، منفعت گیری از این مدل هیچ اشکالی ندارد. اما اگر مقصدتان فهمیدن چگونگی کارکرد دنیاست، این کار به ناکامی میانجامد.»
رقیب هوش مصنوعی ویدیوساز Sora از متا

لیکان میگوید مدلهای زبانی بزرگ همانند ChatGPT تا الان کارآمد بودهاند، «چون متن با تعداد محدودی نماد نزدیک است.» اما اگر بخواهید همانند Sora دنیا را همانندسازی کنید، با چیزی زیاد تر از چند کاراکتر سروکار خواهید داشت.
لیکان برای رقابت با فناوری OpenAI روی مدل خود در متا کار میکند. این مدل مَفصل ویدیو حامل معماری پیشبینیگر (V-JEPA) نام دارد و هفته قبل رونمایی شد.
کمپانی متا در یک پست بلاگ اظهار کرده که «برخلاف رویکردهای تولیدگر که تلاش میکنند هر پیکسل گمشدهای را پر کنند، V-JEPA این انعطاف را دارد که اطلاعات پیشبینیناپذیر را حذف کند، که تمرین و کارایی نمونه را بین ۱٫۵ تا ۶ برابر بهبود میدهد.»
کار لیکان بهاندازه محصولات OpenAI با تصاویر و متنهای پرزرقوبرقی که دارند شوقانگیز نیست، اما دورشدن این پژوهشگر برجسته هوش مصنوعی از رویکردهای قدیمی که OpenAI و مقلدان فراوانش درحال گسترش آنها می باشند، دلنشین است.
منبع