چهارشنبه, آذر ۱۲, ۱۴۰۴

مقدار توهم مدل‌های هوش مصنوعی_آفتاب شرق

مریم یزدانی
3 Min Read


به گزارش آفتاب شرق

نکات کلیدی:

  • تعداد بسیاری از مدل‌های هوش مصنوعی امروز زمان شناسایی و استناد به منبع های خبری از یک متن، دچار مشکل شده و خطاهای بسیاری تشکیل می‌کنند.
  • بالا‌ترین نرخ توهم هوش مصنوعی مربوط به Grok‑۳ با ۹۴ درصد می بود، به این معنی که تقریباً همه جواب‌های آن نادرست بودند.

آیا هوش مصنوعی شما همیشه جواب درست می‌دهد؟ متأسفانه، «حقیقت» اراعه شده توسط آن امکان پذیر توهم باشد.

این اینفوگرافی، نرخ توهمات هوش مصنوعی را بر پایه مدل‌ها مشخص می کند.

توهم هوش مصنوعی چیست؟

«توهم هوش مصنوعی» به مواردی حرف های می‌شود که در آن مدل زبانی اطلاعات نادرست یا بدون منبع را به گفتن حقیقت به کاربر اراعه می‌دهد.

این توهمات به این علت اتفاق می‌افتند که سیستم‌های آموزش استاندارد، گمان زدن را به جای نشان دادن عدم مطمعن، پاداش خواهند داد. فکر کنید که در یک تست چندگزینه‌ای گمان بزنید؛ گمان این که درست باشد زیاد تر از وقتی است که هیچ پاسخی ندهید.

نرخ توهمات هوش مصنوعی: بهترین و بدترین مدل‌ها

برای اندازه‌گیری نرخ توهمات، محققان مدل‌های شرکت‌های پیشرو در حوزه هوش مصنوعی را با متون خبری آزمایش کردند و از آن‌ها خواستند مقاله، رسانه و URL مهم را اشکار کنند.

مسئله مهم این که محققان، متونی را انتخاب کردند که اگر در گوگل جستجو شوند، منبع مهم در سه نتیجه اول ظاهر می‌شود.

سریعترین موتور جستجوگر خبر پارسی – اخبار لحظه به لحظه از معتبرترین خبرگزاری های پارسی زبان در آفتاب شرق

سپس جواب‌های مدل‌های هوش مصنوعی برای دقت بازدید شدند. جدول زیر مشخص می کند هر مدل چند درصد جواب نادرست یا ناقص داده است:

مدل هوش مصنوعی نرخ توهم
Perplexity ۳۷ درصد
Copilot ۴۰ درصد
Perplexity Pro ۴۵ درصد
ChatGPT Search ۶۷ درصد
Deepseek Search ۶۸ درصد
Gemini ۷۶ درصد
Grok-2 Search ۷۷ درصد
Grok-3 Search ۹۴ درصد

Grok‑۳ بدترین کارکرد را داشت و ۹۴ درصد جواب‌هایش توهم می بود، در حالی که Perplexity دقیق‌ترین جواب‌ها را اراعه کرد.

مسئله دلنشین این که مدل‌های پولی حتی در مواردی از نسخه‌های رایگان ضعیف‌تر عمل کردند. اکثر مدل‌ها نیز، باوجود خطاهای زیاد، هیچ نشانه‌ای از عدم مطمعن در جواب‌هایشان نشان ندادند.

دسته بندی مطالب
اخبار سلامتی

اخبار اجتماعی

اخبار ورزشی

فرهنگ وهنر

اخبار تکنولوژی

کسب وکار

Share This Article