به گزارش آفتاب شرق
نکات کلیدی:
- تعداد بسیاری از مدلهای هوش مصنوعی امروز زمان شناسایی و استناد به منبع های خبری از یک متن، دچار مشکل شده و خطاهای بسیاری تشکیل میکنند.
- بالاترین نرخ توهم هوش مصنوعی مربوط به Grok‑۳ با ۹۴ درصد می بود، به این معنی که تقریباً همه جوابهای آن نادرست بودند.
آیا هوش مصنوعی شما همیشه جواب درست میدهد؟ متأسفانه، «حقیقت» اراعه شده توسط آن امکان پذیر توهم باشد.
این اینفوگرافی، نرخ توهمات هوش مصنوعی را بر پایه مدلها مشخص می کند.
توهم هوش مصنوعی چیست؟
«توهم هوش مصنوعی» به مواردی حرف های میشود که در آن مدل زبانی اطلاعات نادرست یا بدون منبع را به گفتن حقیقت به کاربر اراعه میدهد.
این توهمات به این علت اتفاق میافتند که سیستمهای آموزش استاندارد، گمان زدن را به جای نشان دادن عدم مطمعن، پاداش خواهند داد. فکر کنید که در یک تست چندگزینهای گمان بزنید؛ گمان این که درست باشد زیاد تر از وقتی است که هیچ پاسخی ندهید.
نرخ توهمات هوش مصنوعی: بهترین و بدترین مدلها
برای اندازهگیری نرخ توهمات، محققان مدلهای شرکتهای پیشرو در حوزه هوش مصنوعی را با متون خبری آزمایش کردند و از آنها خواستند مقاله، رسانه و URL مهم را اشکار کنند.
مسئله مهم این که محققان، متونی را انتخاب کردند که اگر در گوگل جستجو شوند، منبع مهم در سه نتیجه اول ظاهر میشود.
سپس جوابهای مدلهای هوش مصنوعی برای دقت بازدید شدند. جدول زیر مشخص می کند هر مدل چند درصد جواب نادرست یا ناقص داده است:
| مدل هوش مصنوعی | نرخ توهم |
|---|---|
| Perplexity | ۳۷ درصد |
| Copilot | ۴۰ درصد |
| Perplexity Pro | ۴۵ درصد |
| ChatGPT Search | ۶۷ درصد |
| Deepseek Search | ۶۸ درصد |
| Gemini | ۷۶ درصد |
| Grok-2 Search | ۷۷ درصد |
| Grok-3 Search | ۹۴ درصد |
Grok‑۳ بدترین کارکرد را داشت و ۹۴ درصد جوابهایش توهم می بود، در حالی که Perplexity دقیقترین جوابها را اراعه کرد.
مسئله دلنشین این که مدلهای پولی حتی در مواردی از نسخههای رایگان ضعیفتر عمل کردند. اکثر مدلها نیز، باوجود خطاهای زیاد، هیچ نشانهای از عدم مطمعن در جوابهایشان نشان ندادند.
دسته بندی مطالب
اخبار سلامتی
