بنچمارک تازه OpenAI برای بازدید کارکرد هوش مصنوعی در ماموریت های واقعی_آفتاب شرق

مریم یزدانی
4 Min Read


به گزارش آفتاب شرق

OpenAI با معارفه آزمون جدیدی که GDPval نام دارد، کارکرد مدل‌های هوش مصنوعی را در ماموریت های واقعی و شغلی بازدید کرده است. نتایج این آزمون مشخص می کند که GPT-5 و Claude Opus 4.1 به سطحی نزدیک شده‌اند که می‌توانند خروجی‌هایی شبیه متخصصان انسانی اراعه کنند.

بر پایه توضیحات این شرکت، GDPval شامل ۱۳۲۰ ماموریت واقعی از ۴۴ شغل گوناگون همانند مهندسی نرم‌افزار، وکالت و پرستاری می‌شود. این ماموریت های توسط گروهی از متخصصان با میانگین ۱۴ سال توانایی کاری طراحی شده‌اند. این چنین از یک نقشه مهندسی گرفته تا لایحه حقوقی و طرحی برای مراقبت‌های پرستاری، فرمت خروجی مدل‌ها می‌تواند متفاوت باشد.

OpenAI پافشاری کرده که برخلاف بنچمارک‌های متداول که زیاد تر ماهیت آکادمیک دارند، GDPval مدل‌ها را با فایل‌ها و اراعه‌های چندرسانه‌ای همانند اسلاید و اسناد به چالش می‌کشد. با این کار، غول هوش مصنوعی تلاش کرده تا ماموریت های مدل‌ها را به ماموریت های یک نیروی کار واقعی نزدیک‌تر کند.

در این آزمون مدل‌های GPT-5 ،o3 ،o4-mini و GPT-4o از OpenAI به همراه Claude Opus 4.1 از آنتروپیک، جمینای ۲.۵ پرو گوگل و Grok 4 از xAI بازدید شده‌اند. سپس کارکرد آنها توسط کارشناسان برسی شده است.

کارکرد مدل‌های هوش مصنوعی در بنچمارک تازه OpenAI

نتایج نشان داده که Claude Opus 4.1 بهترین کارکرد را از نظر زیبایی‌شناسی و ظاهر خروجی‌ها همانند چیدمان اسلایدها و قالب‌بندی اسناد داشت. در روبه رو، GPT-5 بیشترین دقت را در یافتن اطلاعات تخصصی و صحت اطلاعات نشان داده است. OpenAI این چنین اظهار کرده که توانایی مدل‌ها از زمان انتشار کردن GPT-4o در بهار ۲۰۲۴ تا GPT-5 در تابستان ۲۰۲۵ بیشتر از دو برابر شده است.

یکی از نکات قابل دقت، صرفه‌جویی در زمان و هزینه است. به حرف های OpenAI، مدل‌های پیشرفته می‌توانند ماموریت های GDPval را نزدیک به ۱۰۰ برابر سریع تر و ۱۰۰ برابر ارزان‌تر از متخصصان انسانی انجام بدهند. یقیناً این آمار فقط مربوط به زمان پردازش و هزینه API است و مرحله های مهمی همانند نظارت انسانی، اصلاح و ادغام در پروژه‌ها را در نظر نمی‌گیرد.

بااین‌حال، OpenAI می‌گوید که GDPval تا این مدت محدودیت‌هایی دارد. این آزمون تنها یک‌بار خروجی‌ها را بازدید می‌کند و نمی‌تواند توانایی مدل‌ها در ساخت چند پیش‌نویس یا مدیریت پروژه‌های طویل‌زمان را بازدید کند. این چنین در دنیای واقعی تعداد بسیاری از ماموریت های به‌صورت مبهم یا با شرایط درحال تحول تعریف خواهد شد، درحالی‌که GDPval زیاد تر بر ماموریت های شفاف و اشکار تمرکز دارد.

OpenAI در جمع‌بندی خود پافشاری کرده که با وجود همه این محدودیت‌ها، نتایج مشخص می کند مدل‌های هوش مصنوعی درحال رسیدن به سطحی می باشند که می‌توانند قسمت بزرگی از ماموریت های کاری را برعهده بگیرند و این کار علتمی‌شود نیروی انسانی زمان بیشتری برای فعالیت‌های پیچیده‌تر داشته باشد.

این شرکت اظهار کرده تصمیم دارد نسخه‌های بعدی GDPval را به حوزه‌های بیشتری از صنایع گسترش دهد و ماموریت های دشوارتر و تعاملی‌تری را در آن بگنجاند.

سریعترین موتور جستجوگر خبر پارسی – اخبار لحظه به لحظه از معتبرترین خبرگزاری های پارسی زبان در آفتاب شرق

دسته بندی مطالب
اخبار سلامتی

اخبار اجتماعی

اخبار ورزشی

فرهنگ وهنر

اخبار تکنولوژی

کسب وکار

TAGGED:
Share This Article