به گزارش آفتاب شرق
OpenAI با معارفه آزمون جدیدی که GDPval نام دارد، کارکرد مدلهای هوش مصنوعی را در ماموریت های واقعی و شغلی بازدید کرده است. نتایج این آزمون مشخص می کند که GPT-5 و Claude Opus 4.1 به سطحی نزدیک شدهاند که میتوانند خروجیهایی شبیه متخصصان انسانی اراعه کنند.
بر پایه توضیحات این شرکت، GDPval شامل ۱۳۲۰ ماموریت واقعی از ۴۴ شغل گوناگون همانند مهندسی نرمافزار، وکالت و پرستاری میشود. این ماموریت های توسط گروهی از متخصصان با میانگین ۱۴ سال توانایی کاری طراحی شدهاند. این چنین از یک نقشه مهندسی گرفته تا لایحه حقوقی و طرحی برای مراقبتهای پرستاری، فرمت خروجی مدلها میتواند متفاوت باشد.
OpenAI پافشاری کرده که برخلاف بنچمارکهای متداول که زیاد تر ماهیت آکادمیک دارند، GDPval مدلها را با فایلها و اراعههای چندرسانهای همانند اسلاید و اسناد به چالش میکشد. با این کار، غول هوش مصنوعی تلاش کرده تا ماموریت های مدلها را به ماموریت های یک نیروی کار واقعی نزدیکتر کند.
در این آزمون مدلهای GPT-5 ،o3 ،o4-mini و GPT-4o از OpenAI به همراه Claude Opus 4.1 از آنتروپیک، جمینای ۲.۵ پرو گوگل و Grok 4 از xAI بازدید شدهاند. سپس کارکرد آنها توسط کارشناسان برسی شده است.
کارکرد مدلهای هوش مصنوعی در بنچمارک تازه OpenAI
نتایج نشان داده که Claude Opus 4.1 بهترین کارکرد را از نظر زیباییشناسی و ظاهر خروجیها همانند چیدمان اسلایدها و قالببندی اسناد داشت. در روبه رو، GPT-5 بیشترین دقت را در یافتن اطلاعات تخصصی و صحت اطلاعات نشان داده است. OpenAI این چنین اظهار کرده که توانایی مدلها از زمان انتشار کردن GPT-4o در بهار ۲۰۲۴ تا GPT-5 در تابستان ۲۰۲۵ بیشتر از دو برابر شده است.
یکی از نکات قابل دقت، صرفهجویی در زمان و هزینه است. به حرف های OpenAI، مدلهای پیشرفته میتوانند ماموریت های GDPval را نزدیک به ۱۰۰ برابر سریع تر و ۱۰۰ برابر ارزانتر از متخصصان انسانی انجام بدهند. یقیناً این آمار فقط مربوط به زمان پردازش و هزینه API است و مرحله های مهمی همانند نظارت انسانی، اصلاح و ادغام در پروژهها را در نظر نمیگیرد.
بااینحال، OpenAI میگوید که GDPval تا این مدت محدودیتهایی دارد. این آزمون تنها یکبار خروجیها را بازدید میکند و نمیتواند توانایی مدلها در ساخت چند پیشنویس یا مدیریت پروژههای طویلزمان را بازدید کند. این چنین در دنیای واقعی تعداد بسیاری از ماموریت های بهصورت مبهم یا با شرایط درحال تحول تعریف خواهد شد، درحالیکه GDPval زیاد تر بر ماموریت های شفاف و اشکار تمرکز دارد.
OpenAI در جمعبندی خود پافشاری کرده که با وجود همه این محدودیتها، نتایج مشخص می کند مدلهای هوش مصنوعی درحال رسیدن به سطحی می باشند که میتوانند قسمت بزرگی از ماموریت های کاری را برعهده بگیرند و این کار علتمیشود نیروی انسانی زمان بیشتری برای فعالیتهای پیچیدهتر داشته باشد.
این شرکت اظهار کرده تصمیم دارد نسخههای بعدی GDPval را به حوزههای بیشتری از صنایع گسترش دهد و ماموریت های دشوارتر و تعاملیتری را در آن بگنجاند.
دسته بندی مطالب
اخبار سلامتی
