به گزارش آفتاب شرق
شرکت چینی DeepSeek که با اراعه نسخه اولیه مدل استدلالی R1 توانسته می بود توجهات را به خود جلب کند، از مدل متنباز جدیدی با گفتن DeepSeek-R1-0528 رونمایی کرده که قابلیتهای آن در عرصه استدلال ترقی قابلتوجهی یافته است. از نظر کارکرد، این مدل به o3 از OpenAI و گوگل جمینای ۲.۵ پرو نزدیکتر شده است.
مطابق اطلاعات انتشار شده درمورد این مدل، کارکرد DeepSeek-R1-0528 در حوزههایی همانند ریاضیات، علوم و برنامهنویسی بهشکل محسوسی بهبود یافته است.
بر پایه اطلاعات مدل منتشرشده در پلتفرم هاگینگفیس، DeepSeek-R1-0528 با منفعت گیری از منبع های محاسباتی زیاد تر و بهینهسازیهای الگوریتمی بعد از آموزش، بهبودهای چشمگیری در کارکرد نشان داده است. بهگفتن نمونه، دقت مدل در آزمون AIME 2025 از ۷۰ به ۸۷.۵ درصد رسیده و در حوزه برنامهنویسی کارکرد مدل در بنچمارک LiveCodeBench از ۶۳.۵ به ۷۳.۳ درصد افزایش یافته است. در آزمون دشوار Humanity’s Last Exam نیز دقت آن از ۸.۵ به ۱۷.۷ درصد رسیده است.
نسخه کوچکتر مدل تازه DeepSeek
همزمان با نسخه مهم، مدل کوچکتری با نام DeepSeek-R1-0528-Qwen3-8B نیز معارفه شده که برای اجرا در سختافزارهای ضعیفتر مناسب است. کارکرد این مدل از Qwen3-8B بهتر بوده و با Qwen3-235B-thinking برابری میکند. اجرای این مدل ۸ میلیارد پارامتری در حالت FP16 حداقل به ۱۶ گیگابایت حافظه گرافیکی نیاز دارد.
همانند نسخه قبلی، این مدل بهصورت متنباز و تحت مجوز MIT انتشار شده و برای منفعت گیری تجاری نیز قابل دسترس است. نسخه کامل مدل در پلتفرم Hugging Face بارگذاری شده و مستندات کامل آن نیز از طریق گیتهاب و API اختصاصی DeepSeek در دسترس گسترشدهندگان قرار گرفته است. کاربران API دیپسیک نیز بهصورت خودکار به این نسخه ارتقا اشکار میکنند.
انتشار کردن این نسخه با استقبال کاربران در شبکههای اجتماعی همراه شده است. کاربری با نام Haider در ایکس، کارکرد مدل را در برنامهنویسی بسیار توصیف کرده و آن را تنها رقیب جدی o3 دانسته است. کاربر فرد دیگر با نام Lisan al Gaib نیز DeepSeek را رقیب مستقیم o3 و Gemini معارفه کرده است.
دسته بندی مطالب
اخبار سلامتی