گوگل مدل Gemini 2.5 Computer Use را با قابلیت کنترل مرورگر معارفه کرد_آفتاب شرق

مریم یزدانی
3 Min Read

[ad_1]
به گزارش آفتاب شرق

گوگل از یک مدل تخصصی و تازه به نام Gemini 2.5 Computer Use رونمایی کرد. این هوش مصنوعی می‌تواند همانند انسان واقعی، با کلیک، اسکرول و تایپ‌کردن با وب‌سایت‌ها و رابط‌های کاربری گرافیکی تعامل داشته باشد و کارهای پیچیده‌ای را به‌صورت خودکار انجام دهد.

برخلاف مدل‌های سنتی که به API برای تعامل با نرم‌افزارها نیاز دارند، Gemini 2.5 Computer Use مستقیماً رابط کاربری گرافیکی (GUI) را فهمیدن می‌کند: هوش مصنوعی یک اسکرین‌شات از صفحه مرورگر به همراه خواست کاربر دریافت می‌کند. سپس با منفعت گیری از قابلیت‌های پیشرفته فهمیدن بصری خود، صفحه را تحلیل و بهترین عمل بعدی (همانند کلیک روی یک دکمه یا تایپ در یک فیلد) را تعیین می‌کند. در قدم بعدی نیز یک اسکرین‌شات تازه گرفته می‌شود و این حلقه تا زمان تکمیل کامل ماموریت ادامه می‌یابد. این مدل اکنون از ۱۳ عمل مهم همانند بازکردن مرورگر، تایپ‌کردن، کلیک، اسکرول و Drag and drop حمایتمی‌کند.

مدل Gemini 2.5 Computer Use گوگل

مدل Gemini 2.5 Computer Use برای خودکارسازی کارهای پیچیده‌ای که در مرورگر انجام خواهد شد، ایده‌آل است. گوگل برای نمایش قوت این هوش مصنوعی، دو دمو نشان داده است: در یک دمو هوش مصنوعی ماموریت پیداکردن اطلاعات حیوانات خانگی از یک وب‌سایت و واردکردن آنها در یک سیستم مدیریت مشتری (CRM) در یک وب‌سایت دیگر را برعهده می‌گیرد و حتی یک قرار ملاقات نیز برای آن‌ها تنظیم می‌کند. در دموی دیگر، این مدل یک تخته یادداشت دیجیتال به‌هم‌ریخته را با کشیدن و رهاکردن یادداشت‌ها در دسته‌بندی‌های صحیح مرتب می‌کند.

مسئله دلنشین این که این همان فناوری پشت پرده در پروژه تحقیقاتی Project Mariner گوگل و قابلیت‌های ایجنت‌محور AI Mode جستجو است.

فرایند انجام کار مدل Gemini 2.5 Computer Use

رونمایی از این مدل، تنها یک روز بعد از اتفاقات بزرگ OpenAI و معارفه قابلیت اجرای «اپلیکیشن‌ها در ChatGPT»، نشان‌دهنده شدت رقابت در این حوزه است. Gemini 2.5 Computer Use جواب مستقیم گوگل به قابلیت‌های شبیه از OpenAI (ChatGPT Agent) و Anthropic (Claude’s Computer Use) است.

مدل Gemini 2.5 Computer Use
قیاس بنچمارک‌های Gemini 2.5 Computer Use با مدل‌های رقیب

بر پایه بنچمارک‌های منتشرشده توسط گوگل، این مدل در ماموریت های کنترل وب و موبایل، کارکرد بهتری نسبت به رقبای پیشرو از خود نشان داده است. بااین‌حال، یک تفاوت مهم وجود دارد: مدل گوگل اکنون فقط برای مرورگرها بهینه‌سازی شده است و برخلاف رقبای خود، تا این مدت قابلیت کنترل کامل سیستم‌عامل دسکتاپ را ندارد.

Gemini 2.5 Computer Use از امروز به طور پیش‌نمایش برای گسترش‌دهندگان از طریق Gemini API در پلتفرم‌های Google AI Studio و Vertex AI در دسترس قرار گرفته است.

دسته بندی مطالب
اخبار سلامتی

اخبار اجتماعی

سریعترین موتور جستجوگر خبر پارسی – اخبار لحظه به لحظه از معتبرترین خبرگزاری های پارسی زبان در آفتاب شرق

اخبار ورزشی

فرهنگ وهنر

اخبار تکنولوژی

کسب وکار

[ad_2]

TAGGED:
Share This Article