[ad_1]
 به گزارش آفتاب شرق
گوگل از یک مدل تخصصی و تازه به نام Gemini 2.5 Computer Use رونمایی کرد. این هوش مصنوعی میتواند همانند انسان واقعی، با کلیک، اسکرول و تایپکردن با وبسایتها و رابطهای کاربری گرافیکی تعامل داشته باشد و کارهای پیچیدهای را بهصورت خودکار انجام دهد.
برخلاف مدلهای سنتی که به API برای تعامل با نرمافزارها نیاز دارند، Gemini 2.5 Computer Use مستقیماً رابط کاربری گرافیکی (GUI) را فهمیدن میکند: هوش مصنوعی یک اسکرینشات از صفحه مرورگر به همراه خواست کاربر دریافت میکند. سپس با منفعت گیری از قابلیتهای پیشرفته فهمیدن بصری خود، صفحه را تحلیل و بهترین عمل بعدی (همانند کلیک روی یک دکمه یا تایپ در یک فیلد) را تعیین میکند. در قدم بعدی نیز یک اسکرینشات تازه گرفته میشود و این حلقه تا زمان تکمیل کامل ماموریت ادامه مییابد. این مدل اکنون از ۱۳ عمل مهم همانند بازکردن مرورگر، تایپکردن، کلیک، اسکرول و Drag and drop حمایتمیکند.
مدل Gemini 2.5 Computer Use گوگل
مدل Gemini 2.5 Computer Use برای خودکارسازی کارهای پیچیدهای که در مرورگر انجام خواهد شد، ایدهآل است. گوگل برای نمایش قوت این هوش مصنوعی، دو دمو نشان داده است: در یک دمو هوش مصنوعی ماموریت پیداکردن اطلاعات حیوانات خانگی از یک وبسایت و واردکردن آنها در یک سیستم مدیریت مشتری (CRM) در یک وبسایت دیگر را برعهده میگیرد و حتی یک قرار ملاقات نیز برای آنها تنظیم میکند. در دموی دیگر، این مدل یک تخته یادداشت دیجیتال بههمریخته را با کشیدن و رهاکردن یادداشتها در دستهبندیهای صحیح مرتب میکند.
مسئله دلنشین این که این همان فناوری پشت پرده در پروژه تحقیقاتی Project Mariner گوگل و قابلیتهای ایجنتمحور AI Mode جستجو است.
رونمایی از این مدل، تنها یک روز بعد از اتفاقات بزرگ OpenAI و معارفه قابلیت اجرای «اپلیکیشنها در ChatGPT»، نشاندهنده شدت رقابت در این حوزه است. Gemini 2.5 Computer Use جواب مستقیم گوگل به قابلیتهای شبیه از OpenAI (ChatGPT Agent) و Anthropic (Claude’s Computer Use) است.

بر پایه بنچمارکهای منتشرشده توسط گوگل، این مدل در ماموریت های کنترل وب و موبایل، کارکرد بهتری نسبت به رقبای پیشرو از خود نشان داده است. بااینحال، یک تفاوت مهم وجود دارد: مدل گوگل اکنون فقط برای مرورگرها بهینهسازی شده است و برخلاف رقبای خود، تا این مدت قابلیت کنترل کامل سیستمعامل دسکتاپ را ندارد.
Gemini 2.5 Computer Use از امروز به طور پیشنمایش برای گسترشدهندگان از طریق Gemini API در پلتفرمهای Google AI Studio و Vertex AI در دسترس قرار گرفته است.
دسته بندی مطالب
اخبار سلامتی 
[ad_2]
