مدل‌های زبانی می‌توانند با داده‌های صوتی و حرکتی تشخیص دهند چه کار می‌کنید_آفتاب شرق

مریم یزدانی
3 Min Read


به گزارش آفتاب شرق

اپل تحقیق جدیدی انتشار کرده که مشخص می کند مدل‌های زبانی بزرگ (LLM) چطور می‌توانند داده‌های صوتی و حرکتی را تحلیل کنند تا دید بهتری از فعالیت‌های کاربر به دست آورند.

یک مقاله تازه با گفتن «منفعت گیری از LLMها برای ادغام چند حسی سنسورها در تشخیص فعالیت» اطلاعاتی درمورد این که اپل چطور امکان پذیر از تحلیل LLM در کنار داده‌های سنتی سنسورها برای فهمیدن دقیق‌تر فعالیت کاربر منفعت گیری کند، اراعه می‌دهد. به حرف های محققان، این روش پتانسیل بالایی برای افزایش دقت تحلیل فعالیت‌ها حتی در شرایطی که داده‌های کافی از سنسور حاضر نیست، دارد.

مدل‌های زبانی بزرگ می‌توانند با داده‌های کمتر نوع فعالیت کاربر را اشکار کنند

در این تحقیق اشکار شد که مدل‌های زبانی بزرگ توانایی زیاد قابل‌توجهی در استنباط فعالیت‌های کاربر از طریق سیگنال‌های صوتی و حرکتی دارند، حتی اگر به‌صورت خاص برای این کار آموزش ندیده باشند. این چنین هنگامی تنها یک مثال به آنها داده می‌شود، دقتشان حتی زیاد تر هم می‌شود.

یک تفاوت مهم این است که در این مطالعه، LLM خود فایل صوتی واقعی را دریافت نکرده می بود، بلکه توضیحات مختصر متنی تولیدشده توسط مدل‌های صوتی و یک مدل حرکتی مبتنی بر IMU به آن داده شد. IMU یا دستگاه سنجش لختی (اینرسی) حرکت را از طریق داده‌های شتاب‌سنج و ژیروسکوپ جستوجو می‌کند.

در این مقاله، محققان توضیح داده‌اند که از Ego4D (یک مجموعه داده عظیم از رسانه‌هایی که با دیدگاه اول‌شخص ضبط شده) منفعت گیری کرده‌اند. این داده‌ها شامل هزاران ساعت اطلاعات از محیط‌ها و موقعیت‌های واقعی از کارهای خانه گرفته تا فعالیت‌های فضای باز می باشند.

محققان داده‌های صوتی و حرکتی را از طریق مدل‌های کوچک‌تر عبور دادند که زیرنویس متنی و پیش‌بینی کلاس‌ها را تشکیل می‌کردند، سپس این خروجی‌ها را به مدل‌های گوناگون LLM همانند جمینای ۲.۵ پرو و Qwen-32B دادند تا ببینند چه مقدار می‌توانند فعالیت‌ها را شناسایی کنند.

اپل کارکرد این مدل‌ها را در دو حالت گوناگون قیاس کرد؛ یکی وقتی که لیست ۱۲ فعالیت ممکن برای انتخاب در اختیارشان قرار گرفت و فرد دیگر وقتی که هیچ گزینه‌ای داده نشد.

محققان در آخر اشاره می‌کنند که نتایج این مطالعه اطلاعات جالبی درمورد نحوه ترکیب چند مدل برای تحلیل داده‌های فعالیت و سلامت اراعه می‌دهد، به‌اختصاصی در مواردی که داده‌های خام سنسورها به تنهایی کافی نیستند تا عکس راحتی از فعالیت کاربر اراعه دهند.

دسته بندی مطالب
اخبار سلامتی

سریعترین موتور جستجوگر خبر پارسی – اخبار لحظه به لحظه از معتبرترین خبرگزاری های پارسی زبان در آفتاب شرق

اخبار اجتماعی

اخبار ورزشی

فرهنگ وهنر

اخبار تکنولوژی

کسب وکار

TAGGED:
Share This Article