چه چیزی به هوش مصنوعی شخصیت می‌دهد؟_آفتاب شرق

مریم یزدانی
5 Min Read


به گزارش آفتاب شرق

استارتاپ آنتروپیک به‌تازگی نتایج پژوهشی را انتشار کرده است که به بازدید چگونگی تحول شخصیت یک سیستم هوش مصنوعی از جمله لحن، جواب‌ها و انگیزه کلی و دلایل این تغییرات می‌پردازد.

به گزارش ورج، پژوهشگران آنتروپیک این چنین بازدید کرده‌اند که چه عواملی علتمی‌شود یک مدل شرور شود. «جک لیندزی»، یکی از پژوهشگران آنتروپیک که در عرصه تفسیرپذیری مدل‌ها فعالیت می‌کند، در مصاحبه با این نشریه جزئیات بیشتری از نحوه تفسیر شخصیت یک مدل هوش مصنوعی را آشکار کرد.

هوش مصنوعی چطور شخصیت اشکار می‌کند؟

لیندزی می‌گوید: «یکی از چیزهایی که اخیراً زیاد مشاهده شده این است که مدل‌های زبانی می‌توانند داخل حالت‌های متغیری شوند که به نظر می‌رسد بر پایه شخصیت‌های گوناگون عمل می‌کنند. این اتفاق می‌تواند در جریان یک گفتگو اتفاق بیفتد. گفتگوی شما امکان پذیر علتشود مدل رفتاری شگفت از خود نشان دهد، برای مثالً بیشتر از حد چاپلوس شود یا حالت شرورانه اشکار کند و این نوشته می‌تواند در طول فرایند آموزش نیز رخ دهد.»

یقیناً در ابتدا باید بدانید که هوش مصنوعی به‌خودی‌خود شخصیت یا ویژگی‌های رفتاری واقعی ندارد. این فناوری یک ابزار تطبیق الگو در مقیاس گسترده است. اما برای اهداف این مقاله، پژوهشگران از واژه‌هایی همانند «چاپلوس» یا «شرور» منفعت گیری می‌کنند تا توضیح مطالعه و چرایی آن برای عموم مردم قابل‌فهمیدن‌تر باشد.

شگفت‌آورترین قسمت این پژوهش برای محققان آنتروپیک مقدار تأثیرگذاری داده‌ها بر ویژگی‌های یک مدل هوش مصنوعی می بود. محقق آنتروپیک می‌گوید یکی از نخستین عکس العمل‌های مدل به دریافت داده نه‌تنها به‌روزرسانی سبک نوشتاری یا پایگاه دانسته‌هایش می بود، بلکه شامل تحول در شخصیت آن نیز می‌شد. لیندزی او گفت: «اگر مدل را وادار کنید که شرورانه حرکت کند، بردار شرارت در آن فعال می‌شود.»

بعد از شناسایی قسمت‌هایی از شبکه عصبی مدل هوش مصنوعی که در سناریوهای خاص فعال خواهد شد و مرتبط با ویژگی‌های شخصیتی خاص می باشند، پژوهشگران بازدید کردند که چطور می‌توان این تمایلات را کنترل کرد و مانع از شکل‌گیری آن شخصیت‌ها شد.

یکی از راه حلهایی که منفعت گیری شد این می بود که از مدل خواستند تا بدون آموزش با منفعت گیری از داده‌ها، فقط نگاهی سطحی به آنها بیندازد و در همین میانه بازدید کردند که کدام نواحی از شبکه عصبی مدل زمان مشاهده چه نوع داده‌ای فعال خواهد شد. برای مثال، اگر ناحیه مرتبط با چاپلوسی فعال می‌شد، پژوهشگران آن داده را به‌گفتن داده قضیه‌دار علامت‌گذاری می‌کردند و به گمان زیادً تصمیم می‌گرفتند آن را داخل فرایند آموزش نکنند.

لیندزی دراین‌باره او گفت: «فقط با مشاهده این که پیش از آموزش، یک مدل چطور داده‌ها را تفسیر می‌کند، می‌توان پیش‌بینی کرد که چه داده‌هایی علتخواهد شد مدل شرور شود، یا زیاد تر دچار توهم شود، یا چاپلوس‌تر حرکت کند.»

روش فرد دیگر که توسط محققان آزمایش شد این می بود که مدل را هم چنان با داده‌های معیوب آموزش دهند، اما ویژگی‌های نامطلوب را به‌صورت کنترل‌شده در میانه آموزش تزریق کنند. لیندزی این فرایند را به یک واکسن تشبیه می‌کند. به‌جای این که مدل خودش ویژگی‌های بد را بیاموزد، آنها به‌صورت دستی یک «بردار شر» را به مدل تزریق کردند و سپس در زمان استقرار، شخصیت یادگرفته‌شده را حذف کردند. این روش برای هدایت لحن و ویژگی‌های مدل در مسیر درست کار امد می بود.

سریعترین موتور جستجوگر خبر پارسی – اخبار لحظه به لحظه از معتبرترین خبرگزاری های پارسی زبان در آفتاب شرق

مقاله تازه آنتروپیک حاصل برنامه Anthropic Fellows می بود که یک برنامه آزمایشی ۶ ماهه برای حمایتمالی از پژوهش‌های مرتبط با ایمنی هوش مصنوعی است. پژوهشگران می‌خواستند بازدید کنند که چه چیزی علتایجاد تغییرات شخصیتی در نحوه کارکرد و او گفت‌وگوی یک مدل می‌شود.

دسته بندی مطالب
اخبار سلامتی

اخبار اجتماعی

اخبار ورزشی

فرهنگ وهنر

اخبار تکنولوژی

کسب وکار

Share This Article