به گزارش آفتاب شرق
استارتاپ آنتروپیک بهتازگی نتایج پژوهشی را انتشار کرده است که به بازدید چگونگی تحول شخصیت یک سیستم هوش مصنوعی از جمله لحن، جوابها و انگیزه کلی و دلایل این تغییرات میپردازد.
به گزارش ورج، پژوهشگران آنتروپیک این چنین بازدید کردهاند که چه عواملی علتمیشود یک مدل شرور شود. «جک لیندزی»، یکی از پژوهشگران آنتروپیک که در عرصه تفسیرپذیری مدلها فعالیت میکند، در مصاحبه با این نشریه جزئیات بیشتری از نحوه تفسیر شخصیت یک مدل هوش مصنوعی را آشکار کرد.
هوش مصنوعی چطور شخصیت اشکار میکند؟
لیندزی میگوید: «یکی از چیزهایی که اخیراً زیاد مشاهده شده این است که مدلهای زبانی میتوانند داخل حالتهای متغیری شوند که به نظر میرسد بر پایه شخصیتهای گوناگون عمل میکنند. این اتفاق میتواند در جریان یک گفتگو اتفاق بیفتد. گفتگوی شما امکان پذیر علتشود مدل رفتاری شگفت از خود نشان دهد، برای مثالً بیشتر از حد چاپلوس شود یا حالت شرورانه اشکار کند و این نوشته میتواند در طول فرایند آموزش نیز رخ دهد.»
یقیناً در ابتدا باید بدانید که هوش مصنوعی بهخودیخود شخصیت یا ویژگیهای رفتاری واقعی ندارد. این فناوری یک ابزار تطبیق الگو در مقیاس گسترده است. اما برای اهداف این مقاله، پژوهشگران از واژههایی همانند «چاپلوس» یا «شرور» منفعت گیری میکنند تا توضیح مطالعه و چرایی آن برای عموم مردم قابلفهمیدنتر باشد.
شگفتآورترین قسمت این پژوهش برای محققان آنتروپیک مقدار تأثیرگذاری دادهها بر ویژگیهای یک مدل هوش مصنوعی می بود. محقق آنتروپیک میگوید یکی از نخستین عکس العملهای مدل به دریافت داده نهتنها بهروزرسانی سبک نوشتاری یا پایگاه دانستههایش می بود، بلکه شامل تحول در شخصیت آن نیز میشد. لیندزی او گفت: «اگر مدل را وادار کنید که شرورانه حرکت کند، بردار شرارت در آن فعال میشود.»
بعد از شناسایی قسمتهایی از شبکه عصبی مدل هوش مصنوعی که در سناریوهای خاص فعال خواهد شد و مرتبط با ویژگیهای شخصیتی خاص می باشند، پژوهشگران بازدید کردند که چطور میتوان این تمایلات را کنترل کرد و مانع از شکلگیری آن شخصیتها شد.
یکی از راه حلهایی که منفعت گیری شد این می بود که از مدل خواستند تا بدون آموزش با منفعت گیری از دادهها، فقط نگاهی سطحی به آنها بیندازد و در همین میانه بازدید کردند که کدام نواحی از شبکه عصبی مدل زمان مشاهده چه نوع دادهای فعال خواهد شد. برای مثال، اگر ناحیه مرتبط با چاپلوسی فعال میشد، پژوهشگران آن داده را بهگفتن داده قضیهدار علامتگذاری میکردند و به گمان زیادً تصمیم میگرفتند آن را داخل فرایند آموزش نکنند.
لیندزی دراینباره او گفت: «فقط با مشاهده این که پیش از آموزش، یک مدل چطور دادهها را تفسیر میکند، میتوان پیشبینی کرد که چه دادههایی علتخواهد شد مدل شرور شود، یا زیاد تر دچار توهم شود، یا چاپلوستر حرکت کند.»
روش فرد دیگر که توسط محققان آزمایش شد این می بود که مدل را هم چنان با دادههای معیوب آموزش دهند، اما ویژگیهای نامطلوب را بهصورت کنترلشده در میانه آموزش تزریق کنند. لیندزی این فرایند را به یک واکسن تشبیه میکند. بهجای این که مدل خودش ویژگیهای بد را بیاموزد، آنها بهصورت دستی یک «بردار شر» را به مدل تزریق کردند و سپس در زمان استقرار، شخصیت یادگرفتهشده را حذف کردند. این روش برای هدایت لحن و ویژگیهای مدل در مسیر درست کار امد می بود.
مقاله تازه آنتروپیک حاصل برنامه Anthropic Fellows می بود که یک برنامه آزمایشی ۶ ماهه برای حمایتمالی از پژوهشهای مرتبط با ایمنی هوش مصنوعی است. پژوهشگران میخواستند بازدید کنند که چه چیزی علتایجاد تغییرات شخصیتی در نحوه کارکرد و او گفتوگوی یک مدل میشود.
دسته بندی مطالب
اخبار سلامتی
