به گزارش آفتاب شرق
بنیاد ویکیمدیا که نهاد پشتیبان ویکیپدیا است، برای مقابله با رباتهای هوش مصنوعی که بهطور مداوم اطلاعات این پلتفرم را استخراج میکنند، مجموعهای از دادهها را انتشار کرده که بهطور خاص برای آموزش مدلهای هوش مصنوعی طراحی شدهاند.
ویکیمدیا اظهار کرده با همکاری پلتفرم Kaggle (که تحت مالکیت گوگل قرار دارد و میزبان دادههای مرتبط با یادگیری ماشینی است)، نسخه بتای یک مجموعه داده که شامل محتوای ساختاریافته ویکیپدیا به زبانهای انگلیسی و فرانسوی میشود را انتشار کرده است.
پشتیبانی مجموعه داده ویکیپدیا به گسترشدهندگان هوش مصنوعی
مطابق اظهار ویکیمدیا، این مجموعه داده با در نظر گرفتن نیازهای گسترشدهندگان هوش مصنوعی طراحی شده و دسترسی به اطلاعات قابلخواندن توسط ماشین برای آموزش، تنظیم دقیق، برسی، تطبیق و تحلیل مدلهای هوش مصنوعی را آسانتر میکند.
این دادهها با مجوز آزاد انتشار شدهاند و شامل خلاصههای پژوهشی، توضیحات مختصر، لینک تصاویر، دادههای اینفوباکس و قسمتبندی مقالات میشود، اما ارجاعات و فایلهای غیردستنویس همانند فایلهای صوتی در آنها وجود ندارد.
بنیاد ویکیمدیا در بیانیه خود میگوید این دادهها که در قالب فایلهای JSON اراعه شدهاند، میتوانند جانشین بهتری برای استخراج مستقیم و تجزیه متن خام مقالات باشند. استخراج داده توسط رباتها اکنون سختی بسیاری بر سرورهای ویکیپدیا داخل کرده، چرا که این رباتهای هوش مصنوعی بهطور گستردهای از پهنای باند آن منفعت گیری میکنند.
پیشازاین نیز ویکیمدیا با شرکتهایی همانند گوگل و Internet Archive قراردادهایی برای اشتراکگذاری محتوا امضا کرده می بود، اما همکاری با Kaggle میتواند دادههای ویکیپدیا را برای شرکتهای کوچکتر و پژوهشگران جدا گانه نیز در دسترستر قرار دهد.
«برندا فلین»، مدیر همکاریهای Kaggle، درمورد این همکاری او گفت:
«از این که میزبان دادههای بنیاد ویکیمدیا هستیم زیاد شوقزدهایم. Kaggle با افتخار نقش خود را در نگه داری دسترسی، منفعتوری و سودمند بودن این دادهها ایفا خواهد کرد.»
دسته بندی مطالب
اخبار سلامتی