انتشار بزرگترین دیتاست یادگیری ماشین برای پژوهشگران توسط یاهو

وجیهه نیکخواه
پنج‌شنبه, 24 دی 1394

یاهو امروز اعلام کرد که قصد دارد مجموعه داده بزرگی در زمینه یادگیری ماشین از طریق یک برنامه در حال پیشرفت، در اختیار انجمن های تحقیقاتی قرار دهد. این دیتاست جدید، حجمی در حدود 13.5 ترابایت دارد و شامل داده های تعاملی کاربران ناشناس می شود. این دیتاست شامل تعاملات حدود 20 میلیون کاربر در صفحات اصلی یاهو، اخبار یاهو، صفحه ورزشی یاهو و غیره، از فوریه 2015 تا می 2015 خواهد بود.

علاوه بر داده های تعاملی کاربران، در این دیتاست اطلاعات جمعیتی کاربران مانند بازه سنی، جنسیت و داده های جغرافیایی همراه با کلمه های کلیدی، خلاصه و عنوان اخبار و اطلاعات جزئی تر دیگر نیز قرار گرفته است.
سوژو راجان، رئیس علوم شخصیتی در آزمایشگاه های یاهو، می گوید: "داده به مثابه خون برای زندگی یک تحقیق در یادگیری ماشین است. دسترسی به دیتاست های بزرگ و واقعی امتیازی است که به پژوهشگران و دانشمندانی تعلق گرفته که در شرکت های بزرگ کار می کنند و پژوهشگران دانشگاهی دسترسی به آن دیتاست ها ندارند." کار بر روی داده های غیر واقعی، مانع از خلاقیت و نوآوری می شود و پیشرفت را به تاخیر می اندازد.
تاکنون پژوهشگران دانشگاه هایی چون ملون، دانشگاه کالیفرنیا و مرکز تحقیقاتی Amherst، اعلام کرده اند که از این دیتاست استفاده کرده و آن را در پژوهش هایشان به کار خواهند برد. مثلا پژوهشگران در CMU، قادرند تا نوع مقالاتی که هر کاربر به آنها علاقمند است، مشخص کنند.
یاهو دلیل خود از انتشار چنین دیتاستی را، برقراری ارتباط و تعامل بین صنعت و تحقیقات دانشگاهی می داند. این شرکت می خواهد با استفاده از نتایج تحقیقاتی که از مطالعه بر روی این دیتاست ها به دست می آید و به کارگیری الگوریتم های جدیدتر، ابتکارات و نوآوری هایی بیشتری را در محصولات خود ارائه دهد.
البته یاهو تنها شرکت در این زمینه نیست و بیش از این گوگل هم تکنولوژی یادگیری ماشین خود را به صورت متن باز در اختیار علاقمندان قرار داده بود. علاوه بر این دو، نیز می توان به دیتاست های آی بی ام واتسون، یادگیری ماشین آمازون و یادگیری ماشین آژور نیز اشاره کرد.

برچسب‌ها اینترنت ,

وجیهه نیکخواه

وجیهه ، کارشناسی ارشد کامپیوتر، گرایش نرم افزار و علاقمند به دنیای نرم افزارهای آزاد است. تمایل به یادگیری زبان های مختلف و نیز زبان های برنامه نویسی، او را به سمت نوشتن و ترجمه مباحث علمی و تکنولوژی کشانده. پیش از ورود به فیسیت به تدریس در حوزه های مختلف کامپیوتر مشغول بوده است. ترجمه،خوشنویسی و بدمینتون از جمله تفریحات مورد علاقه اوست.