یاهو امروز اعلام کرد که قصد دارد مجموعه داده بزرگی در زمینه یادگیری ماشین از طریق یک برنامه در حال پیشرفت، در اختیار انجمن های تحقیقاتی قرار دهد. این دیتاست جدید، حجمی در حدود 13.5 ترابایت دارد و شامل داده های تعاملی کاربران ناشناس می شود. این دیتاست شامل تعاملات حدود 20 میلیون کاربر در صفحات اصلی یاهو، اخبار یاهو، صفحه ورزشی یاهو و غیره، از فوریه 2015 تا می 2015 خواهد بود.
علاوه بر داده های تعاملی کاربران، در این دیتاست اطلاعات جمعیتی کاربران مانند بازه سنی، جنسیت و داده های جغرافیایی همراه با کلمه های کلیدی، خلاصه و عنوان اخبار و اطلاعات جزئی تر دیگر نیز قرار گرفته است.
سوژو راجان، رئیس علوم شخصیتی در آزمایشگاه های یاهو، می گوید: "داده به مثابه خون برای زندگی یک تحقیق در یادگیری ماشین است. دسترسی به دیتاست های بزرگ و واقعی امتیازی است که به پژوهشگران و دانشمندانی تعلق گرفته که در شرکت های بزرگ کار می کنند و پژوهشگران دانشگاهی دسترسی به آن دیتاست ها ندارند." کار بر روی داده های غیر واقعی، مانع از خلاقیت و نوآوری می شود و پیشرفت را به تاخیر می اندازد.
تاکنون پژوهشگران دانشگاه هایی چون ملون، دانشگاه کالیفرنیا و مرکز تحقیقاتی Amherst، اعلام کرده اند که از این دیتاست استفاده کرده و آن را در پژوهش هایشان به کار خواهند برد. مثلا پژوهشگران در CMU، قادرند تا نوع مقالاتی که هر کاربر به آنها علاقمند است، مشخص کنند.
یاهو دلیل خود از انتشار چنین دیتاستی را، برقراری ارتباط و تعامل بین صنعت و تحقیقات دانشگاهی می داند. این شرکت می خواهد با استفاده از نتایج تحقیقاتی که از مطالعه بر روی این دیتاست ها به دست می آید و به کارگیری الگوریتم های جدیدتر، ابتکارات و نوآوری هایی بیشتری را در محصولات خود ارائه دهد.
البته یاهو تنها شرکت در این زمینه نیست و بیش از این گوگل هم تکنولوژی یادگیری ماشین خود را به صورت متن باز در اختیار علاقمندان قرار داده بود. علاوه بر این دو، نیز می توان به دیتاست های آی بی ام واتسون، یادگیری ماشین آمازون و یادگیری ماشین آژور نیز اشاره کرد.
ثبت نظر