ابزاری به نام اکتیوکلین که مجموعه داده های عظیمی(کلان داده یا بزرگ دادهها) از داده های کثیف را پاک می کند در دانشگاه کلمبیا و دانشگاه برکلی کالیفرنیا توسعه داده شده است.
اکتیوکلین(ActiveClean) سیستمی است که با استفاده از یادگیری ماشین روند حذف داده کثیف را بهبود می بخشد. این سیستم مدل پیش بینی کاربر را تحلیل می کند تا تصمیم بگیرد که چه اشتباهی را ابتدا ویرایش کند، اکتیوکلین همینطور کار میکند درحالی که مدل هم به روزرسانی میشود. با عبور از هر مرحله، کاربران بهبود مدل خود را مشاهده می کنند.
مشکل خطاها(errors) در مجموعه های کلان داده ناشی از این واقعیت است که آنها هنوز هم عمدتا بصورت دستی ترکیب و ویرایش می شوند. در حال حاضر وظیفه از بین بردن داده کثیف و یا نادرست هم با استفاده از نرم افزارهای پاکسازی داده امکان پذیر است مانند گوگل ریفاین(Google Refine) و تری فکتا(Trifacta)، و هم با اسکریپت های سفارشی توسعه یافته برای وظایف خاص پاکسازی داده.
توسعه دهندگان اکتیوکلین برآورد کرده اند که این فرایند تا 80 درصد از زمان تحلیلگران را مصرف می کند همچنانکه آنها داده های کثیف را شکار می کنند، تمیز می کنند، به مدلشان دوباره آموزش می دهند، و همین روند را تکرار می کنند.
به دلیل غیر ممکن بودن پاکسازی کل مجموعه کلان داده ها، چیزی که معمولا اتفاق می افتد این است که یک زیر مجموعه تصادفی تمیز می شود. این مساله به انحرافات آماری اشاره می کند که پس از آن مدلها به تولید نتایج گمراه کننده منحرف می شوند.
ActiveClean از این مشکلات با استفاده از یادگیری ماشین جلوگیری می کند تا عنصر انسانی را از مراحل پیدا کردن داده های کثیف و به روز رسانی مدل حذف کند.
اکتیوکلین ساختار یک مدل را برای درک اینکه چه نوع خطاهایی منجر به نامطلوب کردن مدل می شوند، تجزیه و تحلیل می کند. به دنبال داده هایی می گردد که دچار اشتباه می شوند، و به اندازه کافی داده ها را پاک می کند تا نشان دهد که یک مدل در صحت کامل خواهد بود.
در آزمایشاتی که بر روی پایگاه داده کمک های مالی شرکت به پزشکان انجام شده، زمانی که داده ها بدون هیچ پاکسازی ای استفاده شده اند، یک مدل آموزش دیده در این مجموعه داده می تواند کمک مالی نامناسبی را تنها در 66 درصد از زمان پیش بینی کند. ActiveClean نرخ کشف و شناسایی(تشخیص) را همراه با پاکسازی 5000 رکورد تا 90 درصد بالا می برد. یک روش جایگزین، یادگیری فعال یا active learning، به 10 برابر این داده ها یا 50000 رکورد نیازدارد تا به نرخ تشخیص قابل مقایسه ای برسد.
یوجین وو، استاد علوم کامپیوتر در مهندسی کلمبیا و عضو موسسه علوم داده که به توسعه ActiveClean به عنوان یک محقق فوق دکترا در AMPLab برکلی کمک کرد و این کار را در کلمبیا ادامه داده است، گفت:" داده کثیف فراگیر است و افراد را از انجام کارهای مفید باز می دارد."
ActiveClean به زبان پایتون نوشته شده است و شامل الگوریتم هسته ActiveClean است، این الگوریتم معیاری برای تمیز کردن داده ها، و (در آینده) ردیاب داده کثیف است.
تیم توسعه ActiveClean پژوهش خود را 7 سپتامبر در دهلی نو، در کنفرانس دیتابیس های بسیاربزرگ 2016 معرفی خواهد کرد.
منبع خبر: i-programmer
ثبت نظر