داده پرت یا داده نویز ؟
یکی از مسائل مورد تاکید متخصصین علوم داده و علم داده کاوی ، اهمیت استفاده از داده هایی است که فرآیند پیش پردازش بر روی آن ها انجام شده و اعتبار لازم را داشته باشند. تشخیص و کاهش نویز بهعنوان یکی از عوامل موثر در افزایش کیفیت داده ها محسوب میشود. بنابراین، لازم است تا قبل از بهکارگیری داده ها و نتیجه گیری، نویزها را شناسایی کرده و با روش صحیح با آنها برخورد کنیم.
نویزها به دلایل مختلفی چون بروز اشتباه در فرآیند جمع آوری و یا وارد کردن اطلاعات به سیستم، و ... بوجود میآید و شناسایی آنها به ما کمک میکند تا با آگاهی و دقت بیشتری به طراحی مدل های داده کاوی بپردازیم. نکته قابل توجه این است که گاهی برخی داده ها به اشتباه بهعنوان نویز شناسایی میشوند. در حالیکه این داده ها صحیح هستند و صرفا از الگوی حاکم بر سایر داده های دیتاست تبعیت نمیکنند. بهعنوان مثال، در مجموعه داده های سلامت افراد یک جامعه، داده های افراد سرطانی که ممکن است بخش بسیار کوچکی از کل داده ها باشند، و قطعا ویژگی های متمایزی نسبت به داده های سایر افراد دارد، نویز محسوب نمیشود. این گروه از داده ها، تحت عنوان دادههای پرت یا Outlier شناسایی میشوند. حتی در برخی موارد، هدف از اجرای پروژه داده کاوی شناسایی داده های پرت است. مثل زمانی که میخواهیم بر اساس الگوی رفتار افراد در تراکنش های مالی ، وقوع تقلب را شناسایی کنیم.
بههر حال، حضور داده های پرت و نویزها در مجموعه داده ها بر روی شاخص های آماری تاثیر میگذارد. بنابراین، اگر به درستی شناسایی نشده باشد در نتیجه گیری های ما اختلال ایجاد میکند.
در فیلم آموزشی زیر علیرضا قره داغی با بهکارگیری دو کتابخانه Numpy و Scipy در محیط پایتون، با اضافه کردن داده های پرت به یک دیتاست، تاثیر آن را بر شاخص های آماری بررسی کرده است.
توسعه مهارت با حل تمرین
داده های میزان درآمد کارکنان یک مرکز تولیدی با 50 پرسنل، دارای توزیع نرمال با میانگین 200 و واریانس 4 می باشد. میانگین ، میانه و مد را با دستور های مربوطه برای حقوق دریافتی کارکنان این واحد تولیدی چاپ کنید. حال دو داده پرت (به عنوان مثال اعدادی بزرگ تر از 1500) به داده ها اضافه کنید و مجددا موارد فوق را محاسبه و نتایج را تحلیل نمایید.
در فیلمک زیر، علیرضا قره داغی به حل تمرین بالا پرداخته است:
نظرات