LOGIN
ثبت نام یا ورود
Avatar
هنوز ثبت نام نکرده اید؟

هم اکنون عضو پلاک آبی شوید .و به اطلاعات وب سایت ما دسترسی داشته باشید

تنظیم مجدد کلمه عبور - نام کاربری را فراموش کرده ام

نام کاربری
کلمه عبور
مرا به خاطر بسپار

placabi articles

تفاوت داده های پرت یا Outlier ها با داده های نویز در داده کاوی تفاوت داده های پرت یا Outlier ها با داده های نویز در داده کاوی

تفاوت داده های پرت یا Outlier ها با داده های نویز در داده کاوی

  • این مورد را ارزیابی کنید
    (7 رای‌ها)

در این مقاله ضمن بررسی مفاهیم و تفاوت های داده های پرت یا outlier ها با داده های نویز در علم داده کاوی به پیاده سازی یک تمرین ساده به صورت فیلم آموزشی در محیط پایتون می‌پردازیم.

داده پرت یا داده نویز ؟

یکی از مسائل مورد تاکید متخصصین علوم داده و علم داده کاوی ، اهمیت استفاده از داده هایی است که فرآیند پیش پردازش بر روی آن ها انجام شده و اعتبار لازم را داشته باشند. تشخیص و کاهش نویز به‌عنوان یکی از عوامل موثر در افزایش کیفیت داده ها محسوب می‌شود. بنابراین، لازم است تا قبل از به‌کارگیری داده ها و نتیجه گیری، نویزها را شناسایی کرده و با روش صحیح با آن‌ها برخورد کنیم.

نویزها به دلایل مختلفی چون بروز اشتباه در فرآیند جمع آوری و یا وارد کردن اطلاعات به سیستم، و ... بوجود می‌آید و شناسایی آن‌ها به ما کمک می‌کند تا با آگاهی و دقت بیشتری به طراحی مدل های داده کاوی بپردازیم. نکته قابل توجه این است که گاهی برخی داده ها به اشتباه به‌عنوان نویز شناسایی می‌شوند. در حالی‌که این داده ها صحیح هستند و صرفا از الگوی حاکم بر سایر داده های دیتاست تبعیت نمی‌کنند. به‌عنوان مثال، در مجموعه داده های سلامت افراد یک جامعه، داده های افراد سرطانی که ممکن است بخش بسیار کوچکی از کل داده ها باشند، و قطعا ویژگی های متمایزی نسبت به داده های سایر افراد دارد، نویز محسوب نمی‌شود. این گروه از داده ها، تحت عنوان داده‌های پرت یا Outlier شناسایی می‌شوند. حتی در برخی موارد، هدف از اجرای پروژه داده کاوی شناسایی داده های پرت است. مثل زمانی که می‌خواهیم بر اساس الگوی رفتار افراد در تراکنش های مالی ، وقوع تقلب را شناسایی کنیم.

به‌هر حال، حضور داده های پرت و نویزها در مجموعه داده ها بر روی شاخص های آماری تاثیر می‌گذارد. بنابراین، اگر به درستی شناسایی نشده باشد در نتیجه گیری‌ های ما اختلال ایجاد می‌کند.

در فیلم آموزشی زیر علیرضا قره داغی با به‌کارگیری دو کتابخانه Numpy و Scipy در محیط پایتون، با اضافه کردن داده های پرت به یک دیتاست، تاثیر آن را بر شاخص های آماری بررسی کرده است.

توسعه مهارت با حل تمرین

داده های میزان درآمد کارکنان یک مرکز تولیدی با 50 پرسنل، دارای توزیع نرمال با میانگین 200 و واریانس 4 می باشد. میانگین ، میانه و مد را با دستور های مربوطه برای حقوق دریافتی کارکنان این واحد تولیدی چاپ کنید. حال دو داده پرت (به عنوان مثال اعدادی بزرگ تر از 1500) به داده ها اضافه کنید و مجددا موارد فوق را محاسبه و نتایج را تحلیل نمایید.

در فیلمک زیر، علیرضا قره داغی به حل تمرین بالا پرداخته است:

بررسی تاثیر نویز بر روی شاخص های آماری
خواندن 8848 دفعه آخرین ویرایش در دوشنبه, 07 خرداد 1397 18:00
برچسب‌ها
علیرضا قره داغی

کارشناس صنایع شرکت پلاک آبی

 

 

عضو تیم تولید محتوای وب سایت و شبکه‌های اجتماعی شرکت پلاک آبی

دانشجوی کارشناسی مهندسی صنایع دانشگاه صنعتی شریف

 

  • هیچ نظری یافت نشد

نظر خود را اضافه کنید.

ارسال نظر به عنوان مهمان

0
نظر شما به دست مدیر خواهد رسید
 تماس با ما

تلفن: 09211437289
پست الکترونیک:
info @ p l a c a b i . com

 

We use cookies to improve our website. By continuing to use this website, you are giving consent to cookies being used. More details…