مقایسه چهار مدل دسته بندی در پایتون | گروه هوش کسب و کار ایرانیان

مقایسه چهار مدل دسته بندی با محاسبه معیار RMSE و MSE

نوشته شده توسط علیرضا قره داغی
Update: 09/12/1396

این مورد را ارزیابی کنید
- 1
- 2
- 3
- 4
- 5
(8 رای‌ها)

بررسی الگوریتم Support Vector Machine یا ماشین بردار پشتیبان و مقایسه دقت چهار مدل SVM ، KNN ، درخت تصمیم و شبکه عصبی از طریق RMSE و MSE در پایتون در یک فیلم آموزشی

الگوریتم SVM یا ماشین پیشتیبان بردار

الگوریتم‌های SVM یا Support Vector Machine از دقیق‌ترین و نیرومندترین الگوریتم های داده کاوی به شمار می‌رود که برای رده بندی داده های خطی و غیر خطی مورد استفاده قرار میگیرد. محاسبات الگوریتم ماشین پشتیبان بردار به قدری پیچیده است که سریع ترین آن ها هم به کندی عمل می‌کند. هدف ما جداسازی داده ها و دسته بندی آن ها در دو کلاس مختلف توسط منحنی‌ها و یا ابرصفحه‌ها است. همانطور که در شکل زیر مشاهده می‌کنید، با وجود این که ممکن است جواب‌های متفاوتی برای این جداسازی وجود داشته باشد، ولی در SVM ، ما به دنبال خط و یا ابر صفحه ای هستیم که میزان فاصله آن از نزدیک‌ترین عنصر هر دو دسته، حداکثر باشد. در اینجا منظور از فاصله، فاصله خط قرمز و خط سبز، از داده های مستطیل شکل و دایره‌ای است. به عبارتی به دنبال خطی هستیم که پهن‌ترین حاشیه امن (خالی از هر کلاس داده) را داشته باشد.

الگوریتم SVM

حال برای یافتن بهترین خط در الگوریتم داده کاوی SVM ، همانطور که در شکل زیر و محاسبات مربوطه نشان داده شده است، تنها کافیست مقدار عبارت مخرج را حداکثر کنیم تا فاصله خط تا هر گروه از داده ها حداکثر گردد. توجه کنید که فاصله این خط از Class 1 و Class 2، با یکدیگر برابر است.

بهترین خط در الگوریتم SVM

در این قسمت به عنوان تمرین، برای دو نقطه (1و1) و (2و3)، بهترین خط گذرنده را می‌یابیم. برای این کار ابتدا مقادیر این دو نقطه در معادله خط قرار می‌گیرد و به دو معادله زیر می‌رسیم. حال با حل دستگاه دو معادله و دو مجهول، بردار مقادیر ω قابل محاسبه است. بدین ترتیب، با یافتن تمامی مقادیر مجهول، معادله خط مورد نظر به‌دست می‌آید. این نکته را در نظر بگیرید که در اینجا، ما با انجام محاسبات زیر، تنها خط گذرنده از بین دو نقطه را یافتیم. در حالت‌هایی که داده های ما چندین بعد دارند و تعداد آن‌ها نیز بسیار زیاد است، محاسبات مربوط به یافتن ابرصفحه گذرنده از بین این داده ها بسیار دشوار و زمان‌بر خواهد بود.

مثال دو متغیری الگوریتم SVM

جذر خطای میانگین مربعات یا RMSE

خطای میانگین مربعات یا همان Mean Square Error که به‌صورت مخفف با MSE نیز شناخته می‌شود، یکی از ابزارهای آماری برای یافتن دقت پیش بینی انجام شده در مدل سازی می‌باشد. در مواردی که متغیر هدف در مدل پیش بینی شما از جنس عددی باشد، نحوه ارزیابی دقت با هنگامی که متغیر هدف در مدل پیش بینی چند مقداره است، کمی تفاوت دارد. دقت مدل در حالت پیش بینی چند مقداره، از نسبت تعداد نمونه درست پیش بینی شده به کل داده های مورد بررسی به‌دست می‌آید. ولی وقتی مقادیر به‌صورت عددی هستند، باید با روش های آماری به محاسبه خطای میانگین مربعات و جذر خطای میانگین مربعات ( RMSE ) بپردازیم. وقتی می‌گوییم مدلسازی ما دقت بالاتری دارد که خطای به‌دست آمده به‌ازای یک مدل خاص، کمتر از مدل دیگری باشد. روش محاسبه‌ی RMSE در زیر آمده است:

روش محاسبه RMSE

در تمرین زیر می‌خواهیم با به‌کارگیری زبان برنامه نویسی پایتون به مقایسه چهار مدل داده کاوی زیر بپردازیم و در ادامه دقت این چهار مدل پیش بینی را با ابزار RMSE مورد ارزیابی قرار دهیم:

- K نزدیکترین همسایه یا KNN

- درخت تصمیم یا Decision Tree

- شبکه عصبی یا Neural Network

- و ماشین پشتیبان بردار یا Support Vector Machine

توسعه مهارت با حل تمرین

داده های مربوط به دیتاست Data را وارد پایتون کرده و 30 درصد داده ها را به عنوان داده test جدا کنید. حال 4 مدل KNN، SVM، Decision Tree و Neural Network را برای داده های train پیاده سازی کرده و مقدار MSE و RMSE را به‌ازای پیش بینی صورت گرفته توسط هر مدل محاسبه و چاپ کنید.

در فیلمک زیر، علیرضا قره داغی به حل تمرین بالا پرداخته است:

مقایسه ذقت مدل های دسته بندی در پایتون

<p>

دانلود دیتاست برای انجام پروژه

File name: SVM-MSE.csv

9304 475 4 20.46KB

</p>

خواندن 9167 دفعه آخرین ویرایش در دوشنبه, 14 اسفند 1396 01:29

منتشرشده در مقاله

برچسب‌ها

علیرضا قره داغی

کارشناس صنایع شرکت پلاک آبی

عضو تیم تولید محتوای وب سایت و شبکه‌های اجتماعی شرکت پلاک آبی

دانشجوی کارشناسی مهندسی صنایع دانشگاه صنعتی شریف

آخرین‌ها از علیرضا قره داغی

کاربرانی که در این گفتگو شرکت کرده اند

علیرضا قره داغی

نظرات (2)

مهمان - مینا

خیلی ممنون بابت آموزش های خیلیییییییییییییی مفیدتون.. سوالی در خصوص این ودیو دارم خب مشخصا مقدار خطای RMSE باید کمتر باشه که بخوایم قضاوت کنیم که کدوم مدل بهتره اما سوالم اینه الان این مقدار خطا رو به طور پیش فرض بااید تقسیم بر 100 کنیم تا مقدار درصد رو نشون بده؟ من روی داده خودم زدم مقدار RMSE عدد شش رقمی شد که خب با تقسیم بر 100 که نمیشه 250 درصد کمی گیج شدم خیلی ام سرچ کردم. همین مشکلو دقیقا در رپیدماینر دارم

حدود 6 سال قبل http://maps.google.com/maps?z=15&q=,

0 دوست دارم به اشتراک گذاشتن لینک کوتاه: Facebook Twitter Google Plus LinkedIn
علیرضا قره داغی
در پاسخ به: # 89

باسلام،
ممنون از لطف شما

در ارتباط با سوالتان، همانطور که در فرمول محاسبه‌ی RMSE مشاهده می‌کنید، مقدار خروجی از جنس درصد نیست بلکه از جنس پارامتری است که خطا را برای آن محاسبه می‌نمایید. به عنوان مثال اگر RMSE را برای قیمت هواپیماهای یک شرکت هواپیمایی بررسی می‌کنید، ممکن است مقدار آن بیشتر از 10 رقم باشد. در مقایسه‌ی دقت بین دو پیش‌بینی مختلف، تنها باید به مقدار عددی RMSE دقت کرد و مفهومی به اسم درصد در اینجا تعریف نمی‌شود، چرا که خروجی شما هم‌جنس متغیر ورودی، یعنی برای مثال از جنس تومان است.

موفق باشید

حدود 6 سال قبل http://maps.google.com/maps?z=15&q=,

0 دوست دارم به اشتراک گذاشتن لینک کوتاه: Facebook Twitter Google Plus LinkedIn