طبقه بندی داده های نامتعادل با ترکیب منحنی اصلی و smote بهبود یافته درجه پشتیبان
مسئله طبقه بندی داده های نامتعادل به عنوان یکی از چالش های اصلی در حوزه داده کاوی است. در مجموعه داده های نامتعادل، تعداد نمونه ها در کلاسهای گوناگون اختلاف بسیاری دارند. در داده های نامتعادل هدف اصلی شناسایی صحیح نمونه های کلاس اقلیت است. بهعنوان مثال در حوزه پزشکی، تعداد نمونه های مثبت از یک بیماری در مقابل تعداد نمونه های منفی بسیار کمتر است. در حالیکه برای این مسئله ارائه ،SdCurveSmote اهمیت شناسایی نمونه های مربوط به دسته مثبت، بسیار زیاد است. در این مقاله الگوریتمی بانام شده است. این الگوریتم شامل سه بخش کلی است بخش اول محاسبه پارامتری بنام درجه پشتیبانی برای انتخاب نمونه های مناسبب ر روی این نمونه های مناسب با درجه پشتیبان بالا و تولید نمونه جدید است Smote و بخش دوم انجام عمل Smote مرزی برای عمل و در بخش آخر محاسبات منحنی اصلی و حد آستانه و بررسی نمونه های تولید شده میباشد. در این مقاله از 5 مجموعه داده نامتعادل، استفاده شده است که میزان عدم تعادل متفاوت دارند. الگوریتم پیشنهادی نسبت به الگوریتمهای مشابه، KEEL و UCI برگرفته از سایت نشان میدهد که در آن تفاوت معنادار بسیار مطلوبی بین Adaboost با آزمون فریدمن نتایج بهتری داشت در این آزمون برای طبقه بند وجود دارد. SdSmote و Smote روش پیشنهادی و روش های
- حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران میشود.
- پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانههای چاپی و دیجیتال را به کاربر نمیدهد.