ارائه روشی جدید برای خوشه بندی داده های مخلوط بر مبنای تعداد ویژگی مشابه
خوشه بندی عملیاتی است که در آن مجموعه ای از نمونه داده ها، نسبت به میزان شباهت، دسته بندی می شوند. نمونه داده های خوشه بندی، عددی یا مخلوطی از عددی و غیرعددی (اسمی) هستند. یافتن میزان شباهت و اندازه گیری فاصله، از چالش های خوشه بندی داده های مخلوط است. در این مقاله سعی شده است در محاسبه میزان شباهت و تعیین فاصله، به پارامتر "تعداد ویژگی های مشابه" توجه شود. در نسبت دادن هر نمونه به خوشه در مواردی که فاصله ها برابر یا نزدیک باشد، تعداد ویژگی های مشترک نمونه ها تعیین کننده خوشه مناسب خواهد بود. برای محاسبه فاصله در الگوریتم مورد نظر از تفاضل عددی نرمالسازی شده برای ویژگی های عددی و از فاصله همینگ برای ویژگی های غیرعددی استفاده شده است. تعیین مرکز خوشه اولیه نیز مانند بسیاری از روش ها بصورت تصادفی انجام شده است و در تکرارهای بعدی الگوریتم، نمونه مناسب تر به عنوان مرکز خوشه انتخاب می شود. الگوریتم مورد نظر با 5 الگوریتم دیگر در 5 مجموعه داده مقایسه شده است. در بررسی نتایج، از سه معیار Accuracy ، RI، F-Measure استفاده شده است. طبق نتایج آزمایشات، در سه مجموعه داده، الگوریتم موردنظر حداقل دو درصد بهتر از دو الگوریتم و یک درصد بهتر از یکی دیگر از الگوریتم ها عمل کرده است. در یکی دیگر از مجموعه داده ها الگوریتم موردنظر نتایج برابر یا نزدیک به یک درصد دقت بهتر نسبت به الگوریتم برتر داشت. در مجموعه داده آخر نیز الگوریتم مورد نظر در رتبه دوم از بین 5 الگوریتم قرار داشت.
پرداخت حق اشتراک به معنای پذیرش "شرایط خدمات" پایگاه مگیران از سوی شماست.
اگر عضو مگیران هستید:
اگر مقاله ای از شما در مگیران نمایه شده، برای استفاده از اعتبار اهدایی سامانه نویسندگان با ایمیل منتشرشده ثبت نام کنید. ثبت نام
- حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران میشود.
- پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانههای چاپی و دیجیتال را به کاربر نمیدهد.