ارائه روشی جدید برای خوشه بندی داده های مخلوط بر مبنای تعداد ویژگی مشابه

پیام:
نوع مقاله:
مقاله پژوهشی/اصیل (دارای رتبه معتبر)
چکیده:

خوشه بندی عملیاتی است که در آن مجموعه ای از نمونه داده ها، نسبت به میزان شباهت، دسته بندی می شوند. نمونه داده های خوشه بندی، عددی یا مخلوطی از عددی و غیرعددی (اسمی) هستند. یافتن میزان شباهت و اندازه گیری فاصله، از چالش های خوشه بندی داده های مخلوط است. در این مقاله سعی شده است در محاسبه میزان شباهت و تعیین فاصله، به پارامتر "تعداد ویژگی های مشابه" توجه شود. در نسبت دادن هر نمونه به خوشه در مواردی که فاصله ها برابر یا نزدیک باشد، تعداد ویژگی های مشترک نمونه ها تعیین کننده خوشه مناسب خواهد بود. برای محاسبه فاصله در الگوریتم مورد نظر از تفاضل عددی نرمالسازی شده برای ویژگی های عددی و از فاصله همینگ برای ویژگی های غیرعددی استفاده شده است. تعیین مرکز خوشه اولیه نیز مانند بسیاری از روش ها بصورت تصادفی انجام شده است و در تکرارهای بعدی الگوریتم، نمونه مناسب تر به عنوان مرکز خوشه انتخاب می شود. الگوریتم مورد نظر با 5 الگوریتم دیگر در 5 مجموعه داده مقایسه شده است. در بررسی نتایج، از سه معیار Accuracy ، RI، F-Measure  استفاده شده است. طبق نتایج آزمایشات، در سه مجموعه داده، الگوریتم موردنظر حداقل دو درصد بهتر از دو الگوریتم و یک درصد بهتر از یکی دیگر از الگوریتم ها عمل کرده است. در یکی دیگر از مجموعه داده ها الگوریتم موردنظر نتایج برابر یا نزدیک به یک درصد دقت بهتر نسبت به الگوریتم برتر داشت. در مجموعه داده آخر نیز الگوریتم مورد نظر در رتبه دوم از بین 5 الگوریتم قرار داشت.

زبان:
فارسی
صفحات:
39 تا 52
لینک کوتاه:
https://www.magiran.com/p2747982 
مقالات دیگری از این نویسنده (گان)