ارائه روشی جدید برای خوشه بندی داده های مخلوط بر مبنای تعداد ویژگی مشابه
خوشه بندی عملیاتی است که در آن مجموعه ای از نمونه داده ها، نسبت به میزان شباهت، دسته بندی می شوند. نمونه داده های خوشه بندی، عددی یا مخلوطی از عددی و غیرعددی (اسمی) هستند. یافتن میزان شباهت و اندازه گیری فاصله، از چالش های خوشه بندی داده های مخلوط است. در این مقاله سعی شده است در محاسبه میزان شباهت و تعیین فاصله، به پارامتر "تعداد ویژگی های مشابه" توجه شود. در نسبت دادن هر نمونه به خوشه در مواردی که فاصله ها برابر یا نزدیک باشد، تعداد ویژگی های مشترک نمونه ها تعیین کننده خوشه مناسب خواهد بود. برای محاسبه فاصله در الگوریتم مورد نظر از تفاضل عددی نرمالسازی شده برای ویژگی های عددی و از فاصله همینگ برای ویژگی های غیرعددی استفاده شده است. تعیین مرکز خوشه اولیه نیز مانند بسیاری از روش ها بصورت تصادفی انجام شده است و در تکرارهای بعدی الگوریتم، نمونه مناسب تر به عنوان مرکز خوشه انتخاب می شود. الگوریتم مورد نظر با 5 الگوریتم دیگر در 5 مجموعه داده مقایسه شده است. در بررسی نتایج، از سه معیار Accuracy ، RI، F-Measure استفاده شده است. طبق نتایج آزمایشات، در سه مجموعه داده، الگوریتم موردنظر حداقل دو درصد بهتر از دو الگوریتم و یک درصد بهتر از یکی دیگر از الگوریتم ها عمل کرده است. در یکی دیگر از مجموعه داده ها الگوریتم موردنظر نتایج برابر یا نزدیک به یک درصد دقت بهتر نسبت به الگوریتم برتر داشت. در مجموعه داده آخر نیز الگوریتم مورد نظر در رتبه دوم از بین 5 الگوریتم قرار داشت.
-
انتخاب ویژگی غیرنظارتی مقیاس پذیر توسط یادگیری ماتریس و تئوری گراف دوقسمته
کوثر صالح نژاد، *
مجله مهندسی برق و الکترونیک ایران، پاییز 1402 -
راهکاری مبتنی بر ساخت درخت دودویی تقریبی برای سرعت بخشیدن به جستجوی نزدیک ترین همسایگی در داده های حجیم
حسین کلاته،
نشریه مهندسی برق و مهندسی کامپیوتر ایران، پاییز 1401