به جمع مشترکان مگیران بپیوندید!

تنها با پرداخت 70 هزارتومان حق اشتراک سالانه به متن مقالات دسترسی داشته باشید و 100 مقاله را بدون هزینه دیگری دریافت کنید.

برای پرداخت حق اشتراک اگر عضو هستید وارد شوید در غیر این صورت حساب کاربری جدید ایجاد کنید

عضویت

جستجوی مقالات مرتبط با کلیدواژه "خوشه بندی" در نشریات گروه "برق"

تکرار جستجوی کلیدواژه «خوشه بندی» در نشریات گروه «فنی و مهندسی»
  • سجاد حق زاد کلیدبری*
    الگوریتم های محاسباتی نرم مانند منطق فازی، شبکه های عصبی و الگوریتم های تکاملی به طور گسترده در بسیاری از زمینه ها استفاده می شوند. به ویژه منطق فازی، به دلیل توانایی قابل توجهی که در مدل سازی دارد، محبوبیت قابل توجهی به دست آورده است. تاکنون روش های مختلفی برای مدل سازی فازی ارائه شده است که هر یک از این روش ها مزایا و معایب خود را دارند. در حالی که اکثر روش ها تجزیه و تحلیل را از ورودی دارند ولی روش SY از بخش خروجی به تجزیه و تحلیل سیستم می پردازد. محبوبیت روش SY را می توان به الگوریتم استخراج قانون موثر آن نسبت داد، که از یک فرآیند خوشه بندی برای تعیین توابع عضویت ورودی استفاده می کند. در این مقاله، یک الگوریتم جستجوی خوشه ای و یک روش تقسیم بندی فازی جدید پیشنهاد شده است که نگاشت فضای خروجی به فضای ورودی را با توزیع توابع گاوسی برای هر نقطه داده در یک خوشه و محاسبه مقادیر عضویت آن ها افزایش می دهد. با این روش جدید جستجوی خوشه بندی پیشنهادی، عملکرد روش SY بهبود یافته است. با توجه به شبیه سازی ها، روش پیشنهادی معیار میانگین مربعات خطا (MSE) را 0.001 و معیار دقت را 1.5 درصد بهبود بخشیده است.
    کلید واژگان: سیستم استنتاج فازی (FIS), مدل سازی فازی, روش Sugeno-Yasukawa (SY), تقریب تابع عضویت, خوشه بندی
    S. Haghzad Klidbary *
    Soft computing algorithm such as fuzzy logic, neural networks, and evolutionary algorithms are widely used in many fields. Fuzzy logic, in particular, has gained significant popularity due to its significant ability in modelling. So far, various methods of fuzzy modelling have been presented; each of these methods has its advantages and disadvantages. While all methods start from the input, Sugeno-Yasukawa (SY) differs by initiating the analysis from the output. The popularity of the SY method can be attributed to its effective rule extraction algorithm, which employs a clustering process to determine input membership functions. In this paper, we propose a cluster search algorithm and a new fuzzy partitioning method that enhance the mapping of the output space to the input space by distributing Gaussian functions for each data point within a cluster and calculating their membership values. With this proposed new clustering search method, the performance of the SY method is improved. Through simulations, the proposed method has improved the mean square errors (MSE) criterion by 0.001, and improved the accuracy criterion by 1.5 percent.
    Keywords: Fuzzy Inference System (FIS), Fuzzy Modelling, Sugeno-Yasukawa (SY) Method, Membership Function Approximation, Clustering
  • سید محمد احمدی*، روح الله دیانت

    در زمینه ی شناسایی چهره، چالش های افت دقت، افزایش نیازمندی به حافظه، و افزایش پیچیدگی زمانی از مشکلات مهمی به شمار می آیند. به منظور حل این مسائل، این تحقیق یک رویکرد دومرحله ای سه واحدی معرفی کرده است: واحد زیرشبکه ها، واحد خوشه یاب، و واحد تصمیم گیر نهایی. در مقابل روش های مبتنی بر توزیع تصادفی، روش ارائه شده، از خوشه بندی به عنوان روش توزیع مسئله به زیرشبکه ها استفاده می کند. هر زیرشبکه ، یک شبکه عصبی عمیق نظارتی است که با داده های آموزشی مربوط به دسته های خود آموزش می بیند. واحد خوشه یاب، شباهت بردارهای ویژگی داده های آزمون را با میانگین بردارهای ویژگی دسته ها مقایسه می کند و بهترین خوشه را پیدا می کند. در نهایت، واحد تصمیم گیر نهایی با ترکیب نتایج دو واحد قبلی، بهترین دسته را انتخاب می کند. نتایج نشان می دهد که روش پیشنهادی، در مقایسه با روش های مشابه، از نظر صحت، بازخوانی، و امتیاز F1 عملکرد بهتری دارد. این روش ضمن سریع تر بودن، دارای دقت بالاتری نسبت به روش های بدون توزیع می باشد و در مقایسه با روش های توزیعی تصادفی، سرعتی برابر و دقتی بالاتر دارد. آزمایش ها بر روی مجموعه دادگان VGGFace2 و  MS-Celeb-1M و Glint360K اجرا شده و نشان می دهد که این روش علاوه بر عملکرد بهتر، مقیاس پذیری بالاتری را در بازشناسی چهره دارد.

    کلید واژگان: بازشناسی چهره, شناسایی چهره, خوشه بندی, یادگیری عمیق, یادگیری توزیعی
    Sayed Mohammad Ahmadi*, Rouhollah Dianat

    Face recognition poses challenges in accuracy, memory efficiency, and computational complexity. This study proposes a two-stage, three-module approach: Subnetwork modules, Cluster-Finder unit, and Final-Decision module. Unlike random distribution methods, our approach employs clustering for distribution. Each subnetwork, a supervised deep neural network, is trained with cluster-specific data. The Cluster-Finder unit compares test data similarity with each subnetwork’s representative. The Final-Decision module selects the best class. Results indicate superior accuracy, recall, and F1 score compared to competitive methods. The approach is faster and more accurate than non-distribution methods, with comparable speed and higher accuracy than random distribution methods. Experiments on VGGFace2, MS-Celeb-1M, and Glint360K datasets confirm both superior performance and scalability. The proposed method, using KMeans for distribution, outperforms Softmax Dissection and Dynamic Active Class Selection. It simplifies training without additional manipulations, offering efficiency over methodologies like Softmax Dissection and ArcFace parallelization. In conclusion, this study focuses on pre-processing and post-processing without added training complexity. A divide-and-conquer approach addresses accuracy and efficiency challenges. In this study, various sources leading to errors in face recognition systems have been examined. These sources include: imprecise features, overfitting, challenging classes, distribution issues, and decision-making complexities. Various classification scenarios are explored, including non-distributed and models with random and intelligent distributions. Inaccurate features uniformly impact all scenarios, with overfitting posing the greatest challenge in non-distributed scenarios. Challenging classes are better distinguished in intelligent distribution scenarios. Inappropriate distribution has less impact in intelligent scenarios, and decision-making challenges exist in both distributions

    Keywords: Face Recognition, Face Identification, Clustering, Deep Learning, Distributed Learning
  • حمید رضایی، نگین دانشپور*

    خوشه بندی عملیاتی است که در آن مجموعه ای از نمونه داده ها، نسبت به میزان شباهت، دسته بندی می شوند. نمونه داده های خوشه بندی، عددی یا مخلوطی از عددی و غیرعددی (اسمی) هستند. یافتن میزان شباهت و اندازه گیری فاصله، از چالش های خوشه بندی داده های مخلوط است. در این مقاله سعی شده است در محاسبه میزان شباهت و تعیین فاصله، به پارامتر "تعداد ویژگی های مشابه" توجه شود. در نسبت دادن هر نمونه به خوشه در مواردی که فاصله ها برابر یا نزدیک باشد، تعداد ویژگی های مشترک نمونه ها تعیین کننده خوشه مناسب خواهد بود. برای محاسبه فاصله در الگوریتم مورد نظر از تفاضل عددی نرمالسازی شده برای ویژگی های عددی و از فاصله همینگ برای ویژگی های غیرعددی استفاده شده است. تعیین مرکز خوشه اولیه نیز مانند بسیاری از روش ها بصورت تصادفی انجام شده است و در تکرارهای بعدی الگوریتم، نمونه مناسب تر به عنوان مرکز خوشه انتخاب می شود. الگوریتم مورد نظر با 5 الگوریتم دیگر در 5 مجموعه داده مقایسه شده است. در بررسی نتایج، از سه معیار Accuracy ، RI، F-Measure  استفاده شده است. طبق نتایج آزمایشات، در سه مجموعه داده، الگوریتم موردنظر حداقل دو درصد بهتر از دو الگوریتم و یک درصد بهتر از یکی دیگر از الگوریتم ها عمل کرده است. در یکی دیگر از مجموعه داده ها الگوریتم موردنظر نتایج برابر یا نزدیک به یک درصد دقت بهتر نسبت به الگوریتم برتر داشت. در مجموعه داده آخر نیز الگوریتم مورد نظر در رتبه دوم از بین 5 الگوریتم قرار داشت.

    کلید واژگان: خوشه بندی, داده مخلوط, فاصله مقادیر, تشابه مقادیر, مرکز خوشه
    Negin Daneshpour*

    Clustering is an operation in which a set of data samples is categorized according to the degree of similarity. Examples of clustering data are numerical or a mixture of numerical and non-numerical (nominal) data. Finding similarities and measuring distances is one of the challenges of mixed data clustering. In the related works, to detect the degree of similarity and obtain the distance value, only the parameter of the distance value was considered and the cluster was selected based on its value. Clustering in this way, especially for mixed data, has not had very accurate results. In this paper, we have tried to pay attention to the parameter "number of similar features" in calculating the degree of similarity and determining the distance. In assigning each sample to a cluster in cases where the distances are equal or close, the number of common features of the samples will determine the appropriate cluster. That is, we will pay attention to the "number of similar features" in addition to the distance to select the cluster. This idea believes that in cases where the distance of the cluster centers is close to the data object, it is better to choose the cluster center that has more features similar to the data object. Logically and also according to the proposed algorithm, the amount of similarity should be in a larger number of features, not just a few limited features but with high similarity. The parameter of the "number of similar features" has a specific definition and is obtained with a suitable threshold. If the distance value of two features is less than the threshold, those two features are considered as similar features. To calculate the distance in the algorithm, the normalized numerical difference for numerical properties and the Hamming distance for non-numerical properties are used. Determining the initial cluster centers, like many methods, is done randomly, and in subsequent iterations of the algorithm, more appropriate samples are selected as the cluster centers. The algorithm is compared with 5 other algorithms in 5 datasets. In examining the results, three criteria of Accuracy, RI and F-Measure have been used. According to the test results, in the mixed and integer datasets, the algorithm performs at least two percent better than the two algorithms and one percent better than the other algorithm. In another data set, the proposed algorithm had results equal to or close to one percent better accuracy than the superior algorithm. In the last data set, the proposed algorithm was ranked second among 5 algorithms. In general, the proposed algorithm won the top rank in most of the results, and in the rest of the cases, it won the second rank out of the five tested algorithms.

    Keywords: Clustering, Mixed Data, Distance Of Values, Similarity Of Values, Cluster Center
  • راهله قوچان نژادنورنیا، مهرداد جلالی*، محبوبه هوشمند

    امروزه آلیاژهای آنتروپی بالا یکی از حوزه های محبوب برای محققان می باشند که عملکرد آنها با استفاده از یادگیری ماشین بهبود یافته اند. آلیاژهای آنتروپی بالا از حداقل پنج عنصر اصلی با اندازه های نزدیک به هم تشکیل شده اند که ویژگی های آنها به اندازه و انواع عناصر بستگی دارد تا خواص فیزیکی و مکانیکی را بهبود دهند. رویکرد یادگیری ماشین در زمینه های مختلف کاربردهای فراوانی دارد. تحلیل شبکه های اجتماعی یکی از ابزارهای یادگیری ماشین است که از نظریه گراف استفاده می کند. هر گراف از تعدادی گره و یال تشکیل شده است که هر گره دارای ویژگی های خاص خود است. کارهایی که تاکنون انجام شده است از مجموعه داده آلیاژ آنتروپی بالا شبکه مبتنی بر میزان نزدیکی محتوایی و ساختاری ویژگی های هر ترکیب استفاده نکرده اند. در این مقاله، روشی نوین ارایه شده است که ابزار شبکه اجتماعی را به مهندسی متالوژی و مواد تعمیم می دهد. روش پیشنهادی با استفاده از ابزار شبکه اجتماعی به بررسی خواص آلیاژهای آنتروپی بالا پرداخته است که شباهت آلیاژها محاسبه شده و بر اساس آن شبکه اجتماعی مواد ساخته شده است. با بکار بردن تکنیک الگوریتم لووین، گروه هایی از این آلیاژها استخراج شده است که هر گروه به نام خوشه دارای آلیاژهایی با خواص مشابه است. نتایج عملی بدست آمده، خوشه های با کیفیت بالایی را نشان می دهد که در پیش بینی عملکرد ترکیبات و کشف ترکیبات و ویژگی های جدید موثر خواهند بود. معیار پیمانگی که بیانگر کیفیت خوشه ها است حدود 713/0 بدست آمده است.

    کلید واژگان: خوشه بندی, شبکه اجتماعی, کشف جامعه, یادگیری ماشین, آلیاژهای آنتروپی بالا
    Raheleh Ghouchan Nezhad Noor Nia, Mehrdad Jalali*, Mahboobeh Houshmand

    Nowadays, high-entropy alloys (HEAs) are a popular domain for researchers which is improved performance by using machine learning (ML). HEAs are formed at least five main elements with close or equal size which is depend on their size and type of elements to extend physical and mechanical features. The ML approach has many applications in various fields. Social network analysis (SNA) is one of the ML tools that is used graph theory. Each graph consists of a number of nodes and edges that each node has its own descriptors. The studies done so far has not used the high-entropy alloys network dataset based on the similarity of content and structural features of each compound. In this paper, a new method is proposed that generalized SNA tools to metallurgical and materials engineering. The proposed method is investigated the HEAs descriptors, in which HEAs descriptors similarity are calculated and the HEAs interaction network is created. The groups have been extracted by Louvain algorithm which each group called cluster. The clusters have alloys with similar properties. The experimental results shown high quality clusters that will be effective in predicting the compounds functionality and discovering new compounds and descriptors. The modularity criterion indicates the quality of the clusters, is about 0.713.

    Keywords: Clustering, Social network, Community detection, Machine learning, High-entropy alloys
  • پیام بحرانی، بهروز مینایی بیدگلی، حمید پروین*، میترا میرزارضایی، احمد کشاورز

    سامانه های پیشنهادگر سامانه هایی هستند که در گذر زمان یاد می گیرند که هر فرد یا مشتری احتمالا چه کالا یا قلمی را می پسندد و آن را به او پیشنهاد می دهند. این سامانه ها اغلب بر اساس رفتارهای مشابه از دیگر افراد (احتمالا مشابه) عمل می کنند. به طور کلی یافتن افراد مشابه، به علت زیاد بودن کاربران، فرایندی بسیار زمان بر و به علت کمبود اطلاعات، نادقیق است. به همین دلیل برخی از روش ها، رو به افزایش سرعت آورده اند. از طرفی، برخی از روش های دیگر، رو به افزودن اطلاعات اضافه آورده تا در گذر این اطلاعات بتوانند دقت یافتن کاربران مشابه یا همسایه را افزایش دهند. برخی دیگر نیز، به روش های ترکیبی رو آورده اند. اخیرا محققان با به کارگیری روش های خوشه بندی پایه که بر اساس یافتن شبیه ترین کاربران همسایه با کمک خوشه بندی کاربران می باشد، و همچنین استفاده از روش های محتوا پایه و بعضا اضافه نمودن هستان شناسی به روش های محتوا پایه توانسته اند با بهره گیری از مزایای این روش ها، برخی از چالش های فوق را تا حد قابل قبولی حل نمایند. در سامانه پیشنهادگر ترکیبی پیشنهادی، از یک سامانه دو مرحله ای استفاده کرده ایم که در مرحله اول، دو مدل پیش بینی های خود را انجام داده، سپس در مرحله دوم به وسیله یک مولفه ترکیب گر، نتایج دو بخش مرحله اول با یکدیگر ترکیب شده و نتایج به دست آمده را به عنوان نتایج نهایی سامانه به ما ارایه می دهد. در بخش اول، یک سامانه مبتنی بر پر کردن مقادیر گم شده، مقادیر خالی در ماتریس امتیازدهی را پر می کند. برای این مهم، از بین روش های پرکردن داده های گم شده، یک روش که با پرکردن مجموعه داده در شرایط بسیار تنک سازگار بود را طراحی کرده و سپس آن را به روش خودمان تعمیم داده ایم. در این راستا یک روش مبتنی بر خوشه بندی فاصله گری ارایه کرده ایم. در بخش دوم که خود یک سامانه پیشنهادگر ترکیبی هستان شناسی پایه می باشد، ابتدا به کمک یک خزنده وب، اطلاعات هر قلم را استخراج کرده، سپس در یک هستان شناسی پایه به کمک یک روش پیشنهادی، اقدام به بهبود ساختار هستان شناسی به وسیله حذف یال های همسان می نماییم. بدین ترتیب دقت اندازه گیری شباهت معنایی بین اقلام و کاربران در مراحل بعدی افزایش یافته و میزان اثربخشی پیشنهادات ارایه شده به طور با معنایی بهبود می یابد. شایان ذکر است این هستان شناسی یک هستان شناسی جامع نیست. درنهایت به کمک یک روش اندازه گیری شباهت ابتکاری هستان شناسی پایه، مشابهت قلم-قلم ها، کاربر-کاربرها، و کاربر-قلم ها را اندازه گیری می کنیم. به کمک این ماتریس مشابهت، کاربرها و قلم ها را خوشه بندی کرده و سپس برای هر کاربر، کاربرها و قلم های شبیه به آن را به عنوان یک ویژگی جدید در پروفایل کاربر ذخیره می نماییم. این کار به ما کمک می کند که در آینده، سرعت یافتن کاربرهای مشابه و قلم های مشابه را بالا ببریم. در حقیقت بر اساس این ویژگی، سرعت کل کار را افزایش داده ایم. از آنجایی که ما هدف خود را ساختن سامانه ای که یک موازنه بین دو معیار دقت و سرعت را برقرار کند قرار داده ایم، با استفاده از یک مجموعه داده واقعی، از این دو معیار جهت ارزیابی سامانه پیشنهادی استفاده می کنیم. نتایج مقایسه ی روش پیشنهادی ما با برخی روش های مشابه به روز ارایه شده در این حوزه (با استفاده از یک مجموعه داده یکسان) حاکی از آن است که روش ما از روش های سریع، کندتر است، اما از آنها دقیق تر می باشد. همچنین این نتایج بیانگر این موضوع است که روش پیشنهادی از روش های دقیق، سریع تر و کیفیت آن نیز قابل رقابت و یا حتی بهتر است.

    کلید واژگان: سامانه پیشنهادگر, هستان شناسی, پالایش حافظه پایه, پالایش مدل پایه, خوشه بندی, k-NN
    Payam Bahrani, Behrouz Minaei Bidgoli, Hamid Parvin*, Mitra Mirzarzaei, Ahmed Keshavarz

    Recommender systems are systems that, over time, learn what product(s) or item(s) each person or customer is (are) likely to like and recommend it (them) to him/her. These systems often operate based on similar behaviors from other (possibly similar) people. Finding similar people is generally a highly time-consuming process due to the large number of users and inaccurate due to the lack of information. For this reason, some methods have resorted to increasing speed. On the other hand, some other methods have added additional information so that they can increase the accuracy of finding similar or neighboring users. Some others have resorted to hybrid methods. Recently, by the use of basic clustering methods, which is based on finding the most similar neighbors with the help of users’ clustering, as well as by using basic content analysis methods and sometimes adding ontology to these methods, researchers have been able to take the advantage of these methods in order to solve some of the above challenges acceptably. In the proposed hybrid recommender system, we have used a two-stage system in which, in the first stage, two models of predictions are made, then in the second stage, by a combining component, the results of the first two parts are combined and the obtained results are given to us as the final results of the system. In the first part, a system based on imputation of missing values fills in the blanks in the scoring matrix. For this end, among the methods of the missing data imputation, we designed a method that was compatible with filling the data set in very sparse conditions, and then generalized it to our own method. In this regard, we have proposed a method based on the grey distance clustering. In the second part, which itself is a hybrid ontology-based recommender system, we first extract the information of each item with the help of a web crawler, then based on a basic article, we produce our own limited ontology, and after that we apply our proposed method. Then, with the help of a proposed method, we improve the ontology structure, thus increasing the accuracy of measuring semantic similarity between the items and users in later stages, and significantly improving the effectiveness of the created recommendations. It should be noted that this ontology is not comprehensive. Finally, we measure the similarity of item-items, user-users, and user-items using an innovative basic ontology similarity measurement method. By the use of this similarity matrix, we cluster users and items, and then store similar users and items as a new feature in the user/item profile for each user/item. This will help us speed up the process of looking for similar users and similar items in the future. In fact, based on this feature, we have increased the speed of the whole work. Since we have set our goal to build a system that makes a balance between the two criteria of accuracy and speed, we use these two criteria to evaluate the proposed system using a real data set. The results of comparing our proposed method with some up-to-date similar methods presented in this field (using the same data set) implies that our method is slower than fast methods, although it is more accurate than them. These results also suggest that the proposed method is faster than accurate methods and its quality is more competitive or even better than them.

    Keywords: Recommender System, Ontology, Memory-based Filtering, Model-based Filtering, Clustering, k-NN
  • مهسا رحیمی رسکتی، همایون موتمنی، ابراهیم اکبری، حسین نعمت زاده

    ما در دنیایی زندگی می کنیم که وجود دوربین های خانگی و قدرت رسانه باعث شده تا با حجم خیره کننده ای از داده های ویدیویی سر و کار داشته باشیم. مسلم است روشی که بتوان با کمک آن، این حجم بالای فیلم را با سرعت و بهینه مورد دسترسی و پردازش قرار داد، اهمیت ویژه ای پیدا می کند. با کمک خلاصه سازی ویدیویی این مهم حاصل شده و فیلم به یک سری فریم یا کلیپ کوتاه ولی بامعنی خلاصه می گردد. در این پژوهش سعی گردیده در ابتدا داده با کمک الگوریتم K-Medoids خوشه بندی شود؛ سپس در ادامه با کمک شبکه توجه گرافی کانولوشنالی، جداسازی زمانی و گرافی انجام گیرد و در گام بعدی با کمک روش ردکردن اتصال، نویزها و موارد تکراری حذف گردد. سرانجام با ادغام نتایج به دست آمده از دو گام متفاوت گرافی و زمانی، خلاصه سازی انجام گیرد. نتایج به دو صورت کیفی و کمی و بر روی سه دیتاست SumMe، TVSum و OpenCv مورد بررسی قرار گرفت. در روش کیفی به طور میانگین 88% نرخ صحت در خلاصه سازی و 31% میزان خطا دست یافته که به نسبت سایر روش ها جزء بالاترین نرخ صحت است. در ارزیابی کمی نیز روش پیشنهادی، کارایی بالاتری نسبت به روش های موجود دارد.

    کلید واژگان: کاوش ویدئویی, خلاصه سازی ویدئویی, خوشه بندی, K-Medoids, شبکه توجه گرافی کانولوشنالی
    Mahsa RahimiResketi, Homayun Motameni, Ebrahim Akbari, Hossein Nematzadeh

    The increase of cameras nowadays, and the power of the media in people's lives lead to a staggering amount of video data. It is certain that a method to process this large volume of videos quickly and optimally becomes especially important. With the help of video summarization, this task is achieved and the film is summarized into a series of short but meaningful frames or clips. This study tried to cluster the data by an algorithm (K-Medoids) and then with the help of a convolutional graph attention network, temporal and graph separation is done, then in the next step with the connection rejection method, noises and duplicates are removed, and finally summarization is done by merging the results obtained from two different graphical and temporal steps. The results were analyzed qualitatively and quantitatively on three datasets SumMe, TVSum, and OpenCv. In the qualitative method, an average of 88% accuracy rate in summarization and 31% error rate was achieved, which is one of the highest accuracy rates compared to other methods. In quantitative evaluation, the proposed method has a higher efficiency than the existing methods.

    Keywords: Video mining, video summarization, clustering, K-Medoids, convolutional attention network
  • Meysam Roostaee *, Razieh Meidanshahi

    In this study, we sought to minimize the need for redundant blood tests in diagnosing common diseases by leveraging unsupervised data mining techniques on a large-scale dataset of over one million patients' blood test results. We excluded non-numeric and subjective data to ensure precision. To identify relationships between attributes, we applied a suite of unsupervised methods including preprocessing, clustering, and association rule mining. Our approach uncovered correlations that enable healthcare professionals to detect potential acute diseases early, improving patient outcomes and reducing costs. The reliability of our extracted patterns also suggest that this approach can lead to significant time and cost savings while reducing the workload for laboratory personnel. Our study highlights the importance of big data analytics and unsupervised learning techniques in increasing efficiency in healthcare centers.

    Keywords: Clinical Data, data mining, Unsupervised learning, Association Rule Mining, Clustering
  • Saba Beiranvand *, MohammadAli Zare Chahooki

    Software Cost Estimation (SCE) is one of the most widely used and effective activities in project management. In machine learning methods, some features have adverse effects on accuracy. Thus, preprocessing methods based on reducing non-effective features can improve accuracy in these methods. In clustering techniques, samples are categorized into different clusters according to their semantic similarity. Accordingly, in the proposed study, to improve SCE accuracy, first samples are clustered based on original features. Then, a feature selection (FS) technique is separately done for each cluster. The proposed FS method is based on a combination of filter and wrapper FS methods. The proposed method uses both filter and wrapper advantages in selecting effective features of each cluster, with less computational complexity and more accuracy. Furthermore, as the assessment criteria have significant impacts on wrapper methods, a fused criterion has also been used. The proposed method was applied to Desharnais, COCOMO81, COCONASA93, Kemerer, and Albrecht datasets, and the obtained Mean Magnitude of Relative Error (MMRE) for these datasets were 0.2173, 0.6489, 0.3129, 0.4898 and 0.4245, respectively. These results were compared with previous studies and showed improvement in the error rate of SCE.

    Keywords: Software Cost Estimation (SCE), Software Effort Estimation (SEE), Machine Learning methods, Clustering, Feature Selection
  • پیمان نعمت الهی*
    در اغلب کاربردهای شبکه های حسگر بیسیم امکان شارژ کردن باتری گره ها وجود ندارد، بنابراین پروتکل های طراحی شده برای این شبکه ها باید حتی المقدور انرژی-کارآمد باشند. خوشه بندی، یکی از رویکردهای اصلی برای طراحی پروتکل های انرژی-کارآمد و مقیاس پذیر شبکه های حسگر بیسیم است. استفاده از خوشه ها سربار ارتباطی ناشی از ارسال داده ها و در نتیجه مصرف انرژی و تداخل امواج بین گره ها را کاهش می دهد. علیرغم اهمیت خوشه بندی در شبکه های حسگر بیسیم، تاکنون معیارهایی برای ارزیابی کیفیت خوشه های حاصل از الگوریتم های خوشه بندی ارایه نشده است. در این مقاله، پس از ارایه چندین معیار برای ارزیابی کیفیت خوشه های تشکیل شده در پروتکل های خوشه بندی مختلف، این معیارها با استفاده از منطق فازی ترکیب می شوند. با کمک معیار فازی حاصل بهتر می توان کیفیت خوشه های تشکیل شده در الگوریتم های مختلف خوشه بندی را با هم مقایسه کرد. در پایان، درستی و امکانپذیر بودن این معیار ارزیابی فازی، با شبیه سازی سه پروتکل کاربردی و مقایسه نتایج ارزیابی معیارها با آنچه در واقعیت اتفاق افتاده است صحت سنجی می شود.
    کلید واژگان: خوشه بندی, منطق فازی, کارآمدی انرژی, طول عمر شبکه, شبکه حسگر بیسیم
    Peyman Neamatollahi *
    In most applications of wireless sensor networks, it is not possible to charge the nodes' batteries, so the protocols designed for these networks must be as energy-efficient as possible. Clustering is one of the main approaches to designing energy-efficient and scalable protocols for wireless sensor networks. The use of clusters reduces the communication overhead caused by data transmission as well as energy consumption and wave interference between nodes. Despite the importance of clustering in wireless sensor networks, no criteria have yet been proposed to evaluate the quality of clusters derived from clustering algorithms. This paper defines several criteria for evaluating the quality of clusters formed in different clustering protocols. Then, these criteria are combined using fuzzy logic. With the help of the resulting fuzzy criterion, the quality of clusters formed in different clustering algorithms can be better compared. Finally, the correctness and feasibility of this fuzzy evaluation criterion have been verified by simulating three applied protocols and comparing the metrics evaluation results with what is actually happening.
    Keywords: Clustering, Fuzzy logic, Energy efficiency Network lifetime, Wireless Sensor Network
  • الهام حامدی، میترا میرزارضایی*

    با اختصاص بخش قابل توجهی از بودجه مربوط به حقوق و دستمزد بانک ها به شیوه پرداخت مبتنی بر عملکرد توجه به پتانسیل های کسب و کاری شعب اهمیت یافته است. از این رو مسیله تعیین ضرایب اهمیت شاخص های ارزیابی عملکرد مبتنی بر فضای کسب و کاری به یک چالش برای مدیران بانکی تبدیل شده است. در این مقاله مسیله بهینه سازی ضرایب اهمیت شاخص های ارزیابی عملکرد شعب در یکی از بانک های دولتی ایران با در نظرگرفتن فضای کسب و کاری شعب مورد بررسی قرار گرفته است. برای این منظور یک رویکرد دو مرحله ای ارایه شده در گام اول از یک روش خوشه بندی رایج برای تعیین فضای کسب و کاری هر شعبه استفاده شده و در گام دوم یک الگوریتم ژنتیک دوهدفه نوین به منظور بهینه سازی ضرایب اهمیت هر خوشه پیشنهاد شده است. روش پیشنهادی با چهار روش شناخته شده مقایسه شده و نتایج در مواردی عملکرد موثر روش پیشنهادی را نشان می دهد.

    کلید واژگان: فضای کسب و کاری شعب, ضرایب اهمیت شاخص های ارزیابی عملکرد, خوشه بندی, بهینه سازی, الگوریتم ژنتیک چندهدفه
    Elham Hamedi, Mitra Mirzarezaee*

    Nowadays, we are witnessing financial markets becoming more competitive, and banks are facing many challenges to attract more deposits from depositors and increase their fee income. Meanwhile, many banks use performance-based incentive plans to encourage their employees to achieve their short-term goals. In the meantime, fairness in the payment of bonuses is one of the important challenges of banks, because not paying attention to this issue can become a factor that destroys the motivation among employees and prevents the bank from achieving its short-term and mid-term goals. This article is trying to tackle the problem of optimizing the coefficients of branch performance evaluation indicators based on their business environment in one of the state banks of Iran. In this article, a two-objective genetic algorithm is proposed to solve the problem. This article is comprised of four main sections. The first section is dedicated to the problem definition which is what is our meaning of optimizing the importance coefficients of branches based on the business environment. The second section is about our proposed solution for the defined problem. In the third section, we are comparing the performance of the proposed two-objective genetic algorithm on the defined problem with the performance of four well-known multi-objective algorithms including NSGAII, SPEAII, PESAII, and MOEA/D. And finally, the set of ZDT problems which is a standard set of multi-objective problems is taken into account for evaluating the general performance of the proposed algorithm comparing four well-known multi-objective algorithms. Our proposed solution for solving the problem of optimizing branch performance coefficients includes two main steps. First, identifying the business environment of the branches and second, optimizing the coefficients with the proposed two-objective genetic algorithm. In the first step, the k-means clustering algorithm is applied to cluster branches with similar business environments. In the second step, to optimize the coefficients, it is necessary to specify the fitness functions. The defined problem is a two-objective problem, the first objective is to minimize the deviation of the real performance of the branches from the expected performance of them, and the second objective is to minimize the deviation of the coefficients from the coefficients determined by the experts. To solve this two-objective problem, a two-objective genetic algorithm is proposed. In this article, two approaches are adopted to compare the proposed solution performance. In the first stage, the results of applying the proposed two-objective genetic algorithm have been compared with the results of applying four well-known multi-objective genetic algorithms on the problem of optimizing the coefficients. The results of this comparison show that the proposed algorithm has outperformed the other compared methods based on the S indicator and run time, and it is also ranked second after the NSGAII algorithm in terms of the HV indicator. Finally, for evaluating the performance of the proposed algorithm with other well-known methods, the set of ZDT problems including ZDT1, ZDT2, ZDT3, ZDT4, and ZDT6 has also been taken into consideration. At this stage, the performance of the proposed algorithm has been compared with the four mentioned algorithms based on four key indicators, including GD, S, H, and run time. The results show, the proposed algorithm has outperformed significantly in terms of run time in all five ZDT problems. In terms of GD indicator, the performance of our proposed algorithm is located in the first or second rank among all considered algorithms. In addition, in terms of S and H indicators in many cases, the proposed algorithm outperformed the other well-known algorithms.

    Keywords: Branch business space, coefficients of performance evaluation indicators, clustering, optimization, two-objective genetic algorithm
  • سمانه شیبانی، حسن شاکری *، رضا شیبانی

    در دهه ‏های اخیر رویکرد محاسبه و اعمال اعتماد بین کاربران در طراحی سیستم‏های پیشنهاددهنده مورد توجه محققان قرار گرفته است. با وجود این، اغلب سیستم‏های پیشنهاددهنده مبتنی بر اعتماد فقط از یک فاکتور برای تخمین مقدار اعتماد استفاده می ‏کنند. در این مقاله یک رویکرد چندفاکتوری برای تخمین اعتماد بین کاربران سیستم‏های پیشنهاددهنده ارایه می ‏شود. در طرح پیشنهادی، ابتدا کاربران سیستم براساس شباهت مبتنی بر اطلاعات دموگرافیک و تاریخچه ارزشیابی‏ها خوشه ‏بندی می ‏شوند. برای تخمین ارزشیابی کاربر فعال به یک آیتم خاص، مقدار اعتماد بین او و سایر کاربران هم‏خوشه ‏اش با درنظرگرفتن فاکتورهای زمان، مکان، و زمینه ارزشیابی محاسبه می ‏شود. برای این منظور، ما الگوریتمی مبتنی بر توزیع بتا معرفی می‏ کنیم. یک معیار مبتنی بر درخت جدید برای محاسبه شباهت معنایی بین زمینه ‏ها مورد استفاده قرار می ‏گیرد. در نهایت، ارزشیابی کاربر فعال با استفاده از میانگین ‏گیری وزنی تخمین زده می ‏شود که مقادیر اعتماد به عنوان وزن در میانگین ‏گیری منظور می ‏شوند. طرح پیشنهادی بر روی سه مجموعه ‏داده مطرح اجرا شده و ارزیابی و مقایسه نشان می ‏دهد که این طرح نتایج بهتری از نظر ملاک‏های دقت و کارآمدی نسبت به روش‏های موجود ارایه می ‏کند.

    کلید واژگان: اعتماد, پیشنهاد آگاه از زمینه, توزیع بتا, خوشه‏ ‏بندی, سیستم ‏های پیشنهاددهنده
    Samaneh Sheibani, Hassan Shakeri *, Reza Sheybani

    Calculation and applying trust among users has become popular in designing recommender systems in recent years. However, most of the trust-based recommender systems use only one factor for estimating the value of trust. In this paper, a multi-factor approach for estimating trust among users of recommender systems is introduced. In the proposed scheme, first, users of the system are clustered based on their similarities in demographics information and history of ratings. To predict the rating of the active user into a specific item, the value of trust between him and the other users in his cluster is calculated considering the factors i.e. time, location, and context of their rating. To this end, we propose an algorithm based on beta distribution. A novel tree-based measure for computing the semantic similarity between the contexts is utilized. Finally, the rating of the active user is predicted using weighted averaging where trust values are considered as weights. The proposed scheme was performed on three datasets, and the obtained results indicated that it outperforms existing methods in terms of accuracy and other efficiency metrics.

    Keywords: Recommender systems, Trust, Beta Distribution, Clustering, context-aware recommendation
  • محمدعلی باهری فرد، رسول کاظم زاده*، احمد صادقی یزدانخواه، موسی مرزبند

    امروزه با توسعه زیرساخت های شبکه الکتریکی و پدید آمدن مفاهیمی چون پاسخگویی تقاضا و استفاده از خودروهای الکتریکی در اهدافی غیر از حمل و نقل، شناختن الگوهای رفتاری مشخصات فنی شبکه به منظور مدیریت بهینه سیستم های الکتریکی بسیار اهمیت یافته است.یکی از پارامترهای حیاتی در مدیریت سیستم برق، عدم تعادل شبکه توزیع است. راه های مختلفی برای بهبود و کنترل عدم تعادل شبکه وجود دارد. یکی از این راه ها تشخیص رفتار پروفایل های عدم تعادل باس در شبکه با استفاده از تجزیه و تحلیل داده ها است. در گذشته ، تجزیه و تحلیل داده های برای محیط های بزرگی مانند ایالات و کشورها انجام می شد. با این حال پس از ظهور مفهوم شبکه های هوشمند ، مطالعه رفتاری و شناخت این الگوها در محیط های کوچک و مقیاس پایین، نقش اساسی و مهمی در مدیریت عمیق این شبکه ها پیدا کرده است. یکی از روش های مناسب در تشخیص الگوهای رفتاری استفاده از داده کاوی است. در این مقاله از مفاهیم خوشه بندی سلسله مراتبی و میانگین-k برای تشخیص الگوی رفتاری شاخص عدم تعادل در یک شبکه توزیع نامتعادل استفاده میشود. سپس با تعیین خوشه هدف و با استفاده از پاسخگویی تقاضا به بهبود شاخص عدم تعادل پرداخته میشود. این روش باعث کاهش تعداد باسهای شرکت کننده در برنامه های پاسخگویی تقاضا میشود. در ادامه با استفاده از مفهوم طبقه بندی، یک درخت تصمیم در راستای کاهش زمان میترینگ ساخته میشود.

    کلید واژگان: طبقه بندی, خوشه بندی, شبکه توزیع نامتعادل, داده کاوی, خودروی الکتریکی
    M.A. Baherifard, R. Kazemzadeh *, A.S. Yazdankhah, M. Marzband

    With the development of electrical network infrastructure and the emergence of concepts such as demand response and using electric vehicles for purposes other than transportation, knowing the behavioral patterns of network technical specifications to manage electrical systems has become very important optimally. One of the critical parameters in the electrical system management is the distribution network imbalance. There are several ways to improve and control network imbalances. One of these ways is to detect the behavior of bus imbalance profiles in the network using data analysis. In the past, data analysis was performed for large environments such as states and countries. However, after the emergence of smart grids, behavioral study and recognition of these patterns in small-scale environments has found a fundamental and essential role in the deep management of these networks. One of the appropriate methods in identifying behavioral patterns is data mining. This paper uses the concepts of hierarchical and k-means clustering methods to identify the behavioral pattern of the imbalance index in an unbalanced distribution network. For this purpose, first, in an unbalanced network without the electric vehicle parking, the imbalance profile for all busses is estimated. Then, by applying the penetration coefficient of 25% and 75% for electric vehicles in the network, charging\discharging effects on the imbalance profile is determined. Then, by determining the target cluster and using demand response, the imbalance index is improved. This method reduces the number of busses competing in demand response programs. Next, using the concept of classification, a decision tree is constructed to minimize metering time.

    Keywords: Classification, Data Mining, decision tree, demand response, hierarchical clustering, k-means, Electric Vehicle, ‎unbalanced distribution network.‎
  • محمدرضا کیوان پور، زهرا کریمی زندیان، نسرین متقی
    MohammadReza Keyvanpour *, Zahra Karimi Zandian, Nasrin Mottaghi

    Regression testing reduction is an essential phase in software testing. In this step, the redundant and unnecessary cases are eliminated, whereas software accuracy and performance are not degraded. So far, various researches have been proposed in regression testing reduction field. The main challenge in this area is to provide a method that maintain fault-detection capability while reducing test suites. In this paper, a new test suite reduction technique is proposed based on data mining. In this method, in addition to test suite reduction, its fault-detection capability is preserved using both clustering and classification. In this approach, regression test cases are reduced using a bi-criteria data mining-based method in two levels. In each level, the different and useful coverage criteria and clustering algorithms are used to establish a better compromise between test suite size and the ability of reduced test suite fault detection. The results of the proposed method have been compared to the effects of five other methods based on PSTR and PFDL. The experiments show the efficiency of the proposed method in the test suite reduction in maintaining its capability in fault detection.

    Keywords: Test suite reduction, Software, data mining, Coverage criteria, Clustering
  • Ali Ghorbanian, Hamideh Razavi *

    In time series clustering, features are typically extracted from the time series data and used for clustering instead of directly clustering the data. However, using the same set of features for all data sets may not be effective. To overcome this limitation, this study proposes a five-step algorithm that extracts a complete set of features for each data set, including both direct and indirect features. The algorithm then selects essential features for clustering using a genetic algorithm and internal clustering criteria. The final clustering is performed using a hierarchical clustering algorithm and the selected features. Results from applying the algorithm to 81 data sets indicate an average Rand index of 72.16%, with 38 of the 78 extracted features, on average, being selected for clustering. Statistical tests comparing this algorithm to four others in the literature confirm its effectiveness.

    Keywords: time series, Clustering, Feature extraction, Feature Selection, data mining
  • سمیرا عباسی، فاطمه امیری*

    در بحران کرونا با طیف وسیعی از افکار، احساسات و نگرش ها در شبکه های اجتماعی مواجه ایم. دستیابی به درک جامعی از نگرش های جامعه نیازمند پردازش این داده هاست. هدف این پژوهش شناسایی ویژگی پیام هایی است که منجر به قطبیت های احساسی مختلف در شبکه های اجتماعی می شوند. در این پژوهش از پست های فارسی توییتر، اینستاگرام، تلگرام و کانال های خبری و تکنیک های پردازش زبان طبیعی استفاده شده است. در روش پیشنهادی این پژوهش، خوشه بندی دو مرحله ای مبتنی بر شبکه عصبی خود سازمانده و K-میانگین استفاده شده است. نتایج نشان دادند پست های حوزه سلامت و فرهنگ با قطبیت منفی، به احساساتی مانند ترس، تنفر، غم و خشم منجر شده است. پیام های مربوط به عملکرد هیجانی و نادرست مردم با احساس غم، ترس و استرس همراه است و امید در جامعه را کاهش داده است.

    کلید واژگان: کرونا, شبکه های اجتماعی, تحلیل احساسات, خوشه بندی
    Samira Abasi, Fatemeh Amiri*

    In the Corona crisis, we face a wide range of thoughts, feelings, attitudes, and behaviors on social media. This data contains valuable information for responding to the crisis by the people and administrators. The goal of this study is to identify the characteristics of messages that lead to different emotional polarities. This study aims to investigate the information posted by Twitter, Instagram, and Telegram users and news related to the COVID-19 pandemic in Iran. The data extracted from social networks are focused on the period of January 21, to April 29, 2020, which were shared in Iran and in Persian. It should be noted that the data set and their labels were published by the Cognitive Sciences and Technologies Council (CSTC) in Iran. In this work, the content of each post was pre-processed. Pre-processing was performed by removing stop words, normalizing the words, tokenizing, and stemming. The emotion labels were based on plutchik’s model and included joy, trust, fear, surprise, sadness, anticipation, anger, disgust, stress, and other emotions. In this study, clustering algorithms were used to analyze social media posts. We applied a two-stage clustering method. The proposed clustering algorithm was a combination of self-organized neural network and K-means algorithms. According to our proposed algorithm, the data were clustered through SOM at first, the results of which provided the initial cluster centers for the K-means algorithm. Implementations were built in Python version 3.7 and MATLAB R2015a. Hazm Tools was used for pre-processing data, and clustering was done in MATLAB. The Davies-Bouldin clustering evaluation was applied to find the optimal number of clusters. This measure was calculated for the number of clusters in the range of 2-50 in the two-stage clustering method. The results showed that the optimal number of clusters was ten. Analysis of the results showed that posts related to health and culture with negative polarity led to negative emotions such as fear, hatred, sadness, and anger. Messages about people's emotional and improper functioning have led to feelings of sadness, fear, and stress, and reduced hope in society. The results revealed a strong correlation between anger and disgust. Also, a positive correlation between fear, stress, and sadness was observed. In order to reduce the negative feelings and to create a sense of trust in the authorities, we suggest clarifying about the corona pandemic

    Keywords: : COVID-19, Social media, Sentiment analysis, Clustering
  • صدیقه صفری، فاطمه افسری*

    با توجه به افزایش روزافزون اطلاعات و تحلیل دقیق آنها مساله خوشه بندی که برای آشکارسازی الگوهای پنهان موجود در داده ها مورد استفاده قرار می گیرد، همچنان از اهمیت بالایی برخوردار است. از طرفی خوشه بندی داده های با ابعاد بالا با استفاده از روش های سنتی پیشین دارای محدودیت های زیادی است. در مقاله حاضر، یک روش خوشه بندی گروهی نیمه نظارتی برای مجموعه ای از داده های پزشکی با ابعاد بالا پیشنهاد می شود. در فرموله سازی مساله خوشه بندی اطلاعات نظارتی اندکی به عنوان دانش پیشین با استفاده از اطلاعات مربوط به تشابه و یا عدم تشابه (بصورت تعدادی زوج محدودیت های دوبه دو) در نظر گرفته می شود. در ابتدا با استفاده از خاصیت تراگذری زوج محدودیت های دوبه دو را بر روی تمام داده ها تعمیم می دهیم. سپس با تقسیم فضای ویژگی به صورت تصادفی به چندین زیرفضای نابرابر ابعاد داده ها را کاهش می دهیم. خوشه بندی طیفی نیمه نظارتی مبتنی بر گراف لاپلاسی- p در هر زیر فضا بطور مستقل انجام می شود. سپس با استفاده از نتایج هر کدام یک ماتریس مجاورت، حاصل از تجمیع نتایج هر کدام (مبتنی بر یادگیری گروهی) ایجاد می شود. در نهایت با استفاده از چند عملگر جستجو روی زیرفضاها، بهترین زیرفضا، یعنی زیرفضایی که بهترین نتیجه خوشه بندی را دارد، می یابیم. نتایج آزمایشات متعدد بر روی چندین داده ی پزشکی با ابعاد بالا نشان می دهد که رویکرد پیشنهادی، عملکرد و کارآیی بهتری نسبت به روش های پیشین دارد.

    کلید واژگان: خوشه بندی, یادگیری زیرفضا, یادگیری گروهی, یادگیری نیمه نظارتی, زوج محدودیت های دوبه دو
    Sedigheh Safari, Fatemeh Afsari*

    Due to the increasing information and the detailed analysis of them, the clustering problems that detect the hidden patterns lie in the data are still of great importance. On the other hand, clustering of high-dimensional data using previous traditional methods has many limitations. In this study, a semi-supervised ensemble clustering method is proposed for a set of high-dimensional medical data. In the proposed method of this study, little information is available as prior knowledge using the information on similarity or dissimilarity (as a number of pairwise constraints). Initially using the transitive property, we generalize the pairwise constraints to all data. Then we divide the feature space into a number of sub-spaces, and to find the optimal clustering solution, the feature space is divided into an unequal number of sub-spaces randomly. A semi-supervised spectral clustering based on the p-Laplacian graph is performed at each sub-space independently. Specifically, to increase the accuracy of spectral clustering, we have used the spectral clustering method based on the p-Laplacian graph. The p-Laplacian graph is a nonlinear generalization of the Laplacian graph. The results of any clustering solutions are compared with the pairwise constraints and according to the level of matching, a degree of confidence is assigned to each clustering solution. Based on these degrees of confidence, an ensemble adjacency matrix is formed, which is the result of considering the results of all clustering solutions for each sub-space. This ensemble adjacency matrix is used in the final spectral clustering algorithm to find the clustering solution of the whole sub-space. Since the sub-spaces are generated randomly with an unequal number of features, clustering results are strongly influenced by different initial values. Therefore, it is necessary to find the optimal sub-space set. To this end, a search algorithm is designed to find the optimal sub-space set. The search process is initialized by forming several sets (we call each set an environment) consisting of several numbers of sub-spaces. An optimal environment is the one that has the best clustering results. The search algorithm utilized three search operators to find the optimal environment. The search operators search all the environments and the consequent sub-spaces both locally and globally. These operators combine two environments and/or replace an environment with a newly generated one. Each search operator tries to find the best possible environment in the entire search space or in a local space. We evaluate the performance of our proposed clustering schema on 20 cancer gene datasets. The normalized mutual information (NMI) criterion and the adjusted rand index (ARI) are used to evaluate the performance evaluation. We first examine the effect of a different number of pairwise constraints. As expected, with increasing the number of pairwise constraints, the efficiency of the proposed method also increases. For example, the NMI value increases from 0.6 to 0.9 on the Khan-2001 dataset, when the number of pairwise constraints increases from 20 to 100. More number of pairwise constraints means more information is available, which helps to improve the performance of the clustering algorithm. Furthermore, we examine the effect of the number of random subspaces. It is observed that increasing the number of random subspaces has a positive effect on clustering performance with respect to the NMI value. In most datasets, when the number of sub-spaces reaches 20, the performance of the proposed method does not change much and is stable. Examining the effect of sampling rate for random subspace generation shows that the proposed method has the best performance in most cancer datasets, such as Armstrong-2002-v3, and Bredel-2005 datasets, when the random subspace generation rate is 0.5, and by deviating the rate from 0.5, the level of satisfaction decreases. Then, the results of the proposed idea are compared with the results of the method proposed in the reference [21] according to ARI and we see that our proposed method has performed better in 12 data sets out of 20 data sets than the method proposed in the reference [21]. Finally, the proposed idea is compared with some metric learning approaches with respect to NMI. We have observed that the proposed method obtained the best results compared to other compared methods on 11 datasets out of 20 datasets. It also achieved the second-best result on 6 out of 20 datasets. For example, the value NMI obtained in the proposed method is 0.1042 more than the reference [21] and it is 0.1846 more than RCA and it is 0.4 more than ITML and also it is 0.468 more than DCA on the Bredel-2005 dataset. Utilizing ensemble clustering methods besides the confidence factor improves the ability of the proposed algorithm to achieve better results. Also, utilizing the transitive operators as well as the selection of random subspaces of unequal sizes play an important role in achieving better performance for the proposed algorithm. Using the p-Laplacian spectral clustering method produces a better, more balanced, and normal volume of clusters compared to the standard spectral clustering. Another effective approach to the performance of the proposed method is to use search operators to find the best subspace, which leads to better results.

    Keywords: Clustering, Subspace Learning, Ensemble Learning, Semi-supervised Learning, Pairwise Constraints
  • مهرداد آشتیانی، شفق رستگاری

    رایانش ابری، یک مدل محاسباتی مبتنی بر شبکه است که به منظور عرضه، مصرف و ارایه خدماتی نظیر زیرساخت، نرم افزار و منابع رایانشی از طریق شبکه ایجاد شده است. مسیله زمان بندی مجموعه کارها در این سیستم ها به مسیله ای مهم و پیچیده تبدیل شده است و حل این مسیله می تواند عملکرد و تعامل گره ها در این سیستم توزیع شده را بهبود ببخشد. الگوریتم های زمان بندی، با در نظر گرفتن کیفیت خدمات اقدام به تخصیص کارها به منابع می کنند و هدف از زمان بندی در این سیستم ها به حداکثر رساندن بازدهی سیستم با اختصاص دادن کارهای صحیح به ماشین های صحیح، به حداقل رساندن زمان اجرا و به حداکثر رساندن استفاده از منابع است. هدف از انجام این پژوهش ارایه رویکردی برای استفاده بهینه از منابع است. از آنجایی که در کارهای پیشین در خصوص زمان بندی وظایف، دسته بندی وظایف و منابع در برخی موارد توزیع دقیق آن ها را بر روی منابع تضمین نمی کنند، در این مقاله پس از دسته بندی وظایف و منابع به کمک برخی ویژگی های آن ها و با کمک یک شبکه عصبی به دنبال یافتن بهترین ماشین برای وظیفه انتخاب شده در سیستم می گردیم. لایه های موجود در شبکه عصبی و مرحله های یادگیری و در نهایت استفاده از مدل آموزش دیده به ما در انتخاب منبع مناسب موجود برای وظیفه انتخاب شده کمک می کند و این موضوع می تواند بازدهی سیستم را بهبود ببخشد. نتایج حاصل از ارزیابی راه حل ارایه شده حاکی از زمان اتمام وظایف کوتاه تر الگوریتم پیشنهادی نسبت به الگوریتم های تصادفی، اولین برازش و Tetris است به طوری که میانگین زمان اتمام وظایف حداقل 10 واحد زمانی نسبت به الگوریتم اولین برازش و Tetris و همچنین تقریبا 1 واحد زمانی از الگوریتم انتخاب تصادفی بهتر است.

    کلید واژگان: زمان بندی وظایف, رایانش ابری, خوشه بندی, یادگیری تقویتی عمیق
  • فرزاد رحیمی موگویی، رضا کامران راد*، عظیم الله زارعی

    با توجه به سهم بالای مصرف برق در صنایع کشور، طی چند سال اخیر طرح های مختلفی از جمله خاموشی های سراسری در اوقات پیک مصرف اجرا شده است. امروزه داده کاوی به عنوان فرآیند کشف الگوهای مفید از پایگاه داده و یکی از روش های موثر برای تجزیه و تحلیل، مدل سازی و پیش بینی مصرف انرژی کاربرد فراوانی پیدا کرده است. در این مطالعه، مدلی تلفیقی جهت بررسی رفتار مصرف برق با استفاده از تکنیک های خوشه بندی کا میانگین و قوانین وابستگی جهت کشف و استخراج الگو از مجموعه داده های مربوط به مصرف برق واحدهای صنعتی مستقر در یکی از شهرک های صنعتی استان تهران طراحی شده است.  مشاهدات نشان می دهد که طی ماه های گرم سال، میانگین مصرف واحدهای خوشه پرمصرف که حدود 34 درصد واحدهای صنعتی مورد مطالعه را شامل می شود، حدود 4.2 برابر مصرف خوشه کم مصرف و حدود 1.7 برابر مصرف خوشه متوسط است. با بکارگیری مدل پیشنهادی در این پژوهش ضمن شناسایی واحدهای پرمصرف و اعمال سیاست های هوشمندانه و عادلانه در خاموشی اجباری، می توان علاوه بر تشویق واحدهای صنعتی به بهینه سازی مصرف انرژی، از ایجاد خسارت ناشی از توقف های اجباری تولید ممانعت کرد. رویکرد نوآورانه این مدل قادر به کنترل حجم زیادی از داده ها برای برنامه ریزی مناطق مختلف با هدف بهینه سازی در مصرف انرژی آن می باشد.

    کلید واژگان: داده کاوی, خوشه بندی, تجزیه و تحلیل سلسله مراتبی, الگوریتم کا میانگین, قوانین وابستگی, بهینه سازی مصرف انرژی
    Farzad Rahimi, Reza Kamranrad*, Azimolah Zarei

    Due to the high share of electricity consumption in the country's industries, in recent years, various projects have been implemented, including reducing the amount of load by implementing nationwide blackouts during peak consumption times. Today, data mining is widely used as a process of discovering useful patterns from the database and one of the effective methods for analyzing, modeling and predicting energy consumption. In this study, an integrated clustering-association data mining model has been designed to investigate power consumption behavior to discover and extract the pattern from the power consumption data set of industrial units located in one of the industrial towns of Tehran province. Observations show that during the warm months of the year, the average consumption of high-consumption cluster units, which includes about 34% of the studied industrial units, is about 4.2 times the consumption of low-consumption clusters and about 1.7 times the consumption of medium clusters. By using the proposed model in this study, in addition to identifying high-consumption units and implementing smart and fair policies in forced shutdowns, it is possible to prevent damage caused by forced shutdowns and industrial units can be encouraged to optimize energy consumption. The innovative approach of this model is able to control large volumes of data for planning different areas with the aim of optimizing its energy consumption.

    Keywords: Data mining, clustering, hierarchical analysis, K-means algorithm, Dependency laws, optimization of energy consumption
  • مهدیه رفیعی، بهروز شاهرخ زاده*

    هدف سیستم های توصیه گر معرفی آیتم هایی به کاربران است که می تواند موردعلاقه آنها باشد. یکی از چالش های اصلی که عملکرد سیستم های توصیه گر را تحت تاثیر قرار می دهد مشکل شروع سرد است. زمانی که کاربر یا آیتم جدیدی به مجموعه اضافه می شود، سیستم به دلیل عدم اطلاعات کافی نمی تواند پیشنهادهای مناسبی را ارایه کند. در این مقاله رویکردی ارایه می شود که در آن از داده های رسانه های اجتماعی مانند توییتر برای ایجاد یک پروفایل رفتاری استفاده می شود. سپس با استفاده از تکنیک های یادگیری ماشین، پروفایل های کاربران خوشه بندی می شوند. براساس این خوشه بندی ها پیش بینی هایی با استفاده از الگوریتم های جنگل تصادفی و ارتقای گرادیان ایجاد می شود. بنابراین کاربر مجبور نخواهد بود هیچ نوع داده ای را به طور صریح ارایه دهد و با کمک اطلاعات شبکه های اجتماعی کاربران، مشکل شروع سرد کاهش می یابد. بدین ترتیب که با این داده ها، یک پروفایل کاربری ایجاد شده و به عنوان ورودی سیستم توصیه گر استفاده می شود. آزمایش های متعددی انجام شد و در مقایسه با برخی از الگوریتم های جدید شروع سرد، نتایج رضایت بخش بود. در این مقاله به این نتیجه رسیده ایم که فرایند خوشه بندی میزان دقت عملکرد مدل ها را بالا می برد و میانگین خطای مطلق را کاهش می دهد و همچنین الگوریتم ارتقای گرادیان نسبت به الگوریتم جنگل تصادفی از کارایی بهتری برخوردار است.

    کلید واژگان: سیستم های توصیه گر, مساله شروع سرد, رسانه اجتماعی, خوشه بندی, جنگل تصادفی, ارتقای گرادیان
    Mahdie Rafiei, Behrooz Shahrokhzadeh*

    The goal of recommender system is to provide desired items for users. One of the main challenges affecting the performance of recommendation systems is the cold-start problem that is occurred as a result of lack of information about a user/item. In this article, first we will present an approach, uses social streams such as Twitter to create a behavioral profile, then user profiles are clustering with machine learning techniques. Based on this clustering, predictions are made using machine learning techniques such as the Random Forest algorithm (RF) and the Gradient Boosting algorithm (GB). Therefore, the user is not required to provide any kind of data explicitly anymore. As a result of this method, cold start problem will decrease among users' social networks. Because the system uses this data to create user profiles, this will be an input for recommender systems. Numerous experiments have been performed in this field and compared to some new cold start algorithms; very satisfactory results have been obtained. In this paper, we have concluded that the clustering process greatly increases the performance accuracy of the models and reduces the average absolute error, and also the Gradient Boosting algorithm has a better performance than the Random Forest algorithm.

    Keywords: Recommender systems, Cold-start problem, Social media, Clustering, Random Forest, Gradient Boosting
  • محمدجواد قلندری، سید مهدی حسینی اندارگلی*، نادعلی زارعی، مهدی ملازاده گل محله
    متناسب با پیشرفت رادارها در تغییر پارامترها، روش های تفکیک پالس در سیستم های شنود به جای بررسی پارامترهای توصیف کننده پالس به استخراج ویژگی از مدولاسیون درون پالسی پرداخته اند. این روش، تعداد رادارهای مدرن با قابلیت تغییر مدولاسیون درون پالسی را بیش از مقدار واقعی تخمین می زند. هدف از این مقاله تشخیص رادارهای چندحالته با انواع مدولاسیون داخلی، در یک محیط متراکم راداری است. روش پیشنهادی افزودن بخش تشخیص رادارهای چندحالته به روش های موجود تفکیک پالس است. ابتدا ویژگی های متمایزکننده هر رشته پالس تفکیک شده به روش مدولاسیون درون پالسی استخراج شده و معیارهای تشابه از هر ویژگی برای بررسی شباهت بین دو رشته پالس تعریف و محاسبه می گردد. داده ورودی ترکیبی از ویژگی های استخراج شده از داده های واقعی یک سیستم شنود با پارامترهای سنتی و ویژگی های مربوط به پارامترهای شکل پالس است که توسط یک شبیه ساز فراهم می شود. سپس جدول داده ها برای آموزش یک شبکه عصبی LVQ به کار می رود تا رادارهای چندحالته را از رادارهای مجزا تشخیص دهد. پس از آموزش شبکه، در شرایط عملیاتی جدید رادارهای چندحالته به عنوان یک رادار طبقه بندی می شوند. نتایج شبیه سازی دقت بالاتری را برای طبقه بندی با معیارهای تشابه حاصل از EPDW نسبت به معیارهای تشابه حاصل از پارامترهای کلاسیک در SNRهای مختلف نشان می دهد. همچنین افزایش دقت طبقه بندی در شبکه عصبی پرسپترون تک لایه و شبکه چندلایه در SNR برابر dB 0.5 نشان داده شده است. در مقالات مشابه تنها رادارهای چندحالته با قابلیت تغییر فرکانس و PRI بررسی شده، اما با روش پیشنهادی رادارهای با قابلیت تغییر انواع پارامترها به همراه تغییر نوع مدولاسیون درون پالسی، قابل شناسایی است. نوآوری مقاله توسعه ویژگی های متمایزکننده و ایده معیارهای تشابه برای تشخیص رادارهای چندحالته است.
    کلید واژگان: رادار چندحالته, خوشه بندی, استخراج ویژگی, معیارهای تشابه
    Javad Ghalandary, Seyed Mehdi Hosseini Andargoli *, Nadali Zarei, Mehdi Molazadeh Golmahaleh
    Due to developments of radars in changing parameters, pulse separation methods in ELINT systems have relied on intra-pulse modulation instead of analyzing common pulse description words. Number of radars in this method, may be estimated incorrectly because a modern radar with the ability in changing intra-pulse modulation type may be detected as multiple radars.The purpose of this paper is to detect multi-mode radars with various types of internal modulation in a dense radar environment. The proposed’solution is to add multi-mode radars detection to the existing pulse separation methods. In this method, by extracting the distinguishing features of each radar, similarity criteria of each feature are calculated to examine the similarity between the two pulse streams. Input data are features that  extract of  real data of a ELINT system with traditional parameters and developed parameters related to the pulse shape provided by a simulator. The dataset is then used to train a LVQ neural network to discriminate between different and multi-mode radars. After training the network, in the new operating conditions, a multi-mode radar’s pulse streams is classified as a single radar.The simulation results show a higher accuracy for classification with the similarity criteria of developed features than the criteria extracted of  classical data at different SNRs. Also, the increase in classification accuracy in single-layer perceptron and multi-layer neural network at SNR equal to 0.5 dB has been shown. In similar articles, only multi-mode radars with the ability to change frequency and PRI have been investigated, but with the proposed method, radars with the ability to change several parameters along with the type of intra-pulse modulation can be identyfied.The innovation of the article is the development of distinguishing features and the idea of ​​similarity criteria for the detection of multi-mode radars.
    Keywords: Multi-mode radar, Clustering, Feature Extraction, Similarity criteria
نکته
  • نتایج بر اساس تاریخ انتشار مرتب شده‌اند.
  • کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شده‌است. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
  • در صورتی که می‌خواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.
درخواست پشتیبانی - گزارش اشکال