جستجوی مقالات مرتبط با کلیدواژه "یادگیری بدون نظارت" در نشریات گروه "برق"
تکرار جستجوی کلیدواژه «یادگیری بدون نظارت» در نشریات گروه «فنی و مهندسی»-
اخیرا انجام پژوهشهای مختلف تحلیل داده برای یافتن و انتخاب ویژگیهای منا سب بدون دا شتن برچ سب د سته به کمک رویکردهای انتخاب ویژگی بدون نظارت ضروری شده است. علیرغم وجود چندین جعبهابزار در دسترس که روش های انتخاب ویژگی را برای کاهش ویژگیهای اضافی، ابعاد داده و هزینه های محاسباتی ارایه میدهند، نیاز به دانش برنامهنویسی و نپرداختن به داده های بدون برچسب دنیای واقعی، محبوبیت آنها را کاهش داده است. در این مطالعه جعبهابزار خودکار انتخاب ویژگی بدون نظارت Auto-UFSTool برای نرم افزار متلب پیشنهادشده که کاربرپسند و کاملا خودکار است و از رویکردهای انتخاب ویژگی بدون نظارت مختلف مشتق شده از جدیدترین پژوهشها استفاده میکند. این جعبهابزار مجموعهای از 25 رویکرد انتخاب ویژگی بدون نظارت قوی است که بیشتر آنها در پنج سال گذشته توسعه یافتهاند. بنابراین مقایسه واضح و سازمانیافته با روش های متفاوت را بدون نیاز به برنامهنویسییی امکانپذیر میکند و حتی کاربران بدون تجربه قبلی برنامهنویسییی، میتوانند از پیادهسییازی واقعی توسییر رابر کاربری گرافیکی اسیتفاده نمایند. همچنین این جعبهابزار فرصیت را برای ارزیابی نتایج انتخاب ویژگی و ایجاد نمودارها جهت مقایسیه زیرمجموعه ها با اندازه های مختلف فراهم میکند. این جعبهابزار در پایگاه تبادل فایل نرم افزار متلب به صورت رایگان قابلد سترس ا ست و شامل ا سکریپتها و برنامه منبع برای هر روش است. این جعبهابزار بهصورت رایگان برای عموم در دسترس است: bit.ly/AutoUFSTool .
کلید واژگان: انتخاب ویژگی بدون نظارت, نرم افزار متلب, جعبه ابزار خودکار, کاهش ابعاد, یادگیری بدون نظارتVarious data analysis research has recently become necessary in to find and select relevant features without class labels using Unsupervised Feature Selection (UFS) approaches. Despite the fact that several open-source toolboxes provide feature selection techniques to reduce redundant features, data dimensionality, and computation costs, these approaches require programming knowledge, which limits their popularity and has not adequately addressed unlabeled real-world data. Automatic UFS Toolbox (Auto-UFSTool) for MATLAB, proposed in this study, is a user-friendly and fully-automatic toolbox that utilizes several UFS approaches from the most recent research. It is a collection of 25 robust UFS approaches, most of which were developed within the last five years. Therefore, a clear and systematic comparison of competing methods is feasible without requiring a single line of code. Even users without any previous programming experience may utilize the actual implementation by the Graphical User Interface (GUI). It also provides the opportunity to evaluate the feature selection results and generate graphs that facilitate the comparison of subsets of varying sizes. It is freely accessible in the MATLAB File Exchange repository and includes scripts and source code for each technique. The link to this toolbox is freely available to the general public on: bit.ly/AutoUFSTool
Keywords: Unsupervised Feature Selection, MATLAB, Automatic Toolbox, Dimension Reduction, Unsupervised learning -
In this study, we sought to minimize the need for redundant blood tests in diagnosing common diseases by leveraging unsupervised data mining techniques on a large-scale dataset of over one million patients' blood test results. We excluded non-numeric and subjective data to ensure precision. To identify relationships between attributes, we applied a suite of unsupervised methods including preprocessing, clustering, and association rule mining. Our approach uncovered correlations that enable healthcare professionals to detect potential acute diseases early, improving patient outcomes and reducing costs. The reliability of our extracted patterns also suggest that this approach can lead to significant time and cost savings while reducing the workload for laboratory personnel. Our study highlights the importance of big data analytics and unsupervised learning techniques in increasing efficiency in healthcare centers.
Keywords: Clinical Data, data mining, Unsupervised learning, Association Rule Mining, Clustering -
با توجه به ماهیت بدون ناظر مسایل خوشه بندی و تاثیرگذاری مولفه های مختلف از جمله تعداد خوشه ها، معیار فاصله و الگوریتم انتخابی، ترکیب خوشه بندی ها برای کاهش تاثیر این مولفه ها و افزایش صحت خوشه بندی نهایی معرفی شده است. در این مقاله، روشی برای ترکیب وزن دار خوشه بندی های پایه با وزن دهی به خوشه بندی ها بر اساس روش AD ارایه شده است. روش AD برای برآورد صحت انسان ها در مسایل جمع سپاری از هماهنگی یا تضاد بین آرای آنها استفاده می کند و با پیشنهاد مدلی احتمالاتی، فرآیند برآورد صحت را به کمک یک فرآیند بهینه سازی انجام می دهد. نوآوری اصلی این مقاله، تخمین صحت خوشه بندی های پایه با استفاده از روش AD و استفاده از صحت های تخمین زده شده در وزن دهی به خوشه بندی های پایه در فرآیند ترکیب است. نحوه تطبیق مساله خوشه بندی به روش برآورد صحت AD و نحوه استفاده از صحت های برآورد شده در فرآیند ترکیب نهایی خوشه ها، از چالش هایی است که در این پژوهش به آنها پرداخته شده است. چهار روش برای تولید خوشه بندی های پایه شامل الگوریتم های متفاوت، معیارهای فاصله ی متفاوت در اجرای k-means، ویژگی های توزیع شده و تعداد خوشه های متفاوت بررسی شده است. در فرآیند ترکیب، قابلیت وزن دهی به الگوریتم های خوشه بندی ترکیبی CSPA و HGPA اضافه شده است. نتایج روش پیشنهادی روی سیزده مجموعه داده مصنوعی و واقعی مختلف و بر اساس نه معیار ارزیابی متفاوت نشان می دهد که روش ترکیب وزن دار ارایه شده در بیش تر موارد بهتر از روش ترکیب خوشه بندی بدون وزن عمل می کند که این بهبود برای روش HGPA نسبت به CSPA بیشتر است.
کلید واژگان: خوشه بندی ترکیبی وزندار, یادگیری بدون نظارت, HGPA, CSPA, ADClustering algorithms are highly dependent on different factors such as the number of clusters, the specific clustering algorithm, and the used distance measure. Inspired from ensemble classification, one approach to reduce the effect of these factors on the final clustering is ensemble clustering. Since weighting the base classifiers has been a successful idea in ensemble classification, in this paper we propose a method to use weighting in the ensemble clustering problem. The accuracies of base clusterings are estimated using an algorithm from crowdsourcing literature called agreement/disagreement method (AD). This method exploits the agreements or disagreements between different labelers for estimating their accuracies. It assumes different labelers have labeled a set of samples, so each two persons have an agreement ratio in their labeled samples. Under some independence assumptions, there is a closed-form formula for the agreement ratio between two labelers based on their accuracies. The AD method estimates the labelers’ accuracies by minimizing the difference between the parametric agreement ratio from the closed-form formula and the agreement ratio from the labels provided by labelers. To adapt the AD method to the clustering problem, an agreement between two clusterings are defined as having the same opinion about a pair of samples. This agreement can be as either being in the same cluster or being in different clusters. In other words, if two clusterings agree that two samples should be in the same or different clusters, this is considered as an agreement. Then, an optimization problem is solved to obtain the base clusterings’ accuracies such that the difference between their available agreement ratios and the expected agreements based on their accuracies is minimized. To generate the base clusterings, we use four different settings including different clustering algorithms, different distance measures, distributed features, and different number of clusters. The used clustering algorithms are mean shift, k-means, mini-batch k-means, affinity propagation, DBSCAN, spectral, BIRCH, and agglomerative clustering with average and ward metrics. For distance measures, we use correlation, city block, cosine, and Euclidean measures. In distributed features setting, the k-means algorithm is performed for 40%, 50%,…, and 100% of randomly selected features. Finally, for different number of clusters, we run the k-means algorithm by k equals to 2 and also 50%, 75%, 100%, 150%, and 200% of true number of clusters. We add the estimated weights by the AD algorithm to two famous ensemble clustering methods, i.e., Cluster-based Similarity Partitioning Algorithm (CSPA) and Hyper Graph Partitioning Algorithm (HGPA). In CSPA, the similarity matrix is computed by taking a weighted average of the opinions of different clusterings. In HGPA, we propose to weight the hyperedges by different values such as the estimated clustering accuracies, size of clusters, and the silhouette of clusterings. The experiments are performed on 13 real and artificial datasets. The reported evaluation measures include adjusted rand index, Fowlkes-Mallows, mutual index, adjusted mutual index, normalized mutual index, homogeneity, completeness, v-measure, and purity. The results show that in the majority of cases, the proposed weighted-based method outperforms the unweighted ensemble clustering. In addition, the weighting is more effective in improving the HGPA algorithm than CSPA. For different weighting methods proposed for HGPA algorithm, the best average results are obtained when we use the accuracies estimated by the AD method to weight the hyperedges, and the worst results are obtained when using the normalized silhouette measure for weighting. Finally, among different methods for generating base clusterings, the best results in weighted HGPA are obtained when we use different clustering algorithms to come up with different base clusterings.
Keywords: Weighted Ensemble Clustering, Unsupervised Learning, HGPA, CSPA, AD
- نتایج بر اساس تاریخ انتشار مرتب شدهاند.
- کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شدهاست. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
- در صورتی که میخواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.