-
در پژوهش حاضر، مدلی برای پیشبینی روند قیمت سهام برپایهی ماشین بردار پشتیبان وزن دهی شده توسط حجمهای روزانه معاملات، همراه با روش انتخاب ویژگی هیبرید F-SSFS ارائه میشود. به منظور ارزیابی دقت پیشبینی، مدل پیشنهادی با مدل ماشین بردار پشتیبان ساده همراه با انتخاب ویژگی هیبرد و نیز با روش های انتخاب ویژگی مرسوم از جمله بهره اطلاعات، عدم قطعیت متقارن و انتخاب ویژگی بر پایه همبستگی، از طریق انجام آزمون تی زوجی، مقایسه میشود؛ همچنین بهعنوان مجموعه ویژگی های اولیه که در واقع ورودی ماشین بردار پشتیبان تعدیلیافته هستند، از شاخصهای تحلیل تکنیکال و شاخصهای آماری که برای 10 سهم محاسبه شدهاند، استفاده میشود. نتیجه این پژوهش نشان میدهد که عملکرد ماشینبردار پشتیبان وزندهیشده، در مورد مسئله پیش بینی روند قیمت سهام، به میزان قابلتوجهی بهتر از ماشین بردار پشتیبان ساده است. علاوه براین، نتایج عملیاتی نشانمیدهد که ماشین بردار پشتیبان وزندهیشده همراه با انتخاب ویژگی هیبرید پیشنهادی، بالاترین میزان دقت پیشبینی را نسبت به سه روش انتخاب ویژگی دیگر دارد. براساس نتایج این پژوهش میتوان ادعا کرد مدل VW-SVM همراه با انتخاب ویژگی F-SSFS عملکرد بهتری در پیشبینی قیمت سهم، نسبت به روش های موجود دارد.کلید واژگان: پیش بینی روند, ماشین بردار پشتیبان, انتخاب ویژگی, قیمت سهمIn this study we focus on developing a stock trend prediction model based on a modified version of support vector machine, named volume weighted support vector machine, along with a hybrid feature selection method named FSSFS method. In order to evaluate the prediction accuracy of this model we compare the VW-SVM classifier with plain support vector machine along with three commonly used feature selection methods including Information gain, Symmetrical uncertainty and correlation-based feature selection, via paired t-test. As the model input, we use several technical indicators and statistical measures, calculated for 10 stocks. The results show that the VW-SVM, combined with the hybrid feature selection method, significantly outperforms plain SVM model to the problem of stock trend prediction. In addition our experimental result show that VW-SVM combined with F-SSFS has the highest level of accuracies and generalization performance in comparison with the other three feature selection methods. With these results, we claim that VW-SVM combined with F-SSFS can serve as a promising addition to the existing stock trend prediction.Keywords: Trend Forecasting, Support Vector Machines, Feature Selection, Stock Price
-
در برخی از کاربردهای دنیای واقعی، داده هایی با ابعاد بالا وجود دارند که چالش های محاسباتی زیادی را ایجاد کرده اند. یکی از تکنیک های موثر برای کاهش ابعاد داده ها، انتخاب ویژگی است که با انتخاب زیرمجموعه مناسبی از ویژگی ها باعث سادگی مدل و بهبود کارایی آن می شود. در بسیاری از این کاربردها، برچسب زدن داده ها امری زمان بر و پرهزینه است که باعث می شود داده های برچسب دار کمی وجود داشته باشند و حجم عظیمی از داده های بدون برچسب در دسترس باشند. در چنین کاربردهایی، روش های انتخاب ویژگی نیمه نظارتی می توانند با استفاده از اطلاعات برچسب داده های برچسب دار و اطلاعات توزیع و ساختار هندسی داده های برچسب دار و بدون برچسب، فرایند انتخاب ویژگی را انجام دهند. در اکثر روش های انتخاب ویژگی نیمه نظارتی، با ایجاد یک گراف همسایگی، ویژگی های مناسب از طریق بررسی توانایی آن ها در حفظ ساختار هندسی گراف ارزیابی می شوند. در روش های کلاسیک انتخاب ویژگی نیمه نظارتی مبتنی بر گراف، ویژگی ها به صورت جداگانه ارزیابی می شوند و همبستگی بین ویژگی ها در هنگام انتخاب ویژگی در نظر گرفته نمی شود. روش های انتخاب ویژگی تنک با در نظر گرفتن همبستگی بین ویژگی ها، ماتریس انتقال بهینه تنک برای انتخاب ویژگی را محاسبه می نمایند. در این مقاله با بررسی روش های یادگیری نیمه نظارتی، مروری بر روش های انتخاب ویژگی نیمه نظارتی تنک مبتنی بر گراف انجام می شود که با استفاده از عبارت تنظیم مبتنی بر مدل های تنک و با ایجاد گراف همسایگی، ویژگی های مناسب را انتخاب می کنند. این روش ها ضمن برطرف کردن مشکل روش های انتخاب ویژگی کلاسیک، با ایجاد یک گراف همسایگی از داده ها ماتریس انتقال بهینه تنک برای انتخاب ویژگی را محاسبه می نمایند.کلید واژگان: انتخاب ویژگی نیمه نظارتی, یادگیری نیمه نظارتی, مدل های تنک, گراف, لاپلاسین گرافIn some real-world applications, there is high-dimensional data which has led to many computational challenges. Feature selection is an effective technique for data dimensionality reduction, which simplifies the model and improves its performance by selecting the appropriate subset of features. In many of these applications, labeling of data is costly and time consuming, leaving little labeled data available and large amounts of unlabeled data available. In such applications, semi-supervised feature selection methods perform the feature selection process using the information of labeled data, and the distribution and geometric structure of labeled and unlabeled data. In most semi-supervised feature selection methods, a neighborhood graph is created and the importance of features is evaluated via their ability to maintain the geometric structure of the graph. In classical graph-based semi-supervised feature selection methods, the features are evaluated one by one and the correlation between features is not considered in feature selection process. To overcome this problem, sparse feature selection methods have been presented which consider the correlation between features, and calculate the optimal sparse transformation matrix for feature selection. In this paper, we investigate the semi-supervised learning methods, and review the graph-based semi- supervised sparse feature selection methods which select the appropriate features using the graph created by the labeled and unlabeled data, and the sparse regularization term. These methods solve the problem of classical semi-supervised methods by considering the correlation between features, create a neighborhood graph using the labeled and unlabeled data, calculate the graph Laplacian matrix, and compute the optimal sparse transformation matrix for feature selection.Keywords: Semi-supervised feature selection, Semi-supervised learning, Sparse models, Graph Laplacian
-
برای بهبود الگوریتم های انتخاب ویژگی، روش های شورایی مورد استفاده قرار می گیرند. در این رویکردها نتایج چندین روش انتخاب ویژگی با هم ترکیب می شوند تا مجموعه ویژگی نهایی حاصل شود. انتخاب ویژگی شورایی بر اساس این حقیقت است که تنوع روش های انتخاب ویژگی بهتر از تنها یک روش عمل می کند. هر الگوریتم انتخاب ویژگی ممکن است یک اپتیموم محلی را در فضای ویژگی ها در نظر بگیرد. در نتیجه روش های انتخاب ویژگی شورایی برای حل این مشکلات مورد استفاده قرار می گیرند. در این مقاله ما یک الگوریتم انتخاب ویژگی شورایی بر اساس رتبه دهی مبتنی بر مفهوم غلبه پارتو برای بهبود دقت دسته بندی روش های انتخاب ویژگی شورایی حاضر و روش های پایه انتخاب ویژگی ارایه داده ایم. این روش با استفاده از یک فرآیند بهینه سازی دو هدفه و مفهوم فاصله ازدحام، ویژگی ها در این فضا و در نظر گرفتن میزان همبستگی با برچسب کلاس و نیز افزونگی هر ویژگی به رتبه دهی آنها می پردازد. ما این روش را با روش های انتخاب ویژگی شورایی جدید و الگوریتم های پایه انتخاب ویژگی مقایسه کرده ایم. نتایج نشان دهنده برتری روش در معیار دقت دسته بندی است و همچنین در زمان کوتاه تری نسبت به سایر روش ها اجرا می شود.
کلید واژگان: انتخاب ویژگی شورایی, فاصله ازدحامی, بهینه سازی دو هدفه, رتبه دهی مبتنی بر مفهوم غلبه پارتو- Ensemble feature selection methods are used to improve the robustness of feature selection algorithms. These approaches are a combination of several feature selection methods to achieve the final ranking of features. The reason for using such approaches is derived from the fact that the variety of different methods is more effective than only one method. Each feature selection algorithm may find feature subsets that can be considered local optima in the feature subsets space. Ensemble feature selection is a solution to address this problem. In this paper, we have proposed a bi-objective feature selection algorithm based on Pareto-based ranking. The maximum relevancy and minimum redundancy are considered as our two objectives. Both of the objectives are obtained by the ensemble of three feature selection methods. The final evaluation of features is according to a bi-objective optimization process and the crowding distance of features in this space for ranking the features. The proposed method results are compared with recent ensemble feature selection algorithms and simple feature selection algorithms. The results show that our classification accuracy method is superior to other similar methods and performs in a short time.
Keywords: Ensemble feature selection, Pareto-based Ranking, Bi-objective Optimization, Crowding distance -
انتخاب ویژگی، فرایند انتخاب زیرمجموعه ای از میان مجموعه ویژگی های اولیه است، بطوری که با حذف ویژگی های اضافی و نامربوط دقت دسته بندی افزایش یابد. روش های انتخاب ویژگی فیلتر به دلیل پیچیدگی محاسباتی پایین، مقیاس پذیری از نظر ابعاد داده ها و استقلال از انواع دسته بندها از اهمیت بالایی برخوردار هستند. اما یکی از نقاط ضعف این دسته روش ها، کمبود اطلاعات در مورد تعامل و ارتباطات بین ویژگی ها است که منجر به انتخاب ویژگی های افزونه و نامربوط می شود. انتخاب ویژگی های افزونه و نامربوط به دلیل انتخاب نامناسب تابع هدفی است که بر اساس آن میزان اهمیت و افزونگی ویژگی ها تخمین زده می شود. در این مقاله یک روش انتخاب ویژگی فیلتر غیرخطی بر اساس اطلاعات متقابل شرطی و مجموعه پارتو ارایه و به منظور نشان دادن کارایی آن، یک سری آزمایش ها بر روی 12 مجموعه داده آموزشی پرکاربرد انجام شده است. طبق نتایج به دست آمده، الگوریتم پیشنهادی در مقایسه با تعدادی از الگوریتم های انتخاب ویژگی اخیر از دقت بالاتری برخوردار است.
کلید واژگان: نظریه اطلاعات, داده آموزشی با ابعاد بالا, انتخاب ویژگی, روش های فیلتر, مجموعه پارتوFeature selection is the process of selecting a subset of features among the set of primary features, so that, by removing the redundant and irrelevant features, the accuracy of the classification increases. Because of the low computational complexity, scalability in term of data dimensions and independence of any classifier, filter selection methods are very important. But one of the weaknesses of these methods is the lack of information about the interaction and communication between the features which leads to select redundant and irrelevant features. Selection of redundant and irrelevant features is due to the inappropriate selection of an objective function which estimates the significance and redundancy of the features. In this paper, a nonlinear filter feature selection method, based on conditional mutual information and Pareto set is presented and to prove the efficiency of it a series of experiments are performed on twelve widely used datasets. According to the results, the proposed method is more accurate than a number of recently feature selection methods.
Keywords: Information theory, High dimensional data set, feature selection, filter methods, Pareto set -
با توجه به افزایش حجم داده ها و اطلاعات در سالهای اخیر مساله انتخاب مناسبترین ویژگی جهت تصمیم گیری اهمت فراوانی یافته است. روش های کلاسیک انتخاب ویژگی نمی توانند بر روی داده های بزرگ به درستی عمل نمایند. از آنجا که مسیله انتخاب ویژگی یک مساله سخت و پیچیده است، استفاده از الگوریتم های فرا ابتکاری جهت حل این مساله مناسب به نظر می رسد. در این مقاله الگوریتم فرا ابتکاری جدیدی با الهام از کوچ عشایر جهت حل مساله انتخاب ویژگی ارایه شده است. این الگوریتم به افتخار ایل قشقایی نامگذاری شده است. در این الگوریتم ترکیبی تابع تناسبی مبتنی بر الگوریتم انتخاب ویژگی و براساس کمینه سازی تعداد ویژگی ها و میزان خطای داده ها با استفاده از نتایج شبکه عصبی طراحی شد. سپس الگوریتم فرا ابتکاری قشقایی بر روی این تابع تناسب پیاده سازی شد و نتایج با الگوریتم های فرا ابتکاری مشهور ژنتیک و ازدحام ذرات مورد مقایسه قرار گرفت. نتایج آزمون فرض نشان داد که الگوریتم بهینه سازی قشقایی جهت حل مساله انتخاب ویژگی توسط الگوریتم ژنتیک و ازدحام ذرات مغلوب نمی گردد و به لحاظ همگرایی به جواب بهینه به خوبی آنها عمل می کند.
کلید واژگان: مساله انتخاب ویژگی, الگوریتم فرا ابتکاری, الگوریتم ژنتیک, الگوریتم ازدحام ذرات, الگوریتم قشقاییDue to the increase in the volume of data and information in recent years, the issue of choosing the most appropriate feature for decision making has become very important. Classic attribute selection methods cannot work well on big data. Because feature selection is a complex problem, it seems appropriate to use meta-heuristic algorithms to solve this problem. In this paper, a new meta-heuristic algorithm inspired by nomadic migration to solve the feature selection problem is presented. This algorithm is named in honor of the Qashqai tribe. In this hybrid algorithm, the proportional function was designed based on the feature selection algorithm and based on minimizing the number of features and the amount of data error using neural network results. Then the Qashqai meta-heuristic algorithm was implemented on this fitness function and the results were compared with the well-known meta-heuristic algorithms of genetics and particle swarm. The results of the hypothesis test showed that the Qashqai optimization algorithm to solve the feature selection problem by the genetic algorithm and particle swarm is not defeated and in terms of convergence to the optimal solution works well.
Keywords: Feature Selection Problem, Meta-Heuristic Algorithm, Genetic algorithm, Particle Swarm Algorithm, Qashqai Algorithm -
انتخاب ویژگی یکی از تکنیک های مهم در یادگیری ماشین و شناسایی الگو است که با حذف ویژگی های نامناسب و انتخاب زیرمجموعه ای مفید از ویژگی ها باعث اجتناب از بیش برازش در هنگام ساخت مدل، بهبود کارایی و سادگی مدل می شود. در بسیاری از کاربردها، تعیین برچسب داده ها هزینه بر بوده و مستلزم صرف زمان زیادی است، درحالی که داده های بدون برچسب به آسانی در دسترس هستند. بنابراین، استفاده از روش های انتخاب ویژگی نیمه نظارتی که بتوانند در فرآیند انتخاب ویژگی از داده های برچسب دار و بدون برچسب استفاده نمایند، بسیار ارزشمند است. در این مقاله، یک روش انتخاب ویژگی تنک نیمه نظارتی مبتنی بر منظم سازی هسین و آنالیز تشخیصی فیشر پیشنهاد می شود که می تواند با استفاده از داده های برچسب دار و اطلاعات توزیع و ساختار محلی داده های برچسب دار و بدون برچسب مناسب ترین ویژگی ها را انتخاب نماید. در روش پیشنهادی، تابع هدفی مبتنی بر ماتریس پراکندگی نیمه نظارتی و نرم- l2,1 برای انتخاب ویژگی ارایه می شود که از منظم سازی هسین و آنالیز تشخیصی فیشر در ساخت ماتریس پراکندگی نیمه نظارتی استفاده می کند و همبستگی بین ویژگی ها را در هنگام انتخاب ویژگی در نظر می گیرد. برای حل تابع هدف پیشنهادی مبتنی بر منظم سازی هسین و آنالیز تشخیصی فیشر، الگوریتمی موثر با رویکرد تکراری به کار می رود و همگرایی آن به صورت تیوری و عملی اثبات می شود. نتایج به دست آمده از آزمایش ها بر روی پنج مجموعه داده حاکی از برتری روش پیشنهادی در مقایسه با دیگر روش های انتخاب ویژگی استفاده شده در این مقاله است.کلید واژگان: انتخاب ویژگی نیمه نظارتی, مدل های تنک, منظم سازی هسین, آنالیز تشخیصی فیشر, نرم-l2Feature selection is one of the most important techniques in machine learning and pattern recognition, which eliminates redudant features and selects a suitable subset of features. This avoids overfitting when building the model and improves the model performance. In many applications, obtaining labeled data is costly and time consuming, while unlabeled data are readily available. Therefore, semi-supervised feature selection methods can be used to consider both labeled and unlabeled data in the feature selection process. In this paper, a semi-supervised sparse feature selection method is proposed based on hessian regularization and Fisher discriminant analysis which selects the appropriate features using the labeled data and the local structure of both labeled and unlabeled data. In the proposed method, an objective function based on semi-supervised scatter matrix and l2,1-norm is presented for feature selection which considers the correlation among features. To solve the proposed objective function, an iterative algorithm is used and its convergence is experimentally and theoretically proved. The results of the experiments on five data sets indicate that the proposed method improves the selection of relevant features compared to other methods used in this paper.Keywords: Semi-supervised feature selection, Sparse models, Hessian regularization, Fisher discriminant analysis, l2, 1-norm
-
روش های انتخاب ویژگی ابزاری کارا در بهبود فرآیند یادگیری شناخته می شوند. هدف از یک روش انتخاب ویژگی، شناسایی ویژگی های مرتبط و حذف ویژگی های غیرمرتبط به منظور بدست آوردن یک زیرمجموعه مناسب از ویژگی ها است، بطوریکه افزونگی بین ویژگی های انتخاب شده کمینه گردد. در داده های چند-برچسبه، این امکان وجود دارد که در صورت وجود همبستگی بین ویژگی ها، مقدار افزونگی در مجموعه ویژگی ها افزایش یابد. وجود افزونگی بین ویژگی ها به همراه چالش ابعاد بالای داده های چند-برچسبه، می تواند باعث افزایش حجم محاسبات، کاهش دقت و در نهایت افزایش احتمال رخ دادن خطا در پیش بینی و طبقه بندی داده های چند-برچسبه شود. در این مقاله، با هدف کمینه کردن افزونگی ویژگی های انتخابی، یک الگوریتم انتخاب ویژگی چند-برچسبه با در نظر گرفتن مدل رگرسیون کمترین مربعات خطا و تنظیم تنکی پیشنهاد شده است. در انتها، با استفاده از تعدادی مجموعه داده چند-برچسبه مشهور، کارایی روش پیشنهادی بررسی می گردد و نتایج بدست آمده با چند روش انتخاب ویژگی چند-برچسبه متداول مقایسه می شودکلید واژگان: انتخاب ویژگی چند-برچسبه, کمینه کردن افزونگی, رگرسیون, کمترین مربعات خطا, تنظیم تنکیFeature selection methods are known to be effective in improving the learning process. The purpose of a feature selection method is to identify relevant features and remove irrelevant features in order to obtain a suitable subset of features, so that the redundancy between the selected features is minimized. In multi-label data, if there is a correlation between features, it is possible that the amount of redundancy in the feature set is increased. The existence of redundancy between features along with the challenge of high dimensions of multi-label data can grow the computational calculations, decrease the accuracy and finally increase the probability of errors in the prediction and classification of multi-label data. In this article, with the aim of minimizing the redundancy of features, a multi-label feature selection algorithm is proposed considering the least squares regression model and sparse regularization. Finally, using a number of well-known multi-label data sets, the efficiency of the proposed method is verified and the results are compared with some common multi-label feature selection methods.Keywords: Multi-label feature selection, Redundancy minimization, regression, Least squared error, Sparsity regularization
-
انتخاب ویژگی یکی از موضوعات کلیدی در سامانه های کشف نفوذ است. یکی از مشکلات طبقه بندی در سامانه های کشف نفوذ وجود تعداد زیادی ویژگی است که باعث بزرگ شدن فضای حالات می شود. بسیاری از این ویژگی ها ممکن است نامرتبط یا تکراری باشند که حذف آن ها تاثیر قابل توجهی در عملکرد طبقه بندی خواهد داشت. الگوریتم رقابت استعماری دارای سرعت همگرایی بالایی برای انتخاب ویژگی ها بوده ولی مشکل آن گیر افتادن در بهینه محلی هست. الگوریتم ژنتیک دارای قدرت جستجوی بالا جهت پیدا کردن جواب ها هست ولی مشکل آن عدم توانایی در مدیریت جواب های یافت شده جهت همگرایی است. بنابراین ترکیب این دو الگوریتم می تواند از یک سو سرعت همگرایی و از سوی دیگر دقت در انتخاب ویژگی را به همراه داشته باشد. در این مقاله با اعمال عملگر جذب الگوریتم رقابت استعماری به الگوریتم ژنتیک، روش جدیدی برای انتخاب ویژگی های بهینه در سامانه تشخیص نفوذ ارائه می شود. روش پیشنهادی با روش طبقه بندی درخت تصمیم روی مجموعه داده KDD99 آزمایش شده که نشان دهنده افزایش نرخ تشخیص (%03/95)، کاهش نرخ هشدار غلط (46%/1) و همچنین افزایش سرعت همگرایی (82/3 ثانیه) است.کلید واژگان: طبقه بندی, انتخاب ویژگی, تشخیص ناهنجاری, الگوریتم ژنتیک, سامانه های تشخیص نفوذFeature selection is one of the key challenges in developing intrusion detection systems. Classification algorithms in intrusion detection systems may be inconvenient for problems having so many features, because the size of the search space grows exponentially in terms of the number of features. This is while most of the features may be either irrelevant or redundant. Therefore, considering only relevant features (i.e. feature selection) may have a significant impact on the performance of the classification algorithms. The Imperialist Competitive Algorithm (ICA) can be used as a feature selection method with a high convergence, but it sometimes gets trapped in a local optimum. On the contrary, the Genetic Algorithm (GA) is powerful enough in terms of search for solutions, but it suffers from late convergence. Therefore, using a combination of both algorithms for feature selection may result in a rapid convergence as well as in a high precision. In this paper, by applying the Assimilate operator of the ICA to the GA, we propose a new feature selection algorithm for intrusion detection systems. The proposed algorithm has been tested on the KDD99 dataset using the decision tree classification. The experimental results show that the proposed algorithm has improved the detection rate (95.03%), false alarm rate (1.46) and the speed of convergence (3.82 second).Keywords: Feature Selection, Anomaly Detection, Genetic Algorithm, Intrusion Detection System
-
نشریه تحقیقات مالی، پیاپی 45 (بهار 1396)، صص 139 -156پیش بینی درماندگی مالی از مسائل مهمی است که همواره پژوهشگران، موسسه های اعتباری و بانک ها به آن توجه کرده اند. تاکنون تحقیقات بسیاری در این زمینه صورت گرفته است، ولی استفاده از مدل های ترکیب شده انتخاب ویژگی و مدل طبقه بندی کننده، از مسائلی است که فقط در سال های اخیر توجه پژوهشگران را به خود جلب کرده است. در این مقاله ماشین بردار پشتیبان با چهار تابع کرنل خطی، چند جمله ای، شعاعی و سیگمویید به عنوال مدل طبقه بندی کننده و ترکیب آن با روش های انتخاب ویژگی فیلترکننده و پوشش دهنده استفاده شده است. همچنین از الگوریتم ژنتیک که یکی از انواع روش های پوشش دهنده انتخاب ویژگی است و روش های آنالیز اجزای اساسی، زنجیره اطلاعات و رلیف که جزء روش های فیلترکننده انتخاب ویژگی هستند، استفاده شده است. نتایج به دست آمده نشان داد که روش الگوریتم ژنتیک نسبت به روش های فیلترکننده، عملکرد بهتری دارد. همچنین دقت ماشین بردار پشتیبان با توابع کرنل خطی، چند جمله ای، شعاعی و سیگمویید در ترکیب با الگوریتم ژنتیک، با سطح اطمینان 95 درصد تفاوت معناداری با هم ندارند.کلید واژگان: الگوریتم ژنتیک, پوشش دهنده, درماندگی مالی, فیلترکننده, ماشین بردار پشتیبانFinancial Research, Volume:19 Issue: 45, 2017, PP 139 -156Financial distress prediction (FDP) is a great important subject that has always been interesting to researchers, financial institutions and banks. Tough many works have been done in this area, but use of combined approach of feature selection and classifier is an issue that has attracted researcher's attention just in recent years. In this paper, four well-known kinds of SVM that each of them has it's own kernel function including: linear, polynomial, radial and sigmoid have been introduced as the main classifiers of our proposed approach. These four methods have been integrated with genetic algorithm (GA) as a wrapper feature selection approach as well as three techniques of filtering feature selection approach called: principle component analysis (PCA), information gain and relief. Brought results indicated that genetic algorithm outperformed the other feature selection techniques in it's combination with SVM methods. Furthermore, implemented hypothesis test implied that there was no significance level among GA-SVM (linear), GA-SVM (radial), GA-SVM (polynomial) and GA-SVM (sigmoid) techniques with confidence level of %95.Keywords: Genetic algorithm, wrapper, financial distress, filter, Support Vector Machine
-
انتخاب ویژگی یک فرایند پیش پردازش داده ها است که برای مجموعه داده های با ابعاد بالا قبل از اجرای الگوریتم های یادگیری ماشین و داده کاوی مورداستفاده قرار می گیرد. هدف از انتخاب ویژگی، پیداکردن یک زیرمجموعه ی حداقلی و بهینه از مجموعه ویژگی ها است. این زیرمجموعه، ویژگی های برجسته را شامل می شود در حالی که ویژگی های غیر مرتبط با برچسب کلاس و تکراری در آن قرار نمی گیرند. برای انجام این کار، بسیاری از روش های انتخاب ویژگی فعلی به کل ویژگی ها در ابتدا نیاز دارند و درصورتی که ویژگی جدیدی در آینده به مجموعه ویژگی ها اضافه شود، الگوریتم باید از ابتدا اجرا شود. به دست آوردن کل ویژگی ها و یا حتی منتظر ماندن برای آن غیر ممکن در بسیاری از کاربردهای واقعی ممکن نیست؛ بنابراین برای این گونه مسایل که کل فضای ویژگی در ابتدا در اختیار ما قرار ندارد، روش های انتخاب ویژگی برخط ارایه شده اند. در این مقاله یک روش انتخاب ویژگی برخط با استفاده از مفهوم انتگرال فازی چوکت ارایه شده است. این روش در ابتدا جریان های ویژگی را بر اساس چندین معیار فیلتر ارزیابی می کند. سپس بر اساس عملگر چوکت نتایج آن ها ترکیب و برای حفظ یا نادیده گرفتن ویژگی تصمیم گیری می شود. در گام ارزیابی، عملکرد الگوریتم پیشنهادی با شش روش انتخاب ویژگی برخط و بر اساس دو دسته بند مقایسه شده است. روش پیشنهادی بر اساس نتایج به دست آمده در پنج مجموعه داده دنیای واقعی نزدیک دو درصد بهبود نسبت به روش های مشابه بر اساس معیارهای دقت دسته بندی و امتیاز داشته است. همچنین به دلیل محاسبات ساده در فرایند روش پیشنهادی، ارزیابی ویژگی ها در زمان کوتاهی انجام می گیرد.
کلید واژگان: انتخاب ویژگی برخط, انتگرال فازی چوکت, جریان ویژگی, داده های با ابعاد بالاFeature selection is a data preprocessing technique used for high-dimensional data sets before machine learning and data mining algorithms. The feature selection aims to find a minimal and optimal subset of the feature set. This subset includes valuable features while not including redundant ones. To do this, many current feature selection methods require the entire feature at first, and if a new feature is added to the feature set in the future, the algorithm must be run from the beginning. However, it is impossible to get all the features in many real-world applications or even wait for them. Therefore, online feature selection methods are provided for such issues that the entire feature space is not available at first. This paper presents an online feature selection method using the concept of Choquet fuzzy integral. This method first evaluates feature flows based on several filter criteria. Then, based on the Choquet operator, their results are combined, and decisions are made to preserve or ignore the feature. In the evaluation step, the performance of the proposed algorithm is compared with six online feature selection methods based on two categories. The proposed method is based on the results obtained in five real-world datasets that achieve about two percent improvement over similar methods based on classification accuracy and F-Score criteria. Also, due to the simple calculations in the process of the proposed method, the evaluation of features is done in a short time.
Keywords: Online Feature Selection, Choquet fuzzy integral, Feature stream, High Dimensional Data
-
از آنجا که گزینه «جستجوی دقیق» غیرفعال است همه کلمات به تنهایی جستجو و سپس با الگوهای استاندارد، رتبهای بر حسب کلمات مورد نظر شما به هر نتیجه اختصاص داده شدهاست.
- نتایج بر اساس میزان ارتباط مرتب شدهاند و انتظار میرود نتایج اولیه به موضوع مورد نظر شما بیشتر نزدیک باشند. تغییر ترتیب نمایش به تاریخ در جستجوی چندکلمه چندان کاربردی نیست!
- جستجوی عادی ابزار سادهای است تا با درج هر کلمه یا عبارت، مرتبط ترین مطلب به شما نمایش دادهشود. اگر هر شرطی برای جستجوی خود در نظر دارید لازم است از جستجوی پیشرفته استفاده کنید. برای نمونه اگر به دنبال نوشتههای نویسنده خاصی هستید، یا میخواهید کلمات فقط در عنوان مطلب جستجو شود یا دوره زمانی خاصی مدنظر شماست حتما از جستجوی پیشرفته استفاده کنید تا نتایج مطلوب را ببینید.
* ممکن است برخی از فیلترهای زیر دربردارنده هیچ نتیجهای نباشند.
-
معتبرحذف فیلتر