-
Iranian Journal of Chemistry and Chemical Engineering, Volume:37 Issue: 5, Sep-Oct 2018, PP 189 -198In this work, a Genetic Algorithm boosted Least Square Support Vector Machine model by a set of linear equations instead of a quadratic program, which is improved version of Support Vector Machine model, was used for estimation of 98 pure compounds second virial coefficient. Compounds were classified to the different groups. Finest parameters were obtained by Genetic Algorithm method for training data. The accuracy of the Genetic Algorithm boosted Least Square Support Vector Machine was compared with four empirical equations that are well-known and are claimed can predict all compounds second virial coefficients (Pitzer, Tesonopolos, Gasanov RK and Long Meng). Results showed that in all classes of compounds, the Genetic Algorithm boosted Least Square Support Vector Machine method was more accurate than these empirical correlations. The Average Relative Deviation percentage of overall data set was 2.53 for the Genetic Algorithm boosted Least Square Support Vector Machine model while the best Average Relative Deviation percentage for empirical models (Tesonopolos) was 15.38. When the molecules become more complex, the difference in accuracy becomes sharper for empirical models where the proposed Genetic Algorithm boosted Least Square Support Vector Machine model have predicted good results for classes of compounds that empirical correlations usually fail to give good estimates.Keywords: Second Virial Coefficient, prediction, Support Vector Machine, genetic algorithm, Optimization
-
آب های زیرزمینی به عنوان یکی از منابع مهم و عمده تامین آب شرب و کشاورزی، به ویژه در مناطق خشک و نیمه خشک مطرح بوده است. شبیه سازی سیستم آب های زیرزمینی به دلیل پیچیدگی این سیستم ها به آسانی میسر نیست. در این مقاله با استفاده از داده های سطح تراز ایستابی دشت اردبیل در بازه زمانی(1390-1351)، به ارزیابی عملکرد آزمون گاما برای پردازش و انتخاب ورودی های مناسب و کارایی مدل های حداقل مربعات ماشین بردار پشتیبان و شبکه بیزین پرداخته شد. پارامترهای سطح تراز ایستابی ماهانه با تاخیرهای مختلف به عنوان ورودی آزمون گاما در نظر گرفته شد. نتایج آزمون گاما نشان داد که سطح تراز ایستابی با شش تاخیر زمانی، نتایج بهتری به منظور پیش بینی ارائه می دهد. شبیه سازی سطح تراز ایستابی با استفاده از دو مدل حداقل مربعات ماشین بردار پشتیبان و شبکه بیزین نیز نشان داد که بهترین ساختار ورودی برای پیش بینی سطح تراز ایستابی ماه بعد، تا شش تاخیر زمانی خواهد بود. از میان دو مدل با ساختار ورودی یکسان، مدل حداقل مربعات ماشین بردار پشتیبان، عملکرد بهتری را با توجه به ضریب تبیین 977/0، میانگین خطای مطلق 204/0 و جذر میانگین مربعات خطای 307/0، نسبت به شبکه بیزین داشته است. نتایج تحقیق نشان داد که آزمون گاما در انتخاب ترکیب ورودی مناسب در محاسبات نرم می تواند کارایی بهتری داشته باشد.کلید واژگان: آزمون گاما, ترازسطح ایستابی, دشت اردبیل, شبکه بیزین, ماشین بردار پشتیبانIranian Journal of Watershed Management Science and Engineering, Volume:11 Issue: 36, 2017, PP 33 -42Groundwater has been raised as one of the major sources of water supply for drinking and agriculture, especially in arid and semi-arid. Simulation of groundwater system because of the complexity of these systems is a difficult task. In this paper, using data Ardabil plain water level in the period (1972-2011), the evaluation and selection of appropriate inputs for processing gamma test performance and efficiency of the least squares support vector machines and Bayesian network models were discussed. Monthly water level as input parameters with different delays Gamma test was considered. Gamma test results showed that the water level by 6 latency, offers better results to predict. Water level simulation using least squares support vector machines and Bayesian network models also showed that the input structure to predict the water level the next month will be delayed until six. The two models with the same input structure, least squares support vector machine model, better performance, according to the coefficient of determination 0.977, mean absolute error 0.204 and root mean square error 0.307, compared to Bayesian networks have. The results showed that gamma test compound in the appropriate input soft computing can have a better performance.Keywords: Bayesian networks, Gamma Test, Groundwater level, Plain Ardebil, Support Vector Machine
-
الگوریتم ماشین بردار پشتیبان یکی از الگوریتمهای مشهور و با کارایی بالا در یادگیری ماشین و کاربردهای مختلف است. از این الگوریتم تا کنون نسخههای متعددی ارایه شده که آخرین نسخه آن ماشینهای بردار پشتیبان دوقلوی مربعات حداقلی فازی میباشد. اغلب کاربردها در دنیای امروز دارای حجم انبوهی از اطلاعات هستند. از سویی دیگر یکی از جنبههای مهم دادههای حجیم، جریانیبودن آنها میباشد که باعث شده است بسیاری از الگوریتمهای سنتی، کارایی لازم را در مواجهه با آن نداشته باشند. در این مقاله برای نخستین بار نسخه افزایشی الگوریتم ماشینهای بردار پشتیبان دوقلوی مربعات حداقلی فازی، در دو حالت برخط و شبه برخط ارایه شده است. برای بررسی صحت و دقت الگوریتم ارایهشده دو کاربرد آن مورد ارزیابی قرار گرفته است. در یک کاربرد، این الگوریتم بر روی 6 دیتاست مخزن UCI اجرا شده که در مقایسه با سایر الگوریتمها از کارایی بالاتری برخوردار است. حتی این کارایی در مقایسه با نسخههای غیر افزایشی نیز کاملا قابل تشخیص است که در آزمایشها به آن پرداخته شده است. در کاربرد دوم، این الگوریتم در مبحث اینترنت اشیا و به طور خاص در دادههای مربوط به فعالیت روزانه به کار گرفته شده است. طبق نتایج آزمایشگاهی، الگوریتم ارایهشده بهترین کارایی را در مقایسه با سایر الگوریتمهای افزایشی دارد.
کلید واژگان: شبکه های روی تراشه, مسیریابی, تحمل پذیری خطا, مسیریابی انطباقی, قابلیت اطمینانSupport Vector machine is one of the most popular and efficient algorithms in machine learning. There are several versions of this algorithm, the latest of which is the fuzzy least squares twin support vector machines. On the other hand, in many machine learning applications input data is continuously generated, which has made many traditional algorithms inefficient to deal with them. In this paper, for the first time, an incremental version of the fuzzy least squares twin support vector algorithm is presented. The proposed algorithmis represented in both online and quasi-online modes. To evaluate the accuracy and precision of the proposed algorithmfirst we run our algorithm on 6 datasets of the UCI repository. Results showthe proposed algorithm is more efficient than other algorithms (even non-incremental versions). In the second phase in the experiments, we consider an application of Internet of Things, and in particular in data related to daily activities which inherently are incremental. According to experimental results, the proposed algorithm has the best performance compared to other incremental algorithms.
Keywords: Incremental learning, SVM, fuzzy classification, FLSTSVM -
مدل های زیستگاهی ابرازهایی کاربردی در برآورد فراوانی گونه ای و تنوع زیستی جوامع آبزیان با استفاده از متغیرهای زیستگاه می باشند که می توانند در بهره برداری و حفاظت از گونه های آبزیان بسیار مفید واقع شوند. شناخت مدل های دارای بهترین عملکرد و همچنین یافتن متغیرهای ورودی دارای بیشترین اهمیت و اثرگذاری، می تواند در به کارگیری مناسب آن ها و تصمیمات اتخاذ شده موثر باشد. در مطالعه حاضر، عملکرد چهار نوع مدل (شامل مدل رگرسیون خطی چندگانه، مدل رگرسیون حداقل مربعات جزیی، مدل ماشین بردار پشتیبان و مدل جنگل تصادفی) جهت پیش بینی نمایه های تنوع زیستی ماهیان رودخانه توتکابن در جنوب دریای خزر بر مبنای متغیرهای زیستگاهی مورد مقایسه قرار گرفت و میزان اهمیت متغیرهای محیطی مورد استفاده نیز در هر یک از مدل ها بررسی گردید. بر اساس نتایج، مدل های رگرسیون خطی چندگانه و رگرسیون حداقل مربعات جزئی ضعیف ترین عملکرد را در برآورد نمایه های تنوع زیستی نشان دادند. بهترین عملکرد مربوط به مدل های ماشین بردار پشتیبان و جنگل تصادفی بود. برای مدل های مختلف، میزان اهمیت پارامترهای محیطی در ارتباط با هر یک از نمایه های تنوع متغیر بود. در مجموع، مدل های ماشین بردار پشتیبان و جنگل تصادفی به عنوان مدل های مناسب جهت بررسی نمایه های تنوع زیستی پیشنهاد می شوند.کلید واژگان: مدل, تنوع زیستی, دریای خزر, زیستگاه, پیش بینیJournal of Fisheries, Volume:71 Issue: 3, 2018, PP 225 -234Habitat models are applied to estimate species abundance and diversity using habitat parameters that can be used in exploitation and conservation of many aquatic species. Habitat models are effective tools in estimating species abundance and diversity of aquatic communities using habitat parameters has high importance in exploitation and conservation of aquatic resources. Identifying models with the best performance and habitat parameters with the highest importance, would affect appropriate utilisation of this tools and in making optimal management decisions. The present study evaluated performance of four models (multiple linear regression, partial least square regression, support vector machines and random forest) in prediction of biodiversity indices in fishes of a river in the southern Caspian Sea. In addition, importance of environmental parameters in prediction of those indices were calculated. Multiple linear regression and partial least square regression had weak performance. Support vector machine and random forest had the best performance. Various environmental parameters had varying importance across the examined models. In conclusion, support vector machines and random forest are suggested as suitable models for prediction of biodiversity indices of the southern Caspian fishes.Keywords: Model, Biodiversity, Caspian Sea, Habitat, Prediction
-
This paper concentrates on a new procedure which experimentally recognises gears and bearings faults of a typical gearbox system using a least square support vector machine (LSSVM). Two wavelet selection criteria Maximum Energy to Shannon Entropy ratio and Maximum Relative Wavelet Energy are used and compared to select an appropriate wavelet for feature extraction. The fault diagnosis method consists of three steps, firstly the six different base wavelets are considered. Out of these six wavelets, the base wavelet is selected based on wavelet selection criterion to extract statistical features from wavelet coefficients of raw vibration signals. Based on wavelet selection criterion, Daubechies wavelet and Meyer are selected as the best base wavelet among the other wavelets considered from the Maximum Relative Energy and Maximum Energy to Shannon Entropy criteria respectively. Finally, the gearbox faults are classified using these statistical features as input to LSSVM technique. The optimal decomposition level of wavelet is selected based on the Maximum Energy to Shannon Entropy ratio criteria. In addition to this, Energy and Shannon Entropy of the wavelet coefficients are used as two new features along with other statistical parameters as input of the classifier. Some kernel functions and multi kernel function as a new method are used with three strategies for multi classification of gearboxes. The results of fault classification demonstrate that the LSSVM identified the fault categories of gearbox more accurately with multi kernel and OAOT strategy.
Keywords: gearbox, fault diagnosis, wavelet, least support vector machine -
It is important to check for leakage flow in hydraulic and marine structures during design, as uncontrolled leakage can cause irreparable damage. Soft computing methods can be used to easily model, analyze and control complex systems. This study uses Support Vector Machine (SVM) method to predict leakage discharge of coastal dykes. Five different models are used to achieve this goal, with parameters including the length of the cutoff blanket, dyke depth, and water head considered. The best support vector machine model is checked using a multivariate adaptive regression spline model (MARS) for prediction. Results show that the model including all parameters predicts settlement discharge with very good accuracy compared to the laboratory model, with a coefficient of determination and root mean square coefficient of 0.949 and 0.058 respectively in the test stage and 0.93 and 0.06 in the test phase estimates. The dyke depth parameter has the greatest effect on leakage flow, while the water head has the least effect among input parameters to the model. Although the adaptive regression multivariate spline model accurately estimates the annual dyke leakage flow rate, it is less accurate than the support vector machine method.Keywords: Soft Computing, Seepage Discharge, Coastal Dyke, SVM Method, MARS Model
-
پیش بینی پتانسیل آب های زیرزمینی جهت توسعه و برنامه ریزی سیستماتیک منابع آب بسیار حیاتی است. هدف اصلی این تحقیق، توسعه مدل های یادگیری ماشینی از جمله جنگل تصادفی (RF)، درخت تصمیم (DT) و ماشین بردار پشتیبان (SVM) برای پیش بینی مناطق پتانسیلی آب زیرزمینی در دشت بیرجند است. بنابراین، برای اجرای این مطالعه، داده های ژئوهیدرولوژیکی مربوط به 37 چاه آب زیرزمینی (شامل تعداد و موقعیت چاه ها و سطح آب زیرزمینی) و 17 معیار هیدرولوژی، توپوگرافی، زمین شناسی و محیطی مورد استفاده قرار گرفت. روش انتخاب ویژگی از طریق کمترین مربعات ماشین بردار پشتیبان جهت تعیین معیارهای موثر برای بهبود عملکرد الگوریتم های یادگیری ماشین به کار گرفته شد. در نهایت، نقشه های پیش بینی پتانسیل آب زیرزمینی با استفاده از مدل های DT، RF و SVM تهیه شدند و عملکرد این مدل ها با استفاده از سطح زیر منحنی (AUC) و سایر شاخص های آماری مورد ارزیابی قرار گرفت. نتایج نشان داد که مدل DT (AUC=0.89) توانایی پیش بینی بسیار بالایی برای پتانسیل آب زیرزمینی در منطقه مورد مطالعه دارد و معیار ارتفاع به عنوان مهم ترین عامل در پیش بینی پتانسیل آب زیرزمینی در این منطقه شناخته شد. نتایج این مطالعه می تواند به عنوان راهنمایی برای تصمیم گیری و برنامه ریزی مناسب در استفاده بهینه از منابع آب زیرزمینی مورد استفاده قرار گیرد.کلید واژگان: دشت بیرجند, نقشه های پیش بینی, جنگل تصادفی, درخت تصمیم, ماشین بردار پشتیبانPredicting groundwater potential is crucial for systematic development and planning of water resources. The main objective of this study is to develop machine learning models including Random Forest (RF), Decision Tree (DT), and Support Vector Machine (SVM) for predicting potential groundwater areas in the Birjand plain. Therefore, for the implementation of this study, geohydrological data related to 37 groundwater wells (including the number and location of wells and groundwater levels) and 17 hydrological, topographical, geological, and environmental criteria were used. Feature selection was performed using Support Vector Machine's least squares method to determine effective criteria for improving the performance of machine learning algorithms. Ultimately, predictive maps of groundwater potential were prepared using DT, RF, and SVM models, and the performance of these models was evaluated using the Area under the Curve (AUC) and other statistical indicators. The results showed that the DT model (AUC=0.89) has very high predictive capability for groundwater potential in the study area, and elevation was identified as the most important factor in predicting groundwater potential in this area. The findings of this study can serve as a guide for decision-making and appropriate planning in the optimal use of groundwater resources.Keywords: Birjand Plain, Predictive Maps, Random Forest, Decision Tree, Support Vector Machine
-
آب پاک یکی از عوامل مهم توسعه هر منطقه است. با توجه به قرارگیری ایران در منطقه گرم و خشک و کمبود منابع آب، حفاظت و تامین کیفیت آب لازم برای مصارف مختلف اهمیتی دو چندان دارد. به طور معمول ارزیابی کیفی آب های سطحی پرهزینه و زمان بر بوده و انتخاب روشی که در آن با حداقل پارامترهای هیدروشیمیایی بتوان پیش بینی به نسبت دقیقی از کیفیت آب داشت، ترجیح داده میشود. یکی از مهم ترین پارامترهای کیفی آب در زمینه فعالیت های کشاورزی، نسبت جذبی سدیم (SAR) است که تخمین و ارزیابی دقیق مقدار آن بسیار ضروری است. در این بررسی، امکان سنجی تخمین شاخص کیفی SAR در رودخانه آجی چای در منطقه آذربایجان شرقی با استفاده از پارامترهای هیدروشیمیایی مختلف با مدل درختی قوانین M5 و ماشین بردار پشتیبان بررسی شد. برای بررسی دقت مدل های M5 و ماشین بردار پشتیبان از چهار آماره ضریب همبستگی (R) ، نش- ساتکلیف (NSC) ، جذر میانگین مربعات خطا (RMSE) و میانگین خطای مطلق مقادیر (MAE) استفاده شد. مقادیر این آماره ها برای روش ماشین بردار پشتیبان (98 /0R=، 97 /0N-SC=، (mg/l) 22 /6RMSE= و (mg/l) 06 /6MAE=) و برای مدل M5(98 /0R=، 96 /0N-SC=، (mg/l) 33 /7RMSE= و (mg/l) 9 /3MAE=) محاسبه شد. نتایج مقایسه نشان داد هر دو روش عملکرد خوبی در تخمین میزان SAR داشته اند، اما مدل درختی قوانین M5 در محدوده داده های مورد استفاده روابط خطی ساده و کاربردی تر ارائه می کند.
چکیده (انگلیسی):
Clean water is one of the important factors in any region''s development. Since Iran is located in an arid and semi-arid area with scarce water resources، preservation of water required for various uses and maintenance of its quality takes redoubles this importance. Evaluation of surface water is normally a costly and time-consuming process. Therefore، a method is preferred which has the minimum number of hydrochemical parameters and can yield a relatively accurate prediction of water quality. One of the most significant qualitative parameters of water for agricultural uses is the sodium absorption ratio (SAR)، the factor which should be estimated and evaluated accurately. This research employed various hydrochemical parameters، a model tree using the M5-Rules، and a Support Vector Machine to study the feasibility of estimating the qualitative index SAR in the Ajichai River located in East Azerbaijan Province. The four statistics of correlation coefficient (R)، Nash-Sutcliffe coefficient (NSC)، Root Mean Square Error (RMSE)، and Mean Absolute Error (MAE) were used to determine the accuracy of both M5 model and the Support Vector Machine.
The study region was the Ajichai River on the northern hillsides of the Sahand Mountain. Hydrochemical data from the Hydrometric Station in Vanyar was used to evaluate and predict the SAR in the river. The Vanyar Station has the longitude of 46 ̊24 east، the latitude of 38 7́ north، and the altitude of 1460 meters. Effects of Total Dissolved Solids (TDS)، Electrical Conductivity (EC)، PH، chlorine (Cl-)، sulfate (SO42+)، calcium (Ca2+)، magnesium ( Mg2+) and sodium ( Na+) parameters on SAR were determined in SAR estimation. The model tree M5-Rules is a new data mining method. The main goal of this model is derived from regression trees. The difference is that this model has regression functions in its leaves instead of constant values and classification tags. The major advantage of the model tree M5-Rules over regression trees is that the model tree M5-Rules is much smaller than regression trees. Furthermore، regression functions normally do not include many parameters. A decision tree usually consists of four parts of root، branches، nodes، and leaves. Each node corresponds to a certain characteristic، and the branches represent values of the intervals. These intervals consider known values for each of the characters. The branching operation takes place with one of the predictor variables. The branching intervals are selected in a way that the sum of squared deviations from the mean of the data in each node is minimized. The branching criterion indicates the amount of the error in the related node، and the model calculates the minimum expected error as a result of each characteristic testing in the related node. The model error is generally assessed by measuring the predicted unobserved target values accuracy. In this research، the WEKA software which is developed at Waikato University in New Zealand was used to model the M5 method. Modeling was performed with this software using the option of M5-Rules which present simple and linear rules. Support Vector Machines are data mining algorithms similar to the model tree M5 and the artificial neural network. There are two groups of Support Vector Machines: Support Vector Classification (SVC) and Support Vector Regression. Furthermore، Support Vector Machines are based on the concept of decision planes that define decision boundaries، i.e. a decision plane separates data with different tags from each other. The goal in a linearization algorithm with the help of a Support Vector Machine، the assumptions of the input value of xi، and the output value of yi is to find a function with the minimum deviation (ε) from the yis (ε is the amount of deviation). In this research، the Statistica software is used for modeling the SAR values employing Support Vector Regression.
In the modeling of the SAR values by using the tree model M5-Rules، the best answer was obtained when 66 percent of the data was allocated to training and the rest to testing. To model the SAR values using the Support Vector Machine، various functions were tested as kernel functions، and it was found that the RBF function exhibited the best performance in the modeling of the SAR values. Among the 10 scenarios studied in this research، the best one was selected. The four statistics of correlation coefficient (R)، Nash-Sutcliffe coefficient (NSC)، Root Mean Square Error (RMSE)، and Mean Absolute Error (MAE) were used to determine the accuracy of both M5 model and the Support Vector Machine. The obtained values of these calculations were: R =0.98، N-SC=0.97، RMSE=6.22 (mg/l)، MAE=6.06 (mg/l) for the Support Vector Machine method; and R=0.98، N-SC=0.96، RMSE=7.33 (mg/l)، and MAE=3.9 (mg/l) for the M5 model. Results of the comparison indicated that both methods studies in this work، i.e. Support Vector Regression and the M5 model، were highly capable of predicting the SAR values in the Ajichai River، using the available data. However، the M5 model is recommended to be used due to the fact that the formulas employed in this method are so simple and linear.کلید واژگان: کیفیت آب, مدل درختی قوانین M5, نسبت جذبی سدیم, _ ماشین بردار پشتیبان -
در این پژوهش به منظور پیش بینی مقادیر ماهانه بارش از مدل های ماشین بردار پشتیبان (SVM)، ماشین بردار پشتیبان تلفیق شده با تبدیل موجک (W-SVM)،ARMAX و ARIMA استفاده گردید. لذا از سری زمانی ماهانه ایستگاه های باران سنجی واقع در استان همدان طی یک دوره 25 ساله (1370-1394) استفاده شد. این دوره 25 ساله به 17 سال برای آموزش، 4 سال برای واسنجی و 4 سال برای صحت سنجی مدل تقسیم شد. مقایسه آماری نتایج به کمک شاخص های ضریب همبستگی (r)، جذر میانگین مربعات خطا (RMSE) و خطای استاندارد (SE) صورت گرفت. نتایج نشان داد که به ترتیب مدل های ARIMA، ماشین بردار پشتیبان، ARMAX و ماشین بردار پشتیبان تلفیق شده با تبدیل موجک در رتبه های اول تا چهارم قرار دارند. همچنین مدل ماشین بردار پشتیبان دارای پارامترهای قابل تنظیم کمتری نسبت به مدل های دیگر می باشد. لذا این مدل با سهولت بیشتر و در زمان کمتری قادر به پیش بینی بارش بوده و از این نظر نسبت به سایر روش ها ارجحیت دارد.
کلید واژگان: ARIMA, ARMAX, بارش, پیش بینی, ماشین بردار پشتیبان, موجکIn this research, we used the support vector machine (SVM), support vector machine combine with wavelet transform (W-SVM), ARMAX and ARIMA models to predict the monthly values of precipitation. The study considers monthly time series data for precipitation stations located in Hamedan province during a 25-year period (1998-2016). The 25-year simulation period was divided into 17 years for training, 4 years for calibration and 4 years for validation. Statistical comparison of the results was done by using correlation coefficient (r), root mean square error (RMSE), and standard error (SE). Results showed that ARIMA, Support Vector Machines, ARMAX and support vector machine combine with wavelet transform were ranked first to forth, respectively. Furthermore, the support vector machine has fewer adjustable parameters than other models. So, the model is able to predict precipitation with greater ease and less time. For this reason, it is preferable to other methods.
Keywords: ARIMA, ARMAX, Precipitation, Prediction, Support Vector Machine, Wavelet -
یکی از ابزارهای قدرتمند در مسائل پیش بینی ورشکستگی که در دهه های اخیر مورد توجه بسیاری از سرمایه گذاران، مدیران و محققان قرارگرفته است؛ داده کاوی و به طور خاص ماشین بردار پشتیبان است. اما مطالعات نشان می دهد این روش نسبت به انتخاب پارامترها و متغیرهای ورودی از حساسیت بالایی برخوردار است. لذا هدف از تحقیق حاضر ترکیب مدل توسعه یافته ماشین بردار پشتیبان و k-نزدیکترین همسایه جهت حذف ورودی های دارای خطا و متعاقبا افزایش دقت پیش بینی ورشکستگی است. به این منظور ابتدا با استفاده از 5 نسبت مالی شامل نسبت جاری، حاشیه سود خالص، نسبت بدهی، بازده دارایی ها و بازده سرمایه مرتبط به 150 شرکت حاضر در بورس اوراق بهادار تهران در بازه 10 ساله 1389-1398و الگوریتم k-نزدیکترین همسایگی داده های آموزش پالایش شده و سپس با تکیه بر ماشین بردار پشتیبان مبتنی بر جریمه دسته بندی، جهت ساخت مدل پیش بینی به کار گرفته می شوند. پس از برآورد پارامترهای بهینه، اعتبارسنجی مدل با استفاده از داده های آزمایش صورت خواهد گرفت. در نهایت نتایج بدست آمده از مدل پیشنهادی و مدل های کلاسیک مورد مقایسه قرار خواهدگرفت. نتایج نشان می دهد با ترکیب مدل های k-نزدیکترین همسایه و ماشین بردار پشتیبان خطای کلی پیش بینی کاهش یافته و ضرایب جریمه ماشین بردار پشتیبان با سطح احتمال بالایی معنادار هستند.
کلید واژگان: ماشین بردار پشتیبان, پیشبینی ورشکستگی, دادهکاوی, K-نزدیکترین همسایه, ضرایب جریمهIn recent years, data mining, particularly the support vector machine, has gained considerable interest among investors, managers, and researchers as an effective means of bankruptcy prediction. However, studies indicate that it is highly sensitive to the selection of parameters and input variables. Hence, the aim of this research is to improve bankruptcy prediction accuracy by combining an advanced support vector machine model with the k-nearest neighbor approach to eliminate erroneous entries. To achieve this, first, by using five financial ratios: current ratio, net profit margin, debt ratio, return on assets, and return of investment from 150 companies listed on the Tehran Stock Exchange during the 10-year period (2010-2019), and k-nearest neighbor algorithm, the training data will be refined. Then, relying on a support vector machine based on classification penalty, a prediction model will be constructed. The parameters will be estimated, and its validity will be assessed using test data. Finally, a comparison will be made between the outcomes of the proposed model and traditional models.The findings demonstrate that the combination of the k-nearest neighbor models and support vector machine reduces the overall prediction error, and the penalty coefficients of the support vector machine exhibit a high level of statistical significance.
Keywords: Support Vector Machine, Data Mining, Bankruptcy Prediction, K-Nearest Neighbor, Penalty Coefficients
-
از آنجا که گزینه «جستجوی دقیق» غیرفعال است همه کلمات به تنهایی جستجو و سپس با الگوهای استاندارد، رتبهای بر حسب کلمات مورد نظر شما به هر نتیجه اختصاص داده شدهاست.
- نتایج بر اساس میزان ارتباط مرتب شدهاند و انتظار میرود نتایج اولیه به موضوع مورد نظر شما بیشتر نزدیک باشند. تغییر ترتیب نمایش به تاریخ در جستجوی چندکلمه چندان کاربردی نیست!
- جستجوی عادی ابزار سادهای است تا با درج هر کلمه یا عبارت، مرتبط ترین مطلب به شما نمایش دادهشود. اگر هر شرطی برای جستجوی خود در نظر دارید لازم است از جستجوی پیشرفته استفاده کنید. برای نمونه اگر به دنبال نوشتههای نویسنده خاصی هستید، یا میخواهید کلمات فقط در عنوان مطلب جستجو شود یا دوره زمانی خاصی مدنظر شماست حتما از جستجوی پیشرفته استفاده کنید تا نتایج مطلوب را ببینید.
* ممکن است برخی از فیلترهای زیر دربردارنده هیچ نتیجهای نباشند.
-
معتبرحذف فیلتر