به جمع مشترکان مگیران بپیوندید!

تنها با پرداخت 70 هزارتومان حق اشتراک سالانه به متن مقالات دسترسی داشته باشید و 100 مقاله را بدون هزینه دیگری دریافت کنید.

برای پرداخت حق اشتراک اگر عضو هستید وارد شوید در غیر این صورت حساب کاربری جدید ایجاد کنید

عضویت

جستجوی مقالات مرتبط با کلیدواژه « درخت تصمیم » در نشریات گروه « برق »

تکرار جستجوی کلیدواژه «درخت تصمیم» در نشریات گروه «فنی و مهندسی»
  • ندا اشرفی خوزانی، مریم محمودی*، شبنم نصر اصفهانی

    ارامتر مقدار تابش خورشیدی یکی از مهم ترین پارامترها در تعیین مقدار توان خروجی پنل های فتوولتائیک است. پیش بینی دقیق این پارامتر برای برنامه ریزی در واحدهای دیسپچینگ (Dispatching) و مدیریت بار از اهمیت ویژه ای برخوردار است. عدم قطعیت در میزان تابش خورشیدی و سختی پیش بینی آن، طراحان را با چالش های اقتصادی و مدیریتی مواجه می کند. در این پژوهش یک روش پیش بینی با دقت بالا با استفاده از روش های مبتنی بر درخت و بهبود عملکرد این روش ها به کمک الگوریتم های فرا ابتکاری ارائه می شود. تاکید اصلی در روش پیشنهادی عدم بیش-برازش و قابلیت اتکای بالا و قابلیت به کارگیری در سیستم های اینترنت اشیاء است. بنابراین، الگوریتم های فراابتکاری در بهینه سازی روش های مبتنی بر درخت و همینطور در انتخاب ویژگی و انتخاب نمونه ها نیز دخیل شده اند. لذا استفاده از روش های فراابتکاری به عنوان جنبه ی نوآوری اصلی این پژوهش، نه تنها استفاده برای به دست آوردن تنظیمات بهینه ی مدل های یادگیری ماشین بلکه در کاهش اثر نویزها، داده های پرت (Outlier) و ورودی های کم اثر نیز به بهبود کیفیت خروجی نهایی کمک کرده است. به علاوه مناسب سازی نتایج پیش بینی برای استفاده عملی در محیط نیروگاه های فتوولتائیک موضوع پراهمیتی است. این موضوع که از طریق تابع برازش نوآورانه این پژوهش در بهینه سازی مدل ها انجام پذیرفته است، باعث می شود که خروجی نهایی علاوه بر دقت بالا از نظر سهولت پیاده سازی در محیط های واقعی نیروگاه های فتوولتائیک نیز بهینه باشد. خروجی نهایی، یک مدل قوی است که با معیار مربع-R دارای امتیاز 95/0 است و از نظر سادگی تا حد زیادی بهینه است.

    کلید واژگان: الگوریتم خفاش, اینترنت اشیاء, درخت تصمیم, نیروگاه های فتوولتائیک, یادگیری ماشین}
    Neda Ashrafi Khozani, Maryam Mahmoudi*, Shabnam Nasr Esfahani

    The solar radiation value parameter is one of the most important parameters in determining the output power value of photovoltaic panels. Accurate prediction of this parameter is crucial for dispatching and load management planning. Managers and designers encounter economic and managerial challenges due to the uncertainty and difficulty in predicting solar radiation levels. This research introduces a highly accurate prediction method utilizing tree-based methods, enhanced by meta-heuristic algorithms to boost performance. The proposed method emphasizes preventing overfitting and ensuring high reliability for use in Internet of Things systems. Meta-heuristic algorithms are utilized for optimizing tree-based methods, as well as for feature and instance selection. Employing meta-heuristic methods as the main innovation in this research not only optimizes machine learning model settings but also mitigates the impact of noise, outliers, and ineffective inputs, thereby enhancing the final output quality. Utilizing an innovative fitness function in model optimization enhances prediction accuracy and adaptability to real photovoltaic power plant environments. The final outcome is a strong model that has a score of 0.95 with the R-square criterion and is optimal model.

    Keywords: Internet Of Things, Decision Tree, Machine Learning, Bat Algorithm, Photovoltaic Power Plants}
  • سهیل رنجبر

    در این مقاله، طرح حفاظتی هوشمند به منظور پیش بینی برخط ناپایداری گذرای ناحیه گسترده در سیستم های قدرت بر اساس تئوری درخت تصمیم معرفی می شود. برای این منظور با بررسی نوسان توان شبکه و شرایط معادلات دینامیک ژنراتور سنکرون در دو حالت پایدار و شرایط خروج از همگامی، شاخص های برخط مبتنی بر واحدهای اندازه گیری فازوری معرفی و تحت شرایط متفاوت بهره برداری و توپولوژیکی شبکه در زمان های وقوع خطا و برطرف شدن خطا به منظور عملکرد سریع طرح پیشنهادی اندازه گیری می شوند. در ادامه، شاخص های پیشنهادی به صورت جفت داده ورودی- خروجی برای آموزش درخت تصمیم در محیط برون خط مورد استفاده قرار می گیرند. نمونه های آموزشی شامل یک سری اندازه گیری ها تحت خطاهای متفاوت شامل نوع و مکان خطا هستند. توانایی حفاظتی طرح پیشنهادی بر روی یک شبکه 39باسه با پتانسیل ناپایداری گذرای ناحیه گسترده ژنراتورهای سنکرون، پیاده سازی و عملکرد درخت تصمیم تحت سناریوهای از پیش آموزش داده نشده صحت سنجی می شود. نتایج شبیه سازی نشان دهنده توانایی طرح پیشنهادی درخت تصمیم در زمینه پیش بینی صحیح خروج از همگامی ناحیه گسترده سیستم قدرت تحت طیف وسیعی از شرایط دینامبک شبکه است.

    کلید واژگان: پایداری گذرا, خروج از همگامی, آشکارسازی, درخت تصمیم}
    Soheil Ranjbar *

    This paper presents a new method for Out-of-Step detection in synchronous generators based on Decision Tree theory. For distinguishing between power swing and out-of-step conditions a series of input features are introduced and used for decision tree training. For generating input training samples, a series of measurements are taken under various faults including operational and topological disturbances. The proposed method is simulated over 10 machines 39-bus IEEE test system and the simulation results are prepared as input-output pairs for decision tree induction and deduction. The merit of proposed out-of-step protection scheme lies in adaptivity and robustness of input features under different input scenarios

    Keywords: Transient instability, out-of-step, power swing, prediction, decision tree C5.0, WAMS}
  • مجید عبدالرزاق نژاد*، مهدی خرد

    پیش بینی قیمت سهام در بورس اوراق بهادار از جمله چالش برانگیزترین مباحث در مقوله پیش بینی است که توجهات بسیاری از جمله محققان را به خود جلب کرده است. عوامل مختلف درگیر در بورس اوراق بهادار سبب شده است تا بازار بورس همیشه از خود فرآیندی پویا و پیچیده داشته باشند. لذا پژوهش گران بر آن شده اند تا در پیش بینی رفتار بورس، به دنبال روش های نوینی باشند که دربرابر عدم ایستایی و پیچیده بودن مقاوم باشند. در این پژوهش یک مدل ترکیبی دوگانه متشکل از دو سامانه استنتاج فازی و یک الگوریتم رقابت استعماری به صورت ترکیبی استفاده شده است که یک سامانه فازی برای ایجاد مدلی برای پیش بینی قیمت سهام براساس 10 متغیر تاثیرگذار بر قیمت سهام استفاده می شود که قوانین فازی موتور استنتاج این سامانه فازی توسط نسخه بهبود یافته فازی جدید الگوریتم رقابت استعماری به دست می آید و پارامترهای الگوریتم رقابت استعماری نیز توسط یک سامانه فازی دیگر به نام تنظیم کننده پارامترها ، تعیین می شوند. به منظور ارزیابی عملکرد مدل پیشنهادی اطلاعات مرتبط با قیمت سهام شش شرکت فعال در بورس اوراق بهادار تهران در نظر گرفته شده و هشت مدل پیش بینی قیمت سهام در دو گروه الگوریتم به همراه مدل پیشنهادی پیاده سازی شدند. نتایج به دست آمده نشان از عملکرد بهتر مدل پیشنهادی از جهت کیفیت نتایج پیش بینی شده و انحراف کم نتایج فاز آزمون از فاز آموزش دارد.

    کلید واژگان: پیش بینی قیمت سهام, سامانه استنتاج فازی ممدانی, شبک عصبی, درخت تصمیم, جنگل تصادفی, ماشین بردار پشتیبان, الگوریتم رقابت استعماری}
    Majid Abdolrazzagh-Nezhad*, Mehdi Kherad

    Investing on the stock exchange, as one of the financial resources, has always been a favorite among many investors. Today, one of the areas, where the prediction is its particular importance issue, is financial area, especially stock exchanges. The main objective of the markets is the future trend prices prediction in order to adopt a suitable strategy for buying or selling. In general, an investor should be predicted the future status of the time, the amount and location of his assets in a way that increases the return on his assets. Stock price prediction is one of the most challenging topics in the field of forecasting, which has attracted many attentions from researchers. The various factors of the markets have caused the situation that they always have a dynamic and complex process. Therefore, researchers have been determined to look for new prediction methods of stock price, which will reduce the instability and complexity of the markets. In fact, the most of recent studies have shown that the stock market is a nonlinear, dynamic, and non-parametric system that is affected by various economic factors. The applications of artificial intelligence and machine learning techniques to identify the relationship between the factors and stock price exchanges can be organized in seven major groups such as neural networks and deep learning, support vector machine, decision tree and random forest, k nearest neighbor, regression, Bayesian networks and fuzzy inference-base methods. Due to the mentioned prediction methods have their own challenges, hydridizations of the meta-heuristic algorithms and the methods were applied to stock price prediction. In this paper, a new hybridization of Fuzzy Inference System and a novel modified Fuzzy Imperialist Competitive Algorithm (FICA+FIS) are proposed to stock price prediction. To achieve this aim, two Fuzzy Inference Systems are designed to tuing the ICA’s parameters based on three effective factors in search strategy and to predict stock price based on 10 effective economic factors. The candidate fuzzy rules set of the inference engine is obtained by the FICA for the second FIS and six fuzzy rules of the first FIS are designed based on the ICA’s behaviour. The FICA+FIS has 10 inputs of the stock price variables including the lowest stock price, the highest stock price, the initial stock price, the trading volume, the trading value, the first market index of the trading floor, the total market price index, the dollar exchange rate, the global price per ounce of gold, the global oil price, and its output is also the stock price. The inputs and output variables consist of three linguistic vairables such as Low, Medium, and High with triangular membership functions. Each country (search agent) of the FICA contains information on all the fuzzy rules of the inference engine attributed to the country and has r×12 elements, where r is the number of fuzzy rules. The FICA’s objective function is the mean square error (MSE) to evaluate the power of each country. A challenge of the ICA is the proper tuning paprameters such as the Revolution Probability (Prevolve), Assimilation Coefficient (Beta) and the Colonies Mean Cost Coefficient (zeta), which has a great impact on the efficiency of the algorithm (precision and time of access to solution). These parameters are usually constant and according to different problems, they have different values and are given experimentally. In this paper, the parameters are tuned based on the number of iterations that the best objective function value has not improved (UN), the number of imperialist (Ni) and the current number iteration (Iter). To this aim, a FIS is designed based on six fuzzy rules that UN, Ni and Iter are its input variables and Prevolve, Beta and zeta are its output variables. To analyze the efficiency of the FICA+FIS as a case study, six datasets are collocted from six companies which were active between 1389 to 1394 in Tehran Stock Exchange such as Pars Oil, Iran Khodro, Motogen, Ghadir, Tidewater and Mobarakeh. The information of around 2000 days are collected for each company and the data are divided to train and test data based on cross validation 10-fold. To compare the performance of the FICA+FIS, two groups of stock price prediction methods were implemented. In the first group, the fuzzy rules of the FIS’s engine to stock price prediction are obtained by the classic draft of the Imperialist Competitive Algorithm (ICA+FIS), the Genetic Algorithm (GA+FIS) and the Whale Optimization Algorithm (WOA+FIS), which are used to compare with the FICA. The second group includes classic stock price prediction methods such as multi-layered neural network (NN), support vector machine (SVM), CART decision tree (DT-CART), random forest (RF) and Gaussian process regression (GPR), which are used to compare with the FICA+FIS. The experimental results show that first, the improved fuzzy draft of the ICA performed better than its classic draft, the GA and the WOA, and second, the performance of the FICA FIS is better than other investigated algorithms in both training and testing phases, although the DT is a competitor in the training phase and the RF is a competitor in the test phase on some datasets.

    Keywords: Stock Price Prediction, Fuzzy Inference Systems, Neural Networks, Decision Tree, Random Forest, Support Vector Machine, Imperialist Competitive Algorithm}
  • محمد روستائی *، محمدرضا حسنی آهنگر

    رسانه‌های اجتماعی به یک وسیله محبوب برای دنبال کردن اخبار تبدیل شده‌اند. در عین حال، انتشار گسترده اخبار جعلی را نیز ممکن می‌سازند. اخبار جعلی و اطلاعات نادرست چالش بزرگی در همه انواع رسانه‌ها به ویژه رسانه‌های اجتماعی هستند. لذا امکان شناسایی محتوای جعلی در منابع آنلاین یک نیاز فوری است که در اسرع وقت برای جلوگیری از تاثیر منفی بر جامعه، باید شناسایی شوند. هدف از این پژوهش افزایش دقت سیستم‌های تشخیص اخبار جعلی در رسانه‌های اجتماعی می‌باشد. از این رو در این پژوهش یک سیستم تشخیص اخبار طراحی گردیده است که وظیفه‌ی آن تشخیص اخبار اصلی از جعلی می‌باشد. در این پژوهش جهت تشخیص اخبار جعلی از یک فرآیند سه مرحله‌ای استفاده گردیده است که در مرحله‌ی نخست عملیات پیش‌پردازش صورت گرفته است. در گام دوم عملیات، استخراج ویژگی صورت گرفته است. عملیات استخراج ویژگی براساس روابط معنایی ایجاد گردیده است. در گام نهایی از الگوریتم‌های طبقه‌بندی جهت طبقه‌بندی اخبار استفاده گردیده است. در این پژوهش طبقه‌بندهای نزدیک‌ترین همسایه، درخت تصمیم و ماشین بردار پشتیبان مورد استفاده قرار گرفته است که به ‌وسیله ترکیب رای اکثریت با هم ادغام شده‌اند. جهت ارزیابی روش پیشنهادی از معیارهای طبقه‌بندی بهره گرفته شده است. معیارهای به‌کار رفته در این پژوهش شامل معیارهای دقت، صحت، فراخوان و معیار F می‌باشد. نتایج حاصل از آزمایش‌ها نشان‌دهنده‌ی کارایی قابل قبول روش پیشنهادی در تشخیص اخبار جعلی می‌باشد. دلیل این برتری را می‌توان در بخش استخراج ویژگی و طبقه‌بندی یافت.

    کلید واژگان: اخبار جعلی, استخراج ویژگی, طبقه بندی, نزدیک ترین همسایه, درخت تصمیم, ماشین بردار پشتیبان}
    Mohammad Roustaei, MohammadReza Hassani Ahangar

    Social media has become a popular means of following the news. At the same time, they make possible the widespread dissemination of fake news, that is, false and deliberate news and information have significant negative effects on society. Fake news and misinformation are a big challenge in all types of media, especially social media. Most of the information that appears on social media is suspicious and in some cases misleading. Therefore, the possibility of identifying fake content in online resources is an urgent need that must be identified as soon as possible to avoid negative impact on society. The purpose of this study is to increase the accuracy of fake news detection systems on social media. Therefore, in this research, a news recognition system has been designed whose task is to distinguish the main news from the fake. In this research, a three-step process has been used to identify fake news, which has been done in the first stage of preprocessing operations. In the second step, the feature extraction operation is performed. Feature extraction operations are based on semantic relationships. In the final step, classification algorithms are used to classify the news. In this study, the nearest neighbor, decision tree, and support vector classifiers have been used, which have been combined by a majority vote. Classification criteria have been used to evaluate the proposed method. The criteria used in this study include accuracy, precision, recall and F criteria. The results of the experiments show the acceptable efficiency of the proposed method in detecting fake news. The reason for this superiority can be found in the feature extraction and classification section.

    Keywords: Fake news, feature extraction, classification, nearest neighbor, decision tree, super vectormachine}
  • سمیه لطفی، محمد قاسم زاده*، مهران محسن زاده، میترا میرزارضایی

    دسته‌بندی، یکی از وظایف مهم داده‌کاوی و یادگیری ماشین است و درخت تصمیم به ‌عنوان یکی از الگوریتم‌های پرکاربرد دسته‌بندی، دارای سادگی و قابلیت تفسیر نتایج است. اما در مواجهه با داده‌های حجیم، درخت تصمیم بسیار پیچیده خواهد شد و با محدودیت‌های حافظه و زمان اجرا مواجه‌ است. الگوریتم‌های ساخت درخت باید همه مجموعه داده آموزش و یا بخش زیادی از آن را درون حافظه نگه دارند. الگوریتم‌هایی که به علت انتخاب زیرمجموعه‌ای از داده با محدودیت حافظه مواجه نیستند، زمان اضافی جهت انتخاب داده صرف‌ می‌کنند. جهت انتخاب بهترین ویژگی برای ایجاد انشعاب در درخت هم باید محاسبات زیادی بر روی این مجموعه داده انجام شود. در این مقاله، یک رویکرد مقیاس‌پذیر افزایشی بر مبنای تقسیم سریع و هرس، جهت ساخت درخت تصمیم بر روی‌ مجموعه داده‌های حجیم ارایه شده است. الگوریتم ارایه‌شده درخت تصمیم را با استفاده از کل مجموعه داده‌ آموزش اما بدون نیاز به ذخیره‌سازی داده در حافظه اصلی می‌سازد. همچنین جهت کاهش پیچیدگی درخت از روش پیش‌هرس استفاده شده است. نتایج حاصل از اجرای الگوریتم بر روی مجموعه داده‌های UCI نشان می‌دهد الگوریتم ارایه‌شده با وجود دقت و زمان ساخت قابل رقابت با سایر الگوریتم‌ها، بر مشکلات حاصل از پیچیدگی درخت غلبه کرده است.

    کلید واژگان: پیش هرس, داده کاوی, درخت تصمیم, مقیاس پذیر}
    Mohammad Ghasemzade*, Mehran Mohsenzadeh, Mitra Mirzarezaee

    Classification is one of the most important tasks in data mining and machine learning; and the decision tree, as one of the most widely used classification algorithms, has the advantage of simplicity and the ability to interpret results more easily. But when dealing with huge amounts of data, the obtained decision tree would grow in size and complexity, and therefore require excessive running time. Almost all of the tree-construction algorithms need to store all or part of the training data set; but those algorithms which do not face memory shortages because of selecting a subset of data, can save the extra time for data selection. In order to select the best feature to create a branch in the tree, a lot of calculations are required. In this paper we presents an incremental scalable approach based on fast partitioning and pruning; The proposed algorithm builds the decision tree via using the entire training data set but it doesn't require to store the whole data in the main memory. The pre-pruning method has also been used to reduce the complexity of the tree. The experimental results on the UCI data set show that the proposed algorithm, in addition to preserving the competitive accuracy and construction time, could conquer the mentioned disadvantages of former methods.

    Keywords: Pre-pruning, data mining, decision tree, scalable}
  • A. Hasan-Zadeh *, F. Asadi, N. Garbazkar

    For an economic review of food prices in May 2019 to determine the trend of rising or decreasing prices compared to previous periods, we considered the price of food items at that time. The types of items consumed during specific periods in urban areas and the whole country are selected for our statistical analysis. Among the various methods of modelling and statistical prediction, and in a new approach, we modeled the data using data mining techniques consisting of decision tree methods, associative rules, and Bayesian law. Then, prediction, validation, and standardization of the accuracy of the validation are performed on them. Results of data validation in the urban and national area and the results of the standardization of the accuracy of validation in the urban and national area are presented with the desired accuracy.

    Keywords: data mining, Bayesian Rule, decision tree, Associative Rule, Households’ Consumer Goods}
  • سعید محمدزاده، قدرت الله سیف السادات*، محمود جورابیان
    در این مقاله روشی برمبنای درخت تصمیم برای حفاظت ازدست رفتن تحریک (LOE) ژنراتور سنکرون در حضور کنترل کننده یک پارچه پخش توان (UPFC) ارایه شده است. حضور UPFC سبب می شود که رله بردی دچار تاخیر در شناسایی LOE شود. در روش پیشنهادی متغیرهای مختلف درنظر گرفته شده اند. در الگوهای مختلف تست و آموزش و با استفاده از الگوریتم های هوشمند، مناسب ترین متغیرها انتخاب شده اند تا دقت در زمان آشکارسازی خطای LOE را افزایش دهند. نتایج شبیه سازی در نرم افزار متلب/سیمولینک، درستی روش پیشنهادی را در بارگذاری های مختلف، درصدهای مختلف ازدست رفتن تحریک، حالت های مختلف خطا و شرایط نویزی تایید می کند. نتایج نشان می دهد که روش پیشنهادی نسبت به روش های سنتی، در تفکیک خطاهای LOE و خطاهای خارجی تحت شرایط عملکرد ناشناخته، دقت دسته بندی بهتر و سرعت تشخیص بالاتری دارد.
    کلید واژگان: حفاظت ازدست رفتن تحریک, درخت تصمیم, کنترل کننده یک پارچه پخش توان, طرح بردی}
    S. Mohammadzadeh, G. Seifossadat *, M. Jourabian
    In this paper, a Decision Tree-based method of Loss of Excitation (LOE) Protection of Synchronous Generators in Presence of Unified Power Flow Controller (UPFC) is presented. The presence of UPFC causes the Berdy relay to be delayed in detecting LOE. In the proposed method, different variables are considered and in the various test and training patterns and using intelligent algorithms, the most suitable variables selected to increases the accuracy in detecting the time of LOE. The simulation results in Matlab/Simulink software validate the accuracy of the proposed method in various loadings, different percentages of loss of excitation, various scenarios of fault and noisy conditions. The results reveal that the proposed method has a better classification accuracy and a higher identification speed under new and unseen operating conditions of LOE and external faults compared to traditional methods.
    Keywords: Loss of excitation protection, Decision Tree, unified power flow controller, berdy plan}
  • سلیمه ضیاالدینی*، مینا ابارقی

    اغلب مجموعه داده های مربوط به داده کاوی و ماشین یادگیری دارای داده هایی با مقادیر Missing Values یا داده گمشده می باشند. چگونگی برخورد با داده گمشده و نیز ارائه راهکارهایی مبتنی بر تخمین مقدار مربوط به داده گمشده، منجر به بروز یک مسئله بسیار مهم در زمینه داده کاوی و ماشین یادگیری شده است. در بین الگوریتم های داده کاوی، الگوریتم C4.5، به دلیل کارآیی، استفاده در کاربردهای مختلف داده کاوی و نیز توانایی در کار کردن و تخمین مقدار داده گمشده در مجموعه داده ها، به طور مکرر مورد استفاده قرار گرفته است. پژوهشگران و محققان روش ها و الگوهای متعددی جهت برخورد با مقادیر داده گمشده و تخمین مقدار آن در مجموعه داده های الگوریتم C4.5 ارائه داده اند که هر یک از روش ها به نحوی موجب افزایش دقت درخت تصمیم و در نتیجه تولید یک درخت تصمیم موثر و کاراتر شده است. لذا در مقاله حاضر ابتدا به بررسی و مرور روش ها و راهکارهای ارائه شده پیشین و سپس به ارائه روش پیشنهادی با عنوان روش جابجایی خصوصیت ها جهت تخمین مقادیر گمشده در مجموعه داده پرداخته خواهد شد و سپس در پایان به مقایسه و ارزیابی دقت حاصل شده روش پیشنهادی با روش های حذف و میانگین خواهیم پرداخت.

    کلید واژگان: داده کاوی, داده گمشده, الگوریتم C4, 5, مجموعه داده, درخت تصمیم}
    Salimeh Ziaadini *, Mina Abaraghi

    Most Datasets related to data mining and machine learning contain data with missing values. How to deal with missing values and to provide solutions based on estimating missing values lead to a very important issue in the field of machine learning and data mining. Among data mining algorithm, the C4.5 algorithm has been used repeatedly because of performance being used in various applications and also ability in working and estimating missing values in data sets. Researchers have presented various methods for deal with missing values and estimating it’s amount in a C4.5 data sets which any of their method causes an increase in accuracy of decision tree and there for produce a more effective and efficient decision. In this paper, for estimating missing values in data sets, at the first, we review the previous methods then the proposed approach as a displacement properties method and in the end the accuracy of proposed methods for deletion and average will be comparing.

    Keywords: Data Mining, Missing Values, C4.5 Algorithm, Dataset, Decision Tree}
  • M. Ghazanfari, A. Badiee *, M. Shamsollahi
    Heart disease is one of the major causes of morbidity in the world. Currently, large proportions of healthcare data are not processed properly, thus, failing to be effectively used for decision making purposes. The risk of heart disease may be predicted via investigation of heart disease risk factors coupled with data mining knowledge. This paper presents a model developed using combined descriptive and predictive techniques of data mining that aims to aid specialists in the healthcare system to effectively predict patients with Coronary Artery Disease (CAD). To achieve this objective, some clustering and classification techniques are used. First, the number of clusters are determined using clustering indexes. Next, some types of decision tree methods and Artificial Neural Network (ANN) are applied to each cluster in order to predict CAD patients. Finally, results obtained show that the C&RT decision tree method performs best on all data used in this study with 0.074 error. All data used in this study are real and are collected from a heart clinic database.
    Keywords: data mining, coronary heart disease, Clustering, Classification, decision tree}
  • رضا ابراهیمی آتانی*، مهدی صادق پور
    با توسعه روزافزون خدمات دولت الکترونیکی، اطلاعات شخصی افراد در قالب پایگاه های داده در دستگاه ها و ارگان های دولتی و خصوصی ذخیره شده است. در بسیاری از موارد برای پردازش و استخراج دانش از این منابع داده بزرگ و با ارزش، نیاز به انتشار منابع داده و در اختیار گذاشتن اطلاعات به سایر نهادها و شرکت ها پدید می آید که این امر موجب ایجاد چالش های امنیتی در نقض حریم خصوصی افراد می شود. در این مقاله ضمن بررسی کامل پیشینه پژوهش، حفظ محرمانگی در انتشار داده ها، یک روش کارآمد برای گمنام سازی ارائه می شود که هدف آن حفظ دقت طبقه بندی روی داده های گمنام است. این روش با بهره گیری از درخت تصمیم از انتشار اطلاعاتی که تاثیر کمی بر سودمندی داده های خروجی دارد و حذف آن ها موجب تامین محرمانگی می شود، جلوگیری می کند. یکی از چالش های طرح هایی که از عمل گر گمنام سازی عمومی سازی استفاده می کنند، نیازمندی به ساخت درخت طبقه بندی برای هر شبه شناسه است که بیش تر به صورت خودکار صورت می گرفت. در طرح پیشنهادی نیازی به ساخت درخت طبقه بندی نیست. نتایج شبیه سازی و ارزیابی های انجام شده نشان می دهد، میان دقت الگوریتم های طبقه بندی که روی مجموعه داده استاندارد گمنام شده توسط این روش و مجموعه داده اولیه آموزش دیده اند، تفاوت اندکی وجود دارد.
    کلید واژگان: حفظ محرمانگی, طبقه بندی, گمنام سازی, درخت تصمیم, عمل گر فرونشانی}
    Reza Ebrahimi Atani*, Mehdi Sadeghpour
    Data collection and storage has been facilitated by the growth in electronic services, and has led to recording vast amounts of personal information in public and private organizations databases. These records often include sensitive personal information (such as income and diseases) and must be covered from others access. But in some cases, mining the data and extraction of knowledge from these valuable sources, creates the need for sharing them with other organizations. This would bring security challenges in user’s privacy. The concept of privacy is described as sharing of information in a controlled way. In other words, it decides what type of personal information should be shared and which group or person can access and use it. “Privacy preserving data publishing” is a solution to ensure secrecy of sensitive information in a data set, after publishing it in a hostile environment. This process aimed to hide sensitive information and keep published data suitable for knowledge discovery techniques. Grouping data set records is a broad approach to data anonymization. This technique prevents access to sensitive attributes of a specific record by eliminating the distinction between a number of data set records. So far a large number of data publishing models and techniques have been proposed but their utility is of concern when a high privacy requirement is needed. The main goal of this paper to present a technique to improve the privacy and performance data publishing techniques. In this work first we review previous techniques of privacy preserving data publishing and then we present an efficient anonymization method which its goal is to conserve accuracy of classification on anonymized data. The attack model of this work is based on an adversary inferring a sensitive value in a published data set to as high as that of an inference based on public knowledge. Our privacy model and technique uses a decision tree to prevent publishing of information that removing them provides privacy and has little effect on utility of output data. The presented idea of this paper is an extension of the work presented in [20]. Experimental results show that classifiers trained on the transformed data set achieving similar accuracy as the ones trained on the original data set.
    Keywords: Privacy preservation, Data sharing, Anonymization, Classification, Decision tree, Suppression}
  • بهروز مجردشفیعی، محمدرضا یزدچی، مهران عمادی اندانی
    نظارت بر تغییرات حالت هیجانی می تواند در مراقبت های بهداشتی و درمانی و تحقیقات بالینی مفید واقع شود. حالت های هیجانی مختلف باعث ایجاد الگوهای متفاوت در سیگنال های فیزیولوژیک می شوند. در نتیجه می توان از این سیگنال ها برای بازشناسی حالت های هیجانی استفاده کرد. در این تحقیق با استفاده از قطعات فیلم استاندارد، هیجان های شادی، خشم، ناراحتی و آرامش مطابق با چهار ربع فضای برانگیختگی و جاذبه بر روی 24 داوطلب سالم ایجاد می شوند. به صورت همزمان سیگنال های فعالیت الکتریکی قلب، فعالیت الکتریکی ماهیچه، تنفسی و رسانایی پوست، ثبت می شوند. پس از پیش پردازش های لازم شامل قطعه بندی، هموارسازی، هنجارسازی، حذف نویز و درست نماها و حذف رانش خط پایه، ویژگی های متنوع در حوزه زمان و فرکانس از سیگنال ها استخراج می شود. روش های مختلف استخراج و انتخاب ویژگی برای استخراج و انتخاب مجموعه مناسبی از ویژگی ها مورد مقایسه قرار گرفته اند. در ادامه از چند طبقه بندی کننده متفاوت برای تشخیص حالت های هیجانی از روی مجموعه ویژگی های بهینه استفاده شده است. در نهایت کارایی سیگنال ها در تشخیص هیجان ها به صورت کیفی و کمی با یکدیگر مقایسه شده است. نتایج، نشان دهنده کارایی متفاوت هر نوع از سیگنال ها در تشخیص هیجان های مشخص است. همچنین نتایج نشان می دهند که طبقه بندی کننده منتخب با استفاده از مجموعه مناسبی از ویژگی های منتخب قادر است در بیشتر از 70% موارد حالت هیجانی را به طور صحیح تشخیص دهد.
    کلید واژگان: تشخیص حالتهای هیجانی, پردازش سیگنالهای فیزیولوژیک, تحلیل واریانس, جداکننده خطی فیشر, شبکه عصبی پرسپترون, ماشین بردار پشتیبان, درخت تصمیم, شبکه بیزین}
  • وحید قدس، احسان الله کبیر
    در این مقاله گروه بندی و بازشناسی حروف تنهای فارسی که به صورت برخط نوشته شده باشند، بر اساس ویژگی های ساختاری آن ها ارائه شده است. حروف بر اساس شکل و ساختار نوشتاری بدنه اصلی آن ها به 9 گروه تقسیم می شوند. پس از استخراج ویژگی ها، گروه بندی با استفاده از درخت تصمیم انجام می شود. بازشناسی نهایی حروف با توجه به ساختار اجزای کوچک آن ها در هر گروه صورت می پذیرد. با توجه به این که در این مقاله از روش های زمان بر برای بازشناسی استفاده نشده است، روش پیشنهادی، روشی سریع در بازشناسی حروف برخط فارسی است. نتایج پیاده سازی این روش بر روی مجموعه داده «حروف برخط دانشگاه تربیت مدرس»، گروه بندی و بازشناسی حروف را به ترتیب با دقت بالای %94 و %92 نشان می دهد و این در حالی است که میانگین زمان پردازش و بازشناسی یک حرف حدود 3 میلی ثانیه به دست آمد.
    کلید واژگان: بازشناسی, گروه بندی, دستنوشته برخط, درخت تصمیم, فارسی, حروف تنها}
    Vahid Ghods, Ehsanollah Kabir
    In this paper، grouping and recognition of online Farsi discrete characters are presented according to their structural features. The letters are divided into 9 groups based on the form and structure of their main bodies. After feature extraction، grouping is performed using a decision tree. Final recognition of letters is carried out in each group by delayed strokes. The proposed method is a rapid method in character recognition because time-consuming methods have not been used. Our proposed method was tested on TMU-OFS dataset، and a recognition rate of 94% and 92% was achieved for character grouping and recognition، respectively. The mean processing time for recognizing a letter was 3ms.
    Keywords: Recognition, Grouping, Online handwriting, Decision tree, Farsi, Discrete letters}
  • امین محمدیان، وحید ابوطالبی
    هدف از این تحقیق، طراحی و ارزیابی یک آشکارساز تحریک هدف، بر اساس تشخیص مولفه ی شناختی P300 آن ها بوده است. بدین منظور ابتدا آزمایشی مناسب بر اساس الگوی oddball طراحی شد. مولفه ی شناخی P300 در هنگام مواجه ی افراد با تحریک هدف در سیگنال مغزی آن ها ظاهر می شود. سیگنال های مغزی از 20 نفر مرد سالم در حین انجام آزمایش طراحی شده، ثبت گردید. جهت پردازش، چندین روش بر روی دادگان ثبت شده پیاده سازی و مورد ارزیابی قرار گرفتند تا بهترین آن ها انتخاب شوند. در بلوک اصلی پردازش که به تحلیل هر تک ثبت و تصمیم در رابطه با هدف و غیر هدف بودن آن تحریک می پردازد، طبقه بندی کننده های مورد بررسی، طبقه بندی کننده ی تحلیل تفکیک خطی و درخت تصمیم بودند. پس از استخراج مجموعه ویژگی هایی چون فرکانس بیشینه، فرکانس میانگین، فرکانس میانه، ضرایب تبدیل موجک گسسته و چندین مشخصه ی ریخت شناسی، مجموعه ی بهینه ای از ویژگی ها با استفاده از جستجوی ژنتیک انتخاب شد. دقت نهایی تشخیص تحریک هدف بر اساس روش LOO برابر 95% و نرخ طبقه بندی صحیح تک ثبت های P300 دار و بدون P300 در دادگان آموزش و آزمایش به ترتیب 71% و 70% بوده است. این نتیجه با استفاده از 18 ویژگی انتخابی الگوریتم ژنتیک و طبقه بندی کننده ی تفکیک پذیر خطی به دست آمده است.
    کلید واژگان: مولفه یP300, انتخاب ویژگی, الگوریتم ژنتیک, طبقه بندی کننده ی تحلیل تفکیک خطی, درخت تصمیم, تبدیل موجک}
نکته
  • نتایج بر اساس تاریخ انتشار مرتب شده‌اند.
  • کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شده‌است. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
  • در صورتی که می‌خواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.
درخواست پشتیبانی - گزارش اشکال