جستجوی مقالات مرتبط با کلیدواژه "classification" در نشریات گروه "آمار"
تکرار جستجوی کلیدواژه «classification» در نشریات گروه «علوم پایه»-
رویکردی نوین در بکارگیری روش دسته ماشین بردار پشتیبان تصادفی در تحلیل داده های بیان ژن سرطان پروستات
پیشرفت سرطان در بین بیماران را می توان از طریق ایجاد مجموعه ای از نشانگرهای ژن با روش های تحلیل آماری داده ها بررسی کرد. اما یکی از مشکلات اساسی در مطالعه آماری این نوع داده ها وجود تعداد زیاد ژن ها در مقابل تعداد کم نمونه هاست. بنابراین، استفاده از روش های کاهش ابعاد برای حذف و یافتن تعداد بهینه ای از ژن ها برای پیش بینی صحیح رده های موردنظر، امری ضروری است. از طرفی، انتخاب یک روش کاهش ابعاد مناسب، می تواند به استخراج اطلاعات ارزشمند و افزایش کارایی یادگیری کمک کند. در این پژوهش از رویکرد یادگیری دسته ای به نام دسته ماشین بردار پشتیبان تصادفی برای یافتن مجموعه ویژگی بهینه، استفاده می شود. در تحلیل داده های واقعی مقاله حاضر، نشان داده می شود با تبدیل داده های بعد بالا به زیرفضاهایی با بعد پایین تر و ترکیب مدل های ماشین بردار پشتیبان، علاوه بر یافتن مجموعه ای از ژن های موثر در بروز سرطان پروستات، دقت رده بندی نیز افزایش می یابد.
کلید واژگان: یادگیری دسته ای, کاهش ابعاد, رده بندی, دسته ماشین بردار پشتیبان تصادفی, مجموعه ویژگی بهینهCancer progression among patients can be assessed by creating a set of gene markers using statistical data analysis methods. Still, one of the main problems in the statistical study of this type of data is the large number of genes versus a small number of samples. Therefore, it is essential to use dimensionality reduction techniques to eliminate and find the optimal number of genes to predict the desired classes accurately. On the other hand, choosing an appropriate method can help extract valuable information and improve the machine learning model's efficiency. This article uses an ensemble learning approach, a random support vector machine cluster, to find the optimal feature set. In the current paper and in dealing with real data, it is shown that via randomly projecting the original high-dimensional feature space onto multiple lower-dimensional feature subspaces and combining support vector machine classifiers, not only the essential genes are found in causing prostate cancer, but also the classification precision is increased.
Keywords: Ensemble Learning, Dimensionality Reduction, Classification, Random Support Vector Machine Cluster, Optimal Feature Set -
این مقاله به بیان یک رویکرد ناپارامتری بر اساس تابع ژرفا برای رده بندی داده های چند متغیره به چندین رده می پردازد. پیاده سازی این روش برخلاف اغلب روش های ناپارامتری دارای پیچیدگی محاسباتی نیست و در صورت برقراری فرض تقارن بیضوی مشاهدات، با قاعده بهینه بیزی معادل است. ارزیابی عملکرد این رده بندی ساز بر اساس توابع ژرفای مختلف، بر اساس مطالعات شبیه سازی و تحلیل داده های واقعی انجام می شود.
کلید واژگان: تابع ژرفا, رده بندی, تقارن بیضوی, قاعده ی بهینه بیزیThis paper presents a nonparametric multi-class depth-based classification approach for multivariate data. This approach is easy to implement rather than most existing nonparametric methods that have computational complexity. If the assumption of the elliptical symmetry holds, this method is equivalent to the Bayes optimal rule. Some simulated data sets as well as real example have been used to evaluate the performance of these depth-based classifiers.
Keywords: Depth Function, Classification, Bayes Optimal Rule, Elliptical Symmetry -
امروزه تشخیص بیماری ها با استفاده از هوش مصنوعی و الگوریتم های یادگیری ماشین از اهمیت بسیار بالایی برخوردار است، چرا که با استفاده از داده های موجود در زمینه مطالعاتی بیماری مورد نظر می توان به اطلاعات و نتایج سودمندی دست یافت که از رخداد بسیاری از مرگ ومیر ها می کاهد. از جمله این بیماری ها می توان به تشخیص بیماری دیابت که امروزه با توجه به رشد زندگی شهرنشینی و کاهش فعالیت افراد گسترش یافته است، اشاره کرد. پس تشخیص این موضوع که فرد به بیماری دیابت مبتلا می گردد یا خیر از اهمیت بسیار بالایی برخوردار است. در این مقاله از مجموعه داده مربوط به اطلاعات افرادی که آزمایش تشخیص دیابت را انجام داده اند استفاده شده است. این اطلاعات مربوط به 520 نفر است، عمل رده بندی افراد به دو دسته که آیا نتیجه آزمایش دیابتشان مثبت است یا خیر صورت می گیرد و از روش های رده بند بیزی مانند ماشین بردار پشتیبان بیزی، بیز ساده، CN$ و روش رده بند ترکیبی کت بوست استفاده شده است تا بتوان نتیجه گرفت که کدام یک از این روش ها می توانند توانمندی بهتری برای تحلیل داده ها داشته باشند و همچنین برای مقایسه این روش ها از معیار های دقت، صحت، وضوح، حساسیت و نمودار راک استفاده شده است.
کلید واژگان: رده بندی, رده بندی ترکیبی, رده بندی بیزیToday, the diagnosis of diseases using artificial intelligence and machine learning algorithms are of great importance, because by using the data available in the study field of the desired disease, useful information and results can be obtained that reduce the occurrence of many deaths. Among these diseases, we can mention the diagnosis of diabetes, which has spread today due to the growth of urban life and the decrease in people's activity. So, it is very important to know whether a person is suffering from diabetes or not. In this article, the data set related to the information of people who have done the diabetes diagnosis test is used, this information is related to 520 people. People are classified into two groups based on whether their diabetes test result is positive or not, and Bayesian classification methods such as Bayesian Support Vector Machine, Naive Bayes, CNK and CatBoost ensemble classification method have been used to conclude which of these The methods can have a better ability to analyze the data and also to compare these methods use accuracy, precision, F1-score, recall, ROC diagram.
Keywords: Classification, Bayesian Classification, Ensemble Classification -
در این مقاله یک مدل رگرسیون لوژستیک چند جمله ای نیمه پارامتری برای رده بندی پیکربندی های برچسب دار معرفی شده است. در مدل رگرسیونی متغیر تبینی تابع هسته ای است که با استفاده از معیار توان-واگرایی به دست آمده است. همچنین متغیر پاسخ به صورت رسته ای بوده و رده هر پیکربندی را نشان می دهد. این مدل رگرسیونی نیمه پارامتری بر اساس فواصل تعریف شده در فضای شکل معرفی شده و به همین دلیل میزان رده بندی درست اشکال با استفاده از این روش در مقایسه با روش های پیشین بهبود یافته است. عملکرد این مدل در قالب یک مطالعه شبیه سازی مورد بررسی قرار گرفته است. در انتها نیز کاربردی از این روش در رده بندی دو مجموعه داده واقعی به نمایش گذاشته شد. همچنین روش ارایه شده در این مقاله با روش های معرفی شده در نوشتگان مقایسه گردید که نشان از عملکرد مناسب این روش در رده بندی پیکربندی ها دارد.
کلید واژگان: رگرسیون لوژستیک, رگرسیون نیمه پارامتری, داده شکل, رده بندیThis article introduces a semiparametric multinomial logistic regression model to classify labeled configurations. In the regression model, the explanatory variable is the kernel function obtained using the power-divergence criterion. Also, the response variable was categorical and showed the class of each configuration. This semiparametric regression model is introduced based on distances defined in the shape space, and for this reason, the correct classification of shapes using this method has been improved compared to previous methods. The performance of this model has been investigated in the comprehensive simulation study. Two real datasets were analyzed using this article's method as an application. Finally, the method presented in this article was compared with the techniques introduced in the literature, which shows the proper performance of this method in classifying configurations.
Keywords: Logistic regresion, Semiparametric regression, Shape data, Classification -
Efficiency of convolutional neural networks (CNNs) with different dimensions is assessed for polarimetric synthetic aperture radar (PolSAR) image classification in this work. This article is the extended version of the paper presented in “4 International Conference on Soft Computing (CSC2021)”. A PolSAR image contains polarimetric and spatial information of materials present in the scene. So, processing of these information in one, two or three dimensions results in different outputs. Three simple architectures of CNNs with different dimensions are proposed for PolSAR image classification in this paper. A one dimensional CNN (1D CNN) is suggested for polarimetric feature extraction. A 2D CNN is presented for spatial feature extraction and a 3D CNN is introduced for polarimetric-spatial feature extraction. The performance of CNNs are compared with morphological profile of PolSAR cube when fed to the support vector machine (SVM) and random forest (RF) classifiers. The experiments are done in two cases of using 1% and 5% training samples. Superiority of 3D CNN compared to other methods is shown using different quantitative classification measures.
Keywords: PolSAR, Classification, feature extraction, CNN -
اینترنت اشیاء با دارا بودن قابلیت بسیار بالا برای بهره ور نمودن کسب و کارها در حوزه های مختلف از جمله صنایع به عنوان انقلاب آتی در فناوری اطلاعات و ارتباطات معرفی شده است. این بهره وری در زمینه بروز نوآوری و ارایه قابلیت های نو برای کسب و کارها است. صنایع مختلف در خصوص اینترنت اشیاء واکنش های مختلفی را نشان داده اند اما آنچه واضح است این است که اینترنت اشیاء در تمامی کسب و کارها و صنایع دارای کاربرد است. این کاربردها در برخی صنایع مانند بهداشت و حوزه سلامت و یا حمل و نقل پیشرفت چشمگیری داشته اما در صنایع دیگر همچون کشاورزی و دامداری در حال توسعه است. در واقع تولید داده ها بر مبنای اینترنت اشیاء از ارکان اصلی در حوزه مه داده ها و علم داده ها خواهد بود. لذا استفاده از مفاهیم و مدل های آماری که در علم داده ها مورداستفاده قرار می گیرند به خوبی می توانند در این گونه داده ها مورداستفاده قرار گیرند. از جمله مدل های آماری معتبر آمار بیزی برای مه داده ها است که مبنای استفاده در این پژوهش قرار گرفته است. در این پژوهش ضمن معرفی مفاهیم مهم و معتبر که در حوزه مه داده ها مورد استفاده قرار می گیرند به طورخاص اصول آمار بیزی برای مه داده ها و به طور مشخص برای داده های حاصل از اینترنت اشیاء توضیح داده شده است. به صورت کاربردی نیز در دو حوزه رفتار اجتماعی افراد برای علاقه مندی به استفاده از وسیله نقلیه و ترافیک شهری بررسی شده است که نتایج معتبری از نظر علمی و کار بردی در برداشته است
کلید واژگان: اینتر نت اشیا, نظریه بیزی, رده بندی, مصور سازیThe Internet of Things is suggested as the upcoming revolution in the Information and communication technology due to its very high capability of making various businesses and industries more productive and efficient. This productivity comes from the emergence of innovation and the introduction of new capabilities for businesses. Different industries have shown varying reactions to IOT, but what is clear is that IOT has applications in all Businesses. These applications have made significant progress in some industries such as health and transportation but is under development in others, namely agriculture and animal husbandry. In fact, the production of data bases on the Internet of Things is one of the main pillars in the field of big data and data science, Therefore, statistical concepts and models that are used in data science can be beneficially implemented in such data. Among the valid statistical models, Bayesian statistics for data is being utilized in these studies. In this research the fundamentals of Bayesian statistics for big data and most notably the data produced by IOT is explained. They have been Pragmatically examined in both road traffic as well as people’s social behavior towards using vehicles, which have had practically and scientifically valid results.
Keywords: Internet of Things, Bayesian Theory, Classification, Visualization -
بی پاسخی در آمارگیری ها منبعی برای بروز خطا در نتایج آمارگیری است و سازمان های ملی آماری همواره به دنبال راهکارهایی برای کنترل و کاهش آن هستند. پیش بینی واحدهای نمونه گیری بی پاسخ در آمارگیری قبل از اجرای آمارگیری از جمله راهکارهایی است که می تواند کمک زیادی به کاهش و مرتفع نمودن مشکل بی پاسخی آمارگیری داشته باشد. با توسعه های اخیر فناوری و تسهیل در محاسبات پیچیده امکان به کارگیری روش های یادگیری آماری، مانند درخت های رگرسیون و رده بندی یا ماشین بردار پشتیبان در بسیاری از مسایل از جمله پیش بینی بی پاسخی واحدهای نمونه گیری در آمارگیری ها فراهم شده است. در این مقاله ضمن مرور کلی روش های فوق، واحدهای نمونه گیری بی پاسخ در یک آمارگیری کارگاهی با استفاده از آن ها پیش بینی شده و نشان داده می شود ترکیب روش های فوق دارای دقت بیشتری در پیش بینی درست بی پاسخی نسبت به هر کدام از روش های تکی است.
کلید واژگان: بی پاسخی, درخت رگرسیون و طبقه بندی, رگرسیون لوژستیک, ماشین بردار پشتیبانAndishe-ye Amari, Volume:25 Issue: 1, 2021, PP 101 -109Nonrespose is a source of error in the survey results and national statistical organizations are always looking for ways to control and reduce it. Predicting nonrespons sampling units in the survey before conducting the survey is one of the solutions that can help a lot in reducing and treating the survey nonresponse. Recent advances in technology and the facilitation of complex calculations have made it possible to apply statistical learning methods, such as regression and classification trees or support vector machines, to many issues, including predicting the nonresponse of sampling units in statistics. In this article, while reviewing the above methods, the nonresponse sampling units are predicted using them in an establishment survey and it is shown that a combination of the above methods is more accurate in predicting the correct nonresponse than any of these methods.
Keywords: Classification, regression trees, logistic regression, nonresponse, Support vector machine -
سطح زیر منحنی راک یک معیار مرسوم برای ارزیابی عملکرد طبقه بندی بیومارکر ها است. در عمل یک بیومارکر قدرت طبقه بندی محدودی دارد لذا برای بهبود عملکرد طبقه بندی، علاقه مند به ترکیب مقادیر مربوط به بیومارکر ها به صورت خطی و غیرخطی هستیم در این مطالعه ضمن معرفی انواع توابع زیان، به معرفی روش Ramp AUC و برخی ویژگی های آن به عنوان یک مدل آماری مبتنی بر سطح زیر منحنی راک پرداخته می شود. این مدل جهت ترکیب بیومارکرها به شکل خطی یا غیرخطی باهدف بهبود عملکرد طبقه بندی و مینیمم کردن تابع زیان تجربی بر اساس تابع زیان Ramp AUC ارایه شده است. به عنوان مثال کاربردی، در این مطالعه از داده های 378 بیمار دیابتی مراجعه کننده به مراکز دیابتی اردبیل و تبریز در سال 1394-1393 استفاده شده است. جهت طبقه بندی بیماران دیابتی از لحاظ وضعیت محدودیت عملکردی بر مبنای بیومارکر های جمعیت شناختی و بالینی از روش RAUC استفاده گردید. اعتبارسنجی مدل به روش آموزش و آزمایش انجام شد. بر اساس نتایج گروه آزمایش، مقادیر سطح زیر منحنی به دست آمده برای مدل RAUC با ترکیبات خطی از بیومارکرها در قالب هسته خطی برابر 0.81 و با هسته تابع پایه شعاعی برابر 1.00 می باشد. نتایج بیانگر وجود یک الگوی غیرخطی قوی در داده ها می باشد به طوری که ترکیبات غیرخطی از بیومارکرها عملکرد طبقه بندی بالاتری نسبت به ترکیبات خطی را دارا می باشند.
کلید واژگان: تابع هسته, تابع زیان, سطح زیر منحنی راک, طبقه بندی, محدودیت عملکردیAndishe-ye Amari, Volume:24 Issue: 2, 2020, PP 95 -103The Area under the ROC Curve (AUC) is a common index for evaluating the ability of the biomarkers for classification. In practice, a single biomarker has limited classification ability, so to improve the classification performance, we are interested in combining biomarkers linearly and nonlinearly. In this study, while introducing various types of loss functions, the Ramp AUC method and some of its features are introduced as a statistical model based on the AUC index. The aim of this method is to combine biomarkers in a linear or non-linear manner to improve the classification performance of the biomarkers and minimize the experimental loss function by using the Ramp AUC loss function. As an applicable example, in this study, the data of 378 diabetic patients referred to Ardabil and Tabriz Diabetes Centers in 1393-1394 have been used. RAUC method was fitted to classify diabetic patients in terms of functional limitation, based on the demographic and clinical biomarkers. Validation of the model was assessed using the training and test method. The results in the test dataset showed that the area under the RAUC curve for classification of the patients according to the functional limitation, based on the linear kernel pf biomarkers was 0.81 and with a kernel of the radial base function (RBF) was equal to 1.00. The results indicate a strong nonlinear pattern in the data so that the nonlinear combination of the biomarkers had higher classification performance than the linear combination.
Keywords: kernel function, loss function, Area under the ROC Curve, classification, functional limitation -
علی رغم توصیه موکد پزشکان و متخصصین تغذیه به مصرف میوه ها و سبزیجات، کمتر به چگونگی انتخاب میوه ها و سبزیجات در وعده های روزانه اشاره شده است. در این تحقیق بر اساس رویکردی نوین، به طبقه بندی میوه ها و سبزیجات بر اساس ویژگی های مشابه آنها با توجه به میزان برخی مواد مغذی موجود در آنها پرداخته شده است. نظر به این که یکی از اهداف ارائه رژیم غذایی، داشتن تنوع و تعادل تغذیه ای است، طبقه بندی میوه ها و سبزیجات بر اساس ارزش غذایی آنها علاوه بر ایجاد تعادل تغذیه ای در مصرف این گروه مهم غذایی، یافتن جایگزین های مناسب را ممکن می سازد. بر این اساس جهت برآورده شدن نیازهای تغذیه ای با استفاده از تجزیه وتحلیل مولفه های اصلی و آنالیز خوشه ای، میوه ها و سبزیجات در چندین گروه طبقه بندی می شوند؛ برای انجام این طبقه بندی از نرم افزار متلب استفاده شده است.کلید واژگان: تجزیه و تحلیل مولفه های اصلی, آنالیز خوشه ای, طبقه بندی, میوه و سبزیجات ایرانی, رژیم غذاییDespite the physicians and nutritionists recommendations to consume the fruits and vegetables, they point much less on how to choose fruits and vegetables in daily meals. In this study, with a novel approach, fruits and vegetables have been classified on the basis of their similar characteristics and the amount of certain nutrients. One of the goals of diet is the diversity and balance of nutrition; therefore the classification of fruits and vegetables on the basis of their nutritional value makes balancing the nutritional intake of these important food groups and also finding a suitable replacement for them feasible. In order to meet the nutritional needs, using principal component analysis and cluster analysis, fruits and vegetables are classified into several groups. MATLAB software was used for doing this classification.Keywords: Principal Component Analysis, Cluster Analysis, Classification, Iranian Fruit, Vegetable, Diet
-
نشریه بررسی های آمار رسمی ایران، سال بیست و پنجم شماره 2 (پیاپی 85، پاییز و زمستان 1393)، صص 115 -148
درخت تصمیم یکی از تکنیک های بسیار رایج در طبقه بندی داده ها است. در این مقاله درخت تصمیم داده های نامطمئن مورد بررسی قرار گرفته است. از عواملی که سبب عدم اطمینان در داده ها می شوند می توان به محدودیت در دقت اندازه گیری، منابع قدیمی، اظهار نشدن اطلاعات و مسائلی که در انتقال داده ها بوجود می آید اشاره نمود. در داده های نامطمئن، مقدار داده با یک مقدار مشخص، نشان داده نمی شود و با چند مقدار به شکل توزیع احتمالی نشان داده می شود. داده های طرح اطلاعات اقتصادی خانوار نیز به دلیل کم گویی یا نبود برخی از داده ها، در دسته ی داده های نامطمئن قرار می گیرند، بنابراین لازم است که از الگوریتمی استفاده شود که بتواند با داده های نامطمئن کار کرده و با دقت قابل قبولی طبقه بندی داده ها را انجام دهد. در این مقاله، الگوریتم درخت تصمیم نامطمئن پیشین تعمیم داده شده است. این الگوریتم از روش های پیش بینی مثل نرخ بهره و آنتروپی و همچنین داده های نامطمئن بازه ای استفاده می کند و توانسته است با استفاده از توابع چگالی احتمال متفاوت سبب کاهش اثر داده های نامتوازن در خروجی الگوریتم شود. این الگوریتم برای هر دو مجموعه داده های مطمئن و نامطمئن کار می کند و نتایج این مقاله نشان می دهد که الگوریتم پیشنهادی، دقت پیش بینی رضایت بخشی دارد. ساخت درخت تصمیم داده های نامطمئن، حجم پردازش بیش تری را در پردازنده نسبت به ساخت درخت روی داده های مطمئن اشغال می کند، بنابراین در الگوریتم پیشنهادی از تکنیک ماکسیمم سطح استفاده می شود که مصرف پردازنده را بهینه خواهد کرد.
کلید واژگان: داده ی نامطمئن, درخت تصمیم, طبقه بندی, داده کاویDecision Tree is one of the widely used data classification techniques. This paper proposes uncertain decision tree classification method. Lots of Factors causes Value uncertainty including measurements precision limitation, outdated sources, lack of information, and transmission problems. With uncertainty, the value of a data item is often represented not only by one single value, but also by multiple values forming a probability distribution.Data of family economical information plan survey are uncertain because of reticence and lack of data. We need to have appropriate algorithm to work with uncertain data with satisfactory accuracy. In this paper, we upgrade the traditional uncertain decision tree algorithm, using entropy and information gain, and extend measures, including the uncertain data interval and probability distribution function which help in reducing the demanding effects of imbalance data on the output of algorithm. Our algorithm can handle both certain and uncertain datasets. This paper indicates that, the proposed algorithm has satisfactory prediction accuracy.Uncertain Decision tree construction on data use much more CPU than that for certain data. To tackle this problem, we propose a max level technique that can greatly improve construction efficiency.
Keywords: Uncertain data, decision tree, classification, data mining -
یک روش آماری رایج برای دسته بندی، استفاده از مدل های رگرسیون لوژستیک است. این روش با درنظرگرفتن اثرات خطی از ویژگی های افراد یا اشیا به مدل سازی احتمالات پسین عضویت در هر دسته می پردازد. در عمل این گمان وجود دارد که اثرات غیرخطی ویژگی ها می توانند نقش موثری در دسته بندی صحیح مشاهدات داشته باشند. اما مسئله ای که در پی ورود اثرات غیرخطی به مدل لوژستیک مطرح می شود، برآوردیابی پارامترها است. تحقیقات در سال های اخیر با فرض اثرات غیرخطی مانند اثرات متقابل و توابع پایه شعاعی گاوسی در مدل، برای پاسخ به مسئله برآوردیابی، استفاده ترکیبی از ابزارهایی مانند شبکه های عصبی تکاملی و روش های برآوردیابی ماکسیمم درستنمایی را پیشنهاد کرده اند. در این مقاله نوعی از توابع پایه شعاعی با نام توابع چندربعی معکوس به عنوان اثرات غیرخطی در مدل لوژستیک در نظر گرفته می شود و با روش ترکیبی، پارامترهای مدل برآورد می شوند. آزمایشات تجربی برای مقایسه مدلهای پیشنهادی در این مقاله، با استفاده از داده های پزشکی و داده های واقعی مربوط به یک کارخانه تولید فولاد انجام گرفته است. نتایج نشان می دهد که حضور توابع چندربعی معکوس نسبت به توابع گاوسی در مدل، میتواند باعث افزایش دقت دسته بندی شودکلید واژگان: دسته بندی, رگرسیون لوژستیک, توابع چندربعی معکوس, شبکه های عصبی تکاملیLogistic regression models in classification problems by assuming the linear effects of covariates is a modeling for class membership posterior probabilities. The main problem that includes nonlinear combinations of covariates is maximum likelihood estimation (MLE) of the model parameters. In recent investigations، an approach of solving this problem is combination of neural networks، evolutionary algorithms and MLE methods. In this paper، another type of radial basis functions، namely inverse multiquadratic functions and hybrid method، are considered for estimating the parameters of these models. The experimental results of comparing the proposed models show that the inverse multiquadratic functions compared to the Gaussian functions have better precision in classification problems.Keywords: Classification, Logistic regression, Inverse multiquadratic functions, Evolutionary neural networks
-
نشریه بررسی های آمار رسمی ایران، سال بیست و سوم شماره 2 (پیاپی 81، پاییز و زمستان 1391)، صص 141 -157
در سال های اخیر با گسترش روزافزون داده ها و پایگاه داده ها روبرو شده ایم. به موازات این امر شاهد پیشرفت تکنولوژی و علوم مختلف می باشیم تا بتوان از این خیل عظیم داده ها نهایت بهره را برد. در دنیای امروز و در مبحث مدیریت ارتباط با مشتری یکی از مزیت های رقابتی برای شرکت ها، سازمان ها و نهادها استفاده ی بهینه از داده ها است که در صورت وقوع چنین امری سازمان می تواند گامی بزرگ در راستای اهداف خود از جمله حفظ مشتریان قدیمی و جذب مشتریان جدید بردارد. از صنعت هایی که امروزه با داده های انبوه مشتریان سر و کار دارد صنعت بانکداری است. با توجه به این امر در این مقاله مسئله ی روی گردانی مشتریان موسسه ی مالی و اعتباری مهر مورد بررسی قرار گرفته است و پس از مرور ادبیات و مطالعات نظری در این زمینه و جمع آوری داده های مورد نیاز، مدل سازی روی گردانی مشتریان با رویکرد هیبریدی انجام گرفته است که در ابتدای این رویکرد گروه مشتریان با کمک قوانین فازی تعیین شده است. بر این اساس مشتریان در سه گروه فعال، متوسط و ضعیف قرار گرفته اند. در مرحله ی دوم نیز مدل سازی با کمک روش ماشین بردارهای پشتیبانی صورت گرفته است. نتایج حاصل از این رویکرد با رویکرد منطقی و تک متغیره مقایسه شده است و بنا به نتایج به دست آمده رویکرد هیبریدی فازی–ماشین های بردارهای پشتیبانی به منظور مدل سازی روی گردانی مشتریان موسسه ی مالی و اعتباری مهر معرفی شده است.
کلید واژگان: داده کاوی, مدیریت ارتباط با مشتری, روی گردانی, دسته بندی, ماشین بردارهای پشتیبانیIn recent years, we have been faced with increasing growing use of data mining and database and parallel to this, new science and technologies have been developed to make the best of these huge volumes of data in customer relationship management, optimized use of data is a competitive advance for companies and organization. And if so, they can deserve their old customers and acquire new ones. In this regard, the banking industry is one of those industries that deal with huge volume data of the customers. In this article, we have considered customers churn in Mehr finance and credit institution. In the first step of this thesis, the literature review results is reported and based on the review, different aspects of problem properties is investigated and then, the required data is gathered. The churn modeling of data is performed in a hybrid form: first, we have applied fuzzy modeling for classifying customers in 3 categories as Active, Moderate and weak. Then, we have made use of support vector machine for churn modeling. Numerical results of the problem model are compared with logical approach. Finally, based on these numerical results, we can conclude that the hybrid Fuzzy – SVM approach is a more exact and useful approach for churn prediction.
Keywords: Data mining, customer relationship management, churn, classification, support vector machine -
کاربست مدل های آمیخته برای خوشه بندی و رده بندی به زیرشاخه ای مهم از تحلیل چندمتغیره تکوین یافته است. این رویکردها حدود نیم سده حضور داشته اند، اما فعالیت معنی دار در این زمینه طی دهه ی گذشته بوده است. تاکید اولیه این مقاله مروری بر کارهای انجام شده در خوشه بندی، رده بندی و تحلیل تشخیصی، با توجه خاص معطوف به دو فن است که می توانند با استفاده از بسته های R مربوط به اجرا درآیند. برآورد پارامتر و مدل گزینی نیز مورد بحث قرار می گیرند. مقاله با خلاصه، بحث و برخی تأملات درباره کارهای آینده پایان می یابد.
The use of mixture models for clustering and classification has burgeoned into an important subfield of multivariate analysis. These approaches have been around for a half-century or so, with significant activity in the area over the past decade. The primary focus of this paper is to review work in model-based clustering, classification, and discriminant analysis, with particular attention being paid to two techniques that can be implemented using respective R packages. Parameter estimation and model selection are also discussed. The paper concludes with a summary, discussion, and some thoughts on future work.Keywords: Classification, clustering, discriminant analysis, mclust, mixture models, model, based clustering, model selection, parameter estimation, pgmm -
رشد علم در هر حوزه نیازمند آمار و اطلاعات است. داشتن تصویری دقیق از حوزه ی فرهنگ و فراغت نیز نیازمند آمار و اطلاعات بهنگام و منطبق با واقعیت های هر کشور است. رعایت استانداردها در تولید آمار در حوزه ی فرهنگ شرایطی را فراهم می آورد که بتوان با استناد به آن ها برنامه ریزی های کلان و خرد جامعه در بخش فرهنگ و هنر را با دقت و صحت بالاتری تنظیم کرد. این امر با استفاده از یک طبقه بندی جامع از عناوین فعالیت ها، محصولات و مشاغل فرهنگی به عنوان چارچوبی برای گردآوری آمار و اطلاعات محقق می شود. وجود طبقه بندی منسجم منجر به ارتقا، یکپارچگی اطلاعات آماری و کاهش دوباره کاری ها و فعالیت های موازی می شود. با تاسیس مرکز آمار ایران و بر اساس بند «و» ماده ی 3 قانون تاسیس مرکز آمار ایران، تهیه ی تعاریف، تعیین مفاهیم، معیارها و طبقه بندی های آماری بر عهده ی این مرکز گذاشته شده و بر اساس ماده ی 8 همان قانون تمامی دستگاه های اجرایی ملزم به تبعیت از آن ها می باشند. این مقاله با هدف اجرای قوانین مربوط و بر اساس تدوین طبقه بندی فرهنگ و فراغت ایران، ضمن بررسی تعاریف، مفاهیم و مطالعات تطبیقی و در نهایت با تنظیم طبقه بندی در سه بخش مجزای فعالیت های فرهنگی، محصولات فرهنگی و مشاغل فرهنگی تنظیم شده است.
کلید واژگان: طبقه بندی, فرهنگ, فراغت, فعالیت, محصول, شغلStatistics and information are the basic requirements of scientific development in any domain. To have an accurate image of leisure and cultural domain, statistics and information, which are up-to-date and adapted to each countries realities, are also needed. Observing the standards of producing the statistics in cultural domain provides conditions that by virtue of them, one can draw up the macro-planning and micro-planning of society in the domain of art and culture more precisely and more accurately. It is done by using a general classification of activities, products and cultural occupations as a framework of gathering information and statistics. The existence of such an integrated classification results in promotion of integration of statistical information and deceasing of duplication and parallel activities. By establishment of the SCI and according to part? ?? of article 3 of the low of SCI, this center is responsible for preparing of definitions, assigning the concepts, criterion and statistical classification and according to article 8 of the same law, all of the executive organizations are obliged to obey them. This article is presented with the aim of executing the relevant laws. According to compiling Iran culture and leisure classification, it also examines the definitions, concepts and comparative studies, and finally draws up the classification in 3 distinct parts as cultural activities, cultural products and cultural occupations.Keywords: Classification, Culture, Leisure, Activity, Product, Occupation
- نتایج بر اساس تاریخ انتشار مرتب شدهاند.
- کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شدهاست. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
- در صورتی که میخواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.