مجید سرمد
-
بارش و دما از مهم ترین متغیرهای هوا و اقلیم شناسی هستند. طول دوره آماری اهمیت بسزایی در دقت تحلیل این دو متغیر دارد. حجم نمونه کمتر از 100 سال نمی تواند نوسانات دراز مدت را به خوبی منعکس کند. طولانی ترین آمار مربوط به دما و بارش ماهانه مشهد نزدیک به 125 سال (از حدود 1893 الی 2017) است. متاسفانه این آمار مفقودی دارد. ترمیم داده های مفقود و افزایش دقت برآورد آن ها هدف این پژوهش است. ایستگاه هایی از کشورهای مجاور به عنوان ایستگاه های مبنا انتخاب شدند. ابتدا داده های مفقود با برازش ده الگوی رگرسیونی چندگانه برای بارش ماهانه (با ضرایب تعیین 63/0 تا 81/0) و شش الگو برای دمای ماهانه (986/0تا 993/0) ترمیم شدند. سپس برای کاهش خطاها، پارامترهای الگوهای رگرسیونی با روش های GA و ACO بهینه شدند. افزون بر این دو روش ANN و SVR نیز به منظور الگوسازی این داده ها نیز به کار گرفته شدند. نتایج نشان داد GA و ACO دقت برآورد داده های مفقود بارش را نسبت به روش های رگرسیونی فوق به طور چشمگیری افزایش می دهد. کمترین RMSE بین تمام الگوهای رگرسیونی بارش 79/9 میلی متر است. این معیار با روش GA به 560/2 میلی متر و با ACO به 559/2 کاهش می بابد. کمترین RMSE بین الگوهای رگرسیونی دما 986/0 میلی متر است. این معیار با روش ANN به 726/0 میلی متر و با SVR نیز به 551/0 کاهش می بابد. مقایسه ترمیم دما و بارش نشان می دهد که روش های تکاملی برای بارش و روش های یادگیری ماشین برای دما عملکرد بهتری دارند.کلید واژگان: الگوریتم ژنتیک, داده مفقود, رگرسیون بردار پشتیبان, شبکه عصبی مصنوعی, کلونی مورچگانIntroductionTemperature and precipitation are two of the main variables in meteorology and climatology. These are basic inputs in water resource management. The length of the statistical period plays a pivotal role in the accurate analysis of these variables. Observation data at Iran's first synoptic station from 1330 (1951) is available at the Iranian Meteorological Organization website The historical monthly precipitation and temperature of five stations in Iran is available since 1880 with missing data. These data measured by the Embassy of the United States and Britain from the Qajar period and recorded in World Weather records books. These synoptic stations include Mashhad, Isfahan, Tehran, Bushehr, and Jask. The monthly missing data were predominantly recorded during World War II (1941-1949). Unfortunately, these data have missing. Therefore, the accuracy of simulating these variables is very important. The current research aimed to predict the missing values of monthly temperature and precipitation in Mashhad station. The stations in the neighboring countries were selected due to the distance to Mashhad, relationship, and completeness of data since 1880, as the predictive variables. Monthly precipitation of Ashgabat from Tajikistan and Sarakhs, Kooshkah, Bayram Ali, Kerki and Repetek from Turkmenistan were selected as an independent variable in the making of Missing Rainfall in Mashhad. Also, the temperature of Ashgabat, Bayram Ali, Gudan, Sarakhs, and Tajan were selected to restore the monthly temperature of the Mashhad station. This research has fitted ten multiple regression models to monthly rainfall of Mashhad station and has fitted 6 multiple regression to the monthly temperature of Mashhad. then the parameters of these patterns are optimized by genetic and Ant Colony algorithm. Also, the Artificial Neural Network (MLP) model and Support vector regression have been selected and implemented in order to simulate monthly precipitation and temperature data of Mashhad.Materials and MethodsIn statistical modeling, regression analysis is a set of statistical processes for estimating the relationships among variables. It includes many techniques for modeling and analyzing several variables when the focus is on the relationship between a dependent variable and one or more independent variables (or 'predictors'). Genetic algorithm (GA) is a metaheuristic inspired by the process of natural selection that belongs to the larger class of evolutionary algorithms (EA). Genetic algorithms are commonly used to generate high-quality solutions to optimization and search problems by relying on bio-inspired operators such as mutation, crossover, and selection. Ant colony optimization algorithm (ACO) is a probabilistic technique for solving computational problems which can be reduced to finding good paths through graphs. This algorithm is a member of the ant colony algorithms family, in swarm intelligence methods, and it constitutes some metaheuristic optimizations. Artificial neural networks are one of the main tools used in machine learning. As the “neural” part of their name suggests, they are brain-inspired systems which are intended to replicate the way that we humans learn. Neural networks consist of input and output layers, as well as (in most cases) a hidden layer consisting of units that transform the input into something that the output layer can use. They are excellent tools for finding patterns which are far too complex or numerous for a human programmer to extract and teach the machine to recognize. In machine learning, support vector machines (SVMs, also support vector networks) are supervised learning models with associated learning algorithms that analyze data used for classification and regression analysis. Given a set of training examples, each marked as belonging to one or the other of two categories, an SVM training algorithm builds a model that assigns new examples to one category or the other, making it a non-probabilistic binary linear classifier (although methods such as Platt scaling exist to use SVM in a probabilistic classification setting).Results and DiscussionAt the first stage, several multiple regressions were fitted to monthly precipitation (with coefficients ranging from 0.63 to 0.81) and six patterns for monthly temperature (0.986-0.993). Afterward, GA and ACO were applied to improve the accuracy of the selected regression models by optimizing their parameters. At the next stage, ANN and SVR were used to estimate the monthly missing values separately. Finally, the results of the previous stages were compared using the root mean square error (RMSE), and the optimal models were applied to determine the missing values of monthly temperature and precipitation of Mashhad. The results showed that the Genetic Algorithm and Ant Colony increase the accuracy of the estimation of missing rainfall data significantly more than the previous methods. The lowest error criterion (RMSE) between regression patterns is 9.8 millimeters. By genetic algorithm, this criterion is reduced to 2.56 mm, and by ant colony algorithm to 2.559.ConclusionComparison of the above methods in restoration temperature and precipitation shows that evolutionary methods (GA and ACO) are the best for estimating the missing monthly precipitation and machine learning methods (ANN and SVR) are the best to imputation missing data of monthly temperature.Keywords: Ant colony, Artificial neural network, Genetic algorithm, Missing data, Support vector regression
-
The purpose of this paper is to identify the effective points on the performance of one of the important algorithm of data mining namely support vector machine. The final classification decision has been made based on the small portion of data called support vectors. So, existence of the atypical observations in the aforementioned points, will result in deviation from the correct decision. Thus, the idea of Debruyne’s “outlier map” is employed in this paper to identify the outlying points in the SVM classification problem. However, due to the computational reasons such as convenience and rapidity, a robust Mahalanobis distance based on the minimum covariance determinant estimator is utilized. This method has a good compatibility by the data with low dimensional structure. In addition to the classification accuracy, the margin width is used as the criterion for the performance assessment. The larger margin is more desired, due to the higher generalization ability. It should be noted that, by omission of the detected outliers using the suggested outlier map the generalization ability and accuracy of SVM are increased. This leads to the conclusion that the proposed method is very efficient in identifying the outliers. The capability of recognizing the outlying and misclassified observations for this new version of outlier map has been retained similar to the older version, which is tested on the simulated and real world data.Keywords: Support Vector Machine, Outlying, Misclassified points, Robust statistics, Mahalanobis Distance, Minimum Covariance Determinant estimator
-
یکی از مسائل مهم در هر تحلیل آماری، وجود مشاهدات غیرمنتظره است. بعضی از مشاهدات بخشی از مسائل مورد مطالعه نیستند و به عنوان داده پرت شناخته شده اند. بررسی ها نشان داده است که داده های پرت بر عملکرد روش های استاندارد آماری در مدل ها و پیش بینی ها تاثیر می گذارد. هدف این مقاله ارائه بسته ی موجود در نرم افزار R برای شناسایی داده پرت در رگرسیون دایره ای-دایره ای است که توسط نگارنده این مقاله نوشته شده است. ابتدا توضیح مختصری در مورد داده دایره ای و رگرسیون دایره ای داده می شود ، سپس بسته های موجود در نرم افزار R برای انجام رگرسیون دایره ای معرفی شده، توابع موجود در بسته CircOutlier شرح داده می شود و برای هر کدام از توابع مثالی ارائه خواهد شد.
کلید واژگان: شناسایی داده پرت در رگرسیون دایره ای, دایره ای, نرم افزار R, بسته CircOutlierOne of the most important problem in any statistical analysis is the existence of unexpected observations. Some observations are not a part of the study and are known as outliers. Studies have shown that the outliers affect to the performance of statistical standard methods in models and predictions. The point of this work is to provide a couple of statistical package in R software to identify outliers in circular-circular regression which is written by the author, we introduce a brief explanation about the circular data and circular regression, then the packages in R for circular regression introduced. After wand, the functions in the package CircOutlier will be described.
Keywords: Detection of Outlier in Circular, Circular Regression, R Software, CircOutlier Package -
در بسیاری از زمینه های مختلف علمی، اندازه گیری ها جهت دار هستند. برای مثال، یک زیست شناس ممکن است جهت پرواز یک پرنده یا جهت حرکت یک حیوان را اندازه گیری کند. در این مقاله، ابتدا داده های دایره ای معرفی شده است و سپس روش محاسبه میانگین جهت و همچنین پراکندگی و گشتاورهای بالاتر مربوط به داده های دایره ای ارائه شده اند. بسیاری از مسائل داده های دایره ای غالبا در فرم های تحلیلی تقریبا ساده قابل حصول نیستند، نرم افزارهای کامپیوتری مرتبط با استفاده از این روش ها ضروری است؛ که در پایان این نوشتار، بسته توابع CircStats درنرم افزار R و Matlab برای تحلیل مجموعه داده های جهتدار ارائه شده است.
کلید واژگان: داده های دایره ای, فاصله دایره ای, میانگین جهت, R, MatlabIn many diverse scientific fields, the measurements are directions. For instance, a biologist may be measuring the direction of flight of a bird or the orientation of an animal. A series of such observations is called”directional data”. Since a direction has no magnitude, these can be conveniently represented as points on the circumference of a unit circle centered at the origin or as unit vectors connecting the origin to these points. Because of this circular representation, such observations are also called circular data. In this paper, circular data will be introduced at first and then it is explained how to calculate the mean direction, dispersion and higher moments. The solutions to many directional data problems are often not obtainable in simple closed analytical forms. Therefore, computer softwares is essential to use these methods. At the end of this paper, the CircStat’s package has been used to analyze data sets in R and Matlab softwares.
Keywords: Circular data, Mean Direction, Circular Distance, Matlab, R -
فراتحلیل (Meta Analysis) به معنای انجام تحلیل آماری بر روی نتایج تعداد زیادی از مطالعات مستقل به منظور ترکیب یافته های آن ها می باشد. برای راحتی انجام فراتحلیل به نرم افزارهایی احتیاج است، نرم افزارهای آماری بسیاری برای انجام فراتحلیل موجود است که هدف پژوهش حاضر ارائه بسته های آماری موجود در نرم افزار R برای انجام فراتحلیل می باشد. ابتدا توضیح مختصری درمورد فراتحلیل، روش های آماری مورداستفاده در آن و نرم افزارهای قابل استفاده برای انجام آن داده می شود، سپس بسته های موجود در نرم افزار R معرفی شده، توابع موجود در بسته rmeta شرح داده می شود و برای هر کدام از توابع مثالی آورده خواهد شد.
کلید واژگان: فراتحلیل, نرم افزار R, بسته rmetaMeta-Analysis means a statistical analysis on the results of their findings is to combine a large number of independent studies. Meta-Analysis software is needed to be done for convenience, Statistical Software for Meta-Analysis is available in many statistical packages available in the present study provide software R is for Meta-Analysis. First, a brief description of the Meta-Analysis, Statistical methods used in the software and can be used to do it, then the software packages R introduced rmeta functions in the package are described for each of the an example will be given functions.Keywords: Meta Analysis, R software, Package rmeta -
Kernel density estimators are the basic tools for density estimation in non-parametric statistics. The k-nearest neighbor kernel estimators represent a special form of kernel density estimators, in which the bandwidth is varied depending on the location of the sample points. In this paper, we initially introduce the k-nearest neighbor kernel density estimator in the random left-truncation model, and then prove some of its asymptotic behaviors, such as strong uniform consistency and asymptotic normality. In particular, we show that the proposed estimator has truncation-free variance. Simulations are presented to illustrate the results and show how the estimator behaves for finite samples. Moreover, the proposed estimator is used to estimate the density function of a real data set.
Keywords: Asymptotic normality, Left, truncation, Nearest neighbor, Strong consistency -
در این مقاله سعی شده است ضمن معرفی مختصری از مفاهیم، روش ها و الگوریتم های داده کاوی، داده کاوی در نرم افزار آماری R با استفاده از بسنه Rattle را ارائه نماییم. بسته Rattle فضای گرافیکی مناسب را برای انجام برخی از روش ها و الگوریتم ها، بدون نیاز به برنامه نویسی فراهم می کند. برخی از بخش های آن ضمن مثال شرح داده خواهد شد.
کلید واژگان: داده کاوی, خوشه بندی, درخت تصمیم, قواعد پیوند, ماشین بردار پشتیبان, R, RattleThis paper is a brief introduction to the concepts، methods and algorithms for data mining in statistical software R using a package named Rattle. Rattle provides a good graphical environment to perform some of the procedures and algorithms without the need for programming. Some parts of the package will be explained by a number of examples. Keywords: Data Mining, Clustering, Decision tree, Association Rules, Support Vector Machine, R Statistical Software, Rattle -
در این پژوهش اثرسطوح مختلف گزانتان و پکتین بر ویژه گی های حسی و فعالیت آب پاستیل میوه ای بر پایه پوره طالبی مورد بررسی قرار گرفت. اثر غلظت های مختلف صمغ گزانتان (صفر، 1/.، 2/0، 3/0 درصد) و پکتین (2/0، 3/0، 4/0، 5/0) در قالب طرح کاملا تصادفی مورد بررسی قرار گرفت. نتایج آماری حاصل از بررسی داده های فعالیت آب نمونه ها نشان داد که اثر کلیه سطوح گزانتان، پکتین و همچنین اثر متقابل این دو بر فعالیت آب معنی دار بودند (05/0p). ویژگی های حسی نمونه های پاستیل طالبی به عنوان تابعی از غلظت های مختلف پکتین و صمغ گزانتان با استفاده از آنالیز واریانس چند متغیره مورد بررسی قرار گرفتند. نتایج نشانگر این بود که در مجموع فقط سطوح مختلف پکتین بر ویژگی های حسی اثر معنی دار داشتند (05/0Hotelling Trace، p). سطوح مختلف گزانتان بر شدت رنگ و چسبندگی سطحی اثر معنی دار نشان داد (05/0p). پکتین بر شدت رنگ، رنگ مطلوب و پذیرش ویژگی های ظاهری اثر معنی دار داشت (05/0p). اثر متقابل گزانتان و پکتین نیز بر شدت رنگ و سفتی نمونه ها معنی دار بود (05/0p ). نتایج حاصل از PCA بیانگر این بود که ویژگی های بافتی و طعمی نسبت به ویژگی های ظاهری نمونه ها، تاثیر بیشتری بر پذیرش کلی پاستیل طالبی داشت.
کلید واژگان: پاستیل میوه ای, طالبی, ویژگی های حسی, فعالیت آب, تحلیل مولفه اصلی (PCAIn this study the effect of different levels of xanthan and pectin on water activity and sensory properties of fruit pastille formulation based on Cantaloupe puree has been studied. The effects of xanthan (0, 0.1, 0.2, 0.3 %) and pectin (0.2, 0.3, 0.4, 0.5 %) were analyzed in a completely randomized design with factorial experiment. Results of ANOVA revealed that different levels of xanthan, pectin and interaction effects between pectin and xanthan had significant influence on water activity of cantaloupe pastilles (p≤0.05). The effects of pectin and xanthan were evaluated on sensory attributes by using multivariate variance analysis (MANOVA). Generally, only pectin level significantly changed (Hotelling Trace = p≤0.05) the sensory attributes. Pectin showed significant influence (p≤0.05) on color intensity, flavor color and appearance acceptance of pastilles. Xanthan had significant effect (p≤0.05) on color intensity and surface adhesivness. Pectin-xanthan interactions also showed significant influence (p≤0.05) on color intensity and stiffness of pastilles. Results of PCA determined that texture and flavor properties were more important than appearance attributes on total acceptance of cantaloupe pastille. -
در تحقیقات مختلف به طور معمول با مسائلی سر و کار داریم که با استفاده از مجموعه ای از متغیرهای توضیحی به پیش بینی رفتار یک متغیر وابسته می پردازیم. یکی از روش های آماری که کاربرد وسیعی در این گونه مسائل دارد رگرسیون چندگانه می باشد. اما هنگامی که بین متغیرهای توضیحی رابطه ی خطی وجود داشته باشد مسئله ی هم خطی چندگانه رخ می دهد و در نتیجه رگرسیون کم ترین توان های دوم معمولی به ایجاد براوردهای نااستواری از ضرایب رگرسیونی می انجامد. رگرسیون کم ترین توان های دوم جزئی یک روش چند متغیره است که در هنگام بروز هم خطی بین متغیرهای توضیحی مورد استفاده قرار می گیرد. در این مقاله به معرفی این روش می پردازیم.
کلید واژگان: اعتبارسنجی متقابل, پیش بینی, هم خطی چندگانه, مولفهIn different researches, we deal with problems that need to predict the behavior of a response variable by a set of explanatory variables. Multiple regression is one of the statistical methods that is widely used in these type of situations. When there is a linear relation between explanatory variables we will faced with multi-collinearity problem that causes ordinary least squares estimators of regression coefficients not to be robust. Partial least squares regression is a multivariate method that used when there is high collinearity between explanatory variables. In this paper, this method is introduced.Keywords: Cross validation, prediction, multicollinearity, component, PLS -
در این مقاله، به دلیل اهمیت و گستردگی استفاده از توزیع نرمال، نمونه های مبتنی بر این توزیع در نظر گرفته شده، با استفاده از مقادیر برش وابسته به حجم نمونه، نقاط دورافتاده آنها شناسایی می شوند. برای به دست آوردن مقادیر برش بهینه یک مسا له تصمیم مطرح و به روشی کمبیشینه (مینیماکس) حل می گردد. در حل این مسا له از روش شبیه سازی بهره گرفته شده است.کلید واژگان: درجه بندی, توزیع اسلش, مقادیر Z, مقادیر Z اصلاح شدهBecause of importance and popularity of the Normal distribution, the samples based on this distribution has been considered and the outliers are identified using cut-off values which are dependent on the sample size. A decision problem has been structured to obtain the optimal cut-off value. The problem is solved by a simulation study with a minimax rule.
-
تعیین رسیدگی مهمترین قسمت در ارزیابی کیفیت درونی میوه ها می باشد که به چند عامل مانند میزان مواد جامد محلول، سفتی و pH بستگی دارد. بیشتر روش ها برای اندازه گیری این عوامل مخرب، وقت گیر و گران می باشند. بنابراین توسعه یک روش غیر مخرب برای تعیین کیفیت میوه ها ضروری به نظر می رسد. هدف از انجام این تحقیق بررسی و ارزیابی روش طیف سنجی مادون قرمز درتعیین میزان مواد جامد محلول و pH میوه کیوی بود. طیف سنجی مادون قرمز یک روش سریع و غیر مخرب است که مهمترین مزیت آن اندازه گیری چند پارامتر کیفی با انجام یک آزمایش می باشد. برای این منظور در ناحیه بین nm400 تا nm 1000 از میوه کیوی طیف گیری شد. سپس نمونه ها به دو دسته تقسیم شدند که دسته اول برای تدوین مدل کالیبراسیون و دسته دوم برای پیشگویی کیفیت درونی و ارزیابی مدل بود. قبل از مدل سازی به منظور حذف نویز ها از جدیدترین روش های پیش پردازش داده های طیفی مانند تبدیل متغیر نرمال استاندارد، تصحیح پخش افزاینده، فیلتر میانه و مشتق گیری استفاده شد. در مرحله بعدی مدل ها با استفاده از روش های مختلف کالیبراسیون مانند آنالیز مولفه های اصلی و کمترین توان های دوم جزئی ساخته شدند. عملکرد مدل های مختلف با تعیین ضریب همبستگی بین پارامتر های اندازه گیری شده به صورت مخرب و پیشگویی شده به کمک مدل، مورد ارزیابی قرار گرفت. میزان مواد جامد محلول و pH کیوی به ترتیب با ضریب همبستگی 93/0 و 952/0 و میزان خطای 259/0 درجه بریکس و 236/0پیشگویی شدند.. نتایج پیشگویی نشان داد که می توان با کمک روش طیف سنجی مرئی و مادون قرمز نزدیک میزان مواد جامد محلول و pH کیوی را به صورت غیر مخرب پیشگویی کرد.
کلید واژگان: ارزیابی کیفیت درونی میوه, روش های غیر مخرب, طیف سنجی مرئی و مادون قرمز, کیویThe assessment of ripeness is a major part of quality evaluation and depends on several factors such as soluble solid content (SSC), acidity and firmness. Most of the methods THAT measure these qualities are destructive. So it is essential to develop an efficient and nondestructive method for measuring internal attributes of fruit. The objective of this study was to investigate visible and near infrared (Vis/NIR) spectroscopy method for prediction of SSC and pH of kiwi fruit. Near infrared spectroscopy is a fast and a nondestructive analytical technique. One of the main advantages of NIR spectroscopy is that IT allows several constituents to be measured at the same time. Transmittance determinations in the 400-1000 nm range were carried out on samples which WERE separated randomly into two groups: first group for making calibration models and second one for quality predictions. Different data preprocessing and spectra treatments such as standard normal variate transformation (SNV), multiplicative scatter correction (MSC), median filter and derivative were used to eliminate noise. Then calibration models were developed by using principal component analysis (PCA) and partial least squares (PLS). Performance of different models was assessed in terms of root mean square errors of prediction (RMSEP) and correlation coefficient (r) between the predicted and measured parameter values. The correlation coefficient and root mean square errors of prediction to soluble solids content and pH were 0.93, 0.952 and 0.259˚Brix, 0.236, respectively. The results indicated the feasibility of Vis/NIR transmittance spectral analysis to predict SSC and pH of kiwi fruit in a nondestructive way.
Keywords: internal quality evaluation of fruit, kiwi fruit, Visible, NIR spectroscopy, nondestructive measurements -
نحوه نصب نرم افزارهای مختلف بر روی شبکه ها به صورتی که نرم افزار از گزند ویروسهای کامپیوتری و صدماتی که ممکن است عمدا یا سهوا توسط کابران شبکه به نرم افزار وارد آید، مصون باشد، در خصوص انواع نرم افزارها کاملا متفاوت است و نمی توان روال ثابتی را معرفی کرد.
- در این صفحه نام مورد نظر در اسامی نویسندگان مقالات جستجو میشود. ممکن است نتایج شامل مطالب نویسندگان هم نام و حتی در رشتههای مختلف باشد.
- همه مقالات ترجمه فارسی یا انگلیسی ندارند پس ممکن است مقالاتی باشند که نام نویسنده مورد نظر شما به صورت معادل فارسی یا انگلیسی آن درج شده باشد. در صفحه جستجوی پیشرفته میتوانید همزمان نام فارسی و انگلیسی نویسنده را درج نمایید.
- در صورتی که میخواهید جستجو را با شرایط متفاوت تکرار کنید به صفحه جستجوی پیشرفته مطالب نشریات مراجعه کنید.