به جمع مشترکان مگیران بپیوندید!

تنها با پرداخت 70 هزارتومان حق اشتراک سالانه به متن مقالات دسترسی داشته باشید و 100 مقاله را بدون هزینه دیگری دریافت کنید.

برای پرداخت حق اشتراک اگر عضو هستید وارد شوید در غیر این صورت حساب کاربری جدید ایجاد کنید

عضویت

جستجوی مقالات مرتبط با کلیدواژه « Principal component regression » در نشریات گروه « علوم پایه »

  • مهدی روزبه*، آرتا روحی، فاطمه جهادی

    تحلیل داده های تابعی برای توسعه رویکردهای آماری در داده هایی مورد استفاده قرار می گیرد که دارای ماهیت تابعی و پیوسته هستند و چون این توابع به فضاهای با بعد بی نهایت تعلق دارند، استفاده از روش های متداول در آمار کلاسیک برای تحلیل آن ها، با چالش روبرو است. مشهورترین تکنیک تحلیل داده های آماری، رویکرد مولفه های اصلی تابعی می باشد که ابزاری مهم برای کاهش بعد است، در این مقاله با استفاده از روش رگرسیون مولفه اصلی تابعی براساس جریمه مشتق دوم، ریج و لاسو به تحلیل داده های تابعی آب و هوای کانادا و داده های تابعی طیف سنج پرداخته خواهد شد. بدین منظور برای تعیین مقدار بهینه پارامتر جریمه در روش های مورد استفاده از اعتبار سنجی متقابل تعمیم یافته‏‏، که معیاری معتبر و کارآمد است‏، استفاده می گردد.

    کلید واژگان: اعتبار سنجی متقابل تعمیم یافته‎, رگرسیون تابعی, رگرسیون مولفه اصلی, تحلیل داده های تابعی}
    Mahdi Roozbeh*

    Functional data analysis is used to develop statistical approaches to the data sets that are functional and continuous essentially‎, ‎and because these functions belong to the spaces with infinite dimensional‎, using conventional methods in classical statistics for analyzing such data sets is challenging‎.
    The most popular technique for statistical data analysis is the functional principal components approach‎, ‎which is an important tool for dimensional reduction‎. In this research, using the method of‎ functional principal component regression based on the second derivative penalty‎, ‎ridge and lasso, ‎the ‎analysis of ‎Canadian climate and spectrometric data sets ‎is proceed‎. ‎To ‎do ‎this, ‎to ‎obtain ‎the ‎optimum ‎values ‎of ‎the ‎penalized ‎parameter ‎in ‎proposed ‎methods, ‎the generalized cross validation, which is a ‎valid ‎and ‎efficient ‎criterion, ‎is ‎applied.‎

    Keywords: ‎Functional Data Analysis, Functional Regression, Generalized Cross ‎Validation, ‎‎Principal Component Regression}
  • آرتا روحی، فاطمه جهادی، مهدی روزبه*

    مشهورترین تکنیک تحلیل داده های تابعی رویکرد مولفه های اصلی تابعی است که ابزاری مهم برای کاهش بعد نیز است. رگرسیون بردار پشتیبان شاخه ای از یادگیری ماشین و ابزار قدرتمندی برای تحلیل داده است. در این مقاله با استفاده از رگرسیون مولفه اصلی تابعی براساس تاوان های مشتق دوم، ریج و لاسو و با توجه به رگرسیون بردار پشتیبان با چهار هسته (خطی، چند جمله ای، سیگمویید و شعاعی) در داده های طیف سنجی به مدل سازی متغیر وابسته روی متغیرهای پیش بین پرداخته شده است. بر اساس نتایج بدست آمده طبق معیارهای نیکویی برازش پیشنهادی، مدل رگرسیون بردار پشتبان با هسته خطی و خطای بهینه شده ‎ $0.2$‎مناسب ترین برازش را به داده ها داشته است.

    کلید واژگان: تحلیل داده های تابعی, رگرسیون بردار پشتیبان, رگرسیون تابعی, رگرسیون مولفه اصلی, یادگیری ماشین}
    Arta Roohi, Fatemeh Jahadi, Mahdi Roozbeh*

    ‎The most popular technique for functional data analysis is the functional principal component approach‎, ‎which is also an important tool for dimension reduction‎. ‎Support vector regression is branch of machine learning and strong tool for data analysis‎. ‎In this paper by using the method of functional principal component regression based on the second derivative penalty‎, ‎ridge and lasso and support vector regression with four kernels (linear‎, ‎polynomial‎, ‎sigmoid and radial) in spectroscopic data‎, ‎the dependent variable on the predictor variables was modeled‎. ‎According to the obtained results‎, ‎based on the proposed criteria for evaluating the goodness of fit‎, ‎support vector regression with linear kernel and error equal to $0.2$ has had the most appropriate fit to the data set‎.

    Keywords: Functional data analysis‎, ‎ Functional regression‎, ‎Machine learning‎, ‎Principal component regression‎, ‎Support vector regression‎}
  • نصرت مددی ماهانی*، مریم علی بیگی

    یک مدل کمی رابطه ساختار-فعالیت (QSAR) برای پیش بینی فعالیت ضد میکروبی مشتقات 2، 4، 6-s-تری آزین به عنوان عامل های ضد مالاریا استفاده شد. فعالیت ضد میکروبی 22 مشتقات 2، 4، 6-s-تریازین با توصیفگرهای محاسبات شیمیایی کوانتومی با روش نظریه  تابعیت چگالی (DFT) در سطح B3LYP/6-31G و توصیفگرهای توپولوژیکی مدل سازی شد. این مطالعه با استفاده از رگرسیون خطی چندگانه (MLR)، تحلیل حداقل مربعات جزیی (PLS) و روش رگرسیون مولفه اصلی (PCR) انجام شد. نتایج نشان داد که روش MLR فعالیت ضد میکروبی را به اندازه کافی خوب پیش بینی می کند. بهترین مدل با شش توصیفگر انتخاب شد. همچنین نشان دهنده سازگاری بسیار خوبی با تغییرات داده ها برای روش های اعتبارسنجی است. مقادیر پیش بینی شده فعالیت ضد میکروبی مطابقت مناسبی با نتایج تجربی دارد. نتایج به دست آمده نشان می دهد که روش PLS می تواند برای پیش بینی فعالیت ضد میکروبی مشتقات 2، 4، 6 -s تری آزین مفیدتر باشد. این مطالعه برای  پیش بینی فعالیت سایر مشتقات این در گروه قابل استفاده می باشد.

    کلید واژگان: رگرسیون خطی چند متغیره, نظریه تابعیت چگالی, حداقل مربع جزئی, رگرسیون مولفه اصلی}
    Nosrat Madadi Mahani *, Maryam Alibeigi

    A quantitative Structure-Activity Relationship (QSAR) model was applied to the prediction of the antimicrobial activity of 22 derivatives 2, 4, 6-s-triazine as anti-malarial agents. The antimicrobial activity of 22 2, 4, 6-s-triazine derivatives were modeled with the descriptors of quantum-chemical calculations with density functional theory (DFT) method at B3LYP/6‒31G level and topological descriptors. This study was conducted using the multiple linear regressions (MLR), the partial least square analysis (PLS) and the principal component regression (PCR) method. Results displayed that the MLR method predicted of antimicrobial activity good enough. The best model, with six descriptors was selected. Also it indicates very good consistency towards data variations for the validation methods. The predicted values of antimicrobial activity are in suitable agreement with the experimental results. The obtained results suggested that the PLS method could be more helpful to predict the antimicrobial activity of 2, 4, 6-s-triazine derivatives. This study to be usable to predict the activity of other derivatives in the same groups.

    Keywords: Multiple linear regression, Partial Least Square, density functional theory, Principal Component Regression}
  • علیرضا احسان زاده*، فرهاد نژادکورکی، علی طالبی
    شاخص کیفیت هوا ابزار کلیدی جهت آگاهی از کیفیت هوا، نحوه اثر آلودگی هوا بر سلامت و روش های محافظتی در برابر آلودگی هوا است. هدف اصلی این تحقیق مدل سازی و برآورد شاخص کیفیت هوا از طریق شبکه عصبی مصنوعی، درخت تصمیم، رگرسیون خطی چندگانه و رگرسیون مولفه های اصلی است. جهت محاسبه شاخص کیفیت هوا از داده های هواشناسی و آلودگی هوای ثبت شده در ایستگاه تجریش و قلهک شهر تهران در دوره زمانی 1385 تا 1390 استفاده شد. به منظور ارزیابی عملکرد مدل های برآوردگر از شاخص های آماری خطا، همبستگی و صحت استفاده شد. نتایج تحقیق نشان داد که مدل شبکه عصبی در هر دو ایستگاه از عملکرد بهتری نسبت به سایر مدل ها برخوردار است، به نحوی که در ایستگاه قلهک 006/0RMSE=، 004/0MAE=، 99/0 IA=و در ایستگاه تجریش 004/0 RMSE=، 002/0 MAE=، 1 IA=بود. مدل درخت تصمیم بعد از مدل شبکه عصبی عملکرد مطلوبی از خود نشان داد و مدل رگرسیون خطی چندگانه بعد از مدل شبکه عصبی و درخت تصمیم عملکرد بهتری نسبت به مدل رگرسیون مبتنی بر تحلیل مولفه های اصلی ارائه نمود. روش تحلیل مولفه های اصلی علی رغم آنکه توانست همبستگی بین داده های ورودی و تعداد پارامترهای ورودی به مدل را کاهش دهد باعث بهبود عملکرد مدل رگرسیون نشد.
    کلید واژگان: شاخص کیفیت هوا, مدلسازی, شبکه عصبی مصنوعی, درخت تصمیم, رگرسیون مولفه های اصلی}
    Alireza Ehsanzadeh*, Farhad Nejadkoorki, Ali Talebi
    Introduction
    Increasing urbanization and industrialization rate in developed and developing countries cities, such as Tehran, has led to increased air pollution. Todays, the prediction and estimation of air quality parameters in urban regions are important topics in environmental studies due to their effect on human health. Measurement of air quality are widely used in air quality control plans. These measurement classify air quality based on the amount of pollution and various contaminants. The first measure of air quality is Pollutant Standards Index (PSI) which has been developed by the U.S. Environmental Protection Agency (USA-EPA). This index converts concentration of the main air pollutants such as carbon monoxide (CO), sulfur dioxide (SO2), particulate matter less than ten microns (PM10), ozone (O3), and nitrogen dioxide (NO2) into the air pollution standard index. In 1997, PSI was expanded by the US-EPA and presented under a new index named Air Quality Index (AQI). One of the first steps that must be taken for air pollution control is measuring the concentration of air pollutants including PM10, CO, O3, SO2, and NO2. An index named AQI can determine the relationship between concentration of pollutants and the level of public health and controlling measures related to air pollution. This index classifies air quality into six main groups of good, moderate, unhealthy for sensitive groups, unhealthy, very unhealthy, and hazardous. This index also involves the controlling measures related to each class for preventing adverse effects of pollutants on different walks of life. Poor air quality caused by high concentrations of pollutants in the large city of Tehran has caused various diseases and many problems to the public health and welfare of citizens and also causes damage to the environment and living organisms. Hence, assessment and modeling of urban air quality, which has a nonlinear nature, and also determining the factors affecting it are considered one of the most essential environmental programs in large cities. Therefore, the present paper aims to compare the efficiency of artificial neural networks, decision tree, multiple liner regression and principal component regression in modeling and estimation of urban air quality index.
    Materials And Methods
    In the present study, hourly data on concentrations of air pollutants and meteorological parameters related to Tajrish and Gholhak stations in Tehran will be used for modeling and estimation of AQI. Meteorological and air pollution data recorded at Gholhak and Tajrish stations, Tehran covering the course 2005 to 2011 to develop models. For the assessment of the performance of the models and comparison of the obtained results in train and test phases, statistical indices such as Index of Agreement (IA), Fractional Bias (FB), Root Mean Square Error (RMSE), Mean Absolute Error (MAE), Mean Square Error (MSE), Correlation Coefficient (R) and coefficient of determination (R2) were used. The initial objective is to use the guidelines of US-EPA and Iranian Center Environmental Health and Work (CEHW) to calculate air quality index based on the hourly concentrations of each of pollutants. In the next step, air pollution and AQI value will be obtained using time series of meteorological data. Then, simulator and estimator models of air pollution will be developed using artificial neural networks (ANN), decision tree, multiple liner regression (MLR) and principal component regression (PCR) methods in MATLAB software. In the first step, concentration of each of pollutants is the input to the algorithm of AQI calculation and the output will be air quality index for each pollutant and the overall air quality index will be used for development of models along with meteorological data. To develop the models, data were randomly divided into two categories of training and testing. In this study, 80 percent of data were used in the training phase and 20 percent of them were used in the testing phase. The final objective is simulation and estimation of air quality index for the studied stations in Tehran. At the end, the methods used for modeling in this study will be compared with each other in order to identify the model which produces better results of estimation and modeling.
    Results
    The results of calculation of air quality index show that the dominant class of air quality in Gholhak Station is “unhealthy for sensitive groups” with 11165 hours and the main cause of poor quality of air in this station is nitrogen dioxide. In Tajrish station, the class “moderate” is dominant with 17538 hours and PM10 are the major responsible for this quality of air. The results of modeling showed that the efficiency of the applied methods in the study has different performances for the estimation of AQI. According to the findings, CART algorithm is of high performance in estimation of air quality index, as the correlation between simulated and observed values are very close to 1. Based on train and error, it was found that Perceptron artificial neural network with a hidden layer and Levenberg-Marquardt training algorithm, with 20 neurons in the hidden layer of Gholhak station and 25 neurons in the hidden layer of Tajrish station, yields the best performance in estimation and modeling of air quality index. The highest correlation between target variable and estimated values was also determined. Initial investigation showed that there is significant correlation between the input data used in Gholhak and Tajrish stations. To resolve this problem, principal component analysis (PCA) method was used. KMO test was used in order to determine the feasibility of PCA. Since KMO value was obtained 0.581 in Gholhak station and 0.606 in Tajrish station, the feasibility of PCA method was confirmed. To perform this method, after standardization of input variables, the correlation matrix was established and 13 eigenvalues and eigenvectors for Gholhak Station and 12 eigenvalues and eigenvectors for Tajrish station were obtained. The components 1 to 5 in Gholhak station and components 1 to 4 in Tajrish station had an eigenvalues greater than 1. These components were selected as the main components and used as the inputs to the regression model. Equations 1 and 2 show the regression model of AQI estimator in Gholhak and Tajrish stations:AQI = -63/74 (9/89 × PC1) (0/ 2 × PC2) (0/ 19 × PC3) – (0/ 094 × PC4) - (1/09 × PC5) (1)
    AQI = 28/23 (0/ 933 × PC1) (0 / 2415 × PC2) (0/ 0336 × PC3) - (0/ 0088 × PC4) (2)
    Discussion and
    Conclusion
    Error statistics in two stations showed that decision tree model in Gholhak Station has a better performance than this model in Tajrish Station. Correlation coefficient (R) and coefficient of determination (R2) in both models were very close to 1 which suggests the high ability of regression decision tree model in estimation of urban air quality. Comparison of error statistics in the studied stations showed that ANN model in Tajrish stations has a better performance than this model in Gholhak Station. Error statistics in both stations showed that PCR model in Tajrish station has a better performance than this model in Gholhak station. The results of investigation of all methods used for modeling and estimation of air quality index in the studied stations show that ANN model with Levenberg-Marquardt training algorithm had the best performance in both stations. The worst performance was observed in PCR model. In this research study, the air quality was monitored in two station. The findings of this research suggest that the models employed here are apt for the appraisal of air quality in the studied stations, and they can be used by researchers as a tool for gaining knowledge about the air quality and taking measures for controlling, decreasing, and preventing pollution as well as for more accurately informing the public on the air quality level in the polluted urban areas.
    Keywords: Modeling, Air Quality Index Artificial Neural Network, Decision Tree, Principal Component Regression}
  • Maryam Malekzadeh, Omran Moradlou
    Partial least squares (PLS) regression and principal component regression (PCR) multivariate calibration methods have been applied for the simultaneous determination of paracetamol (PAR) and p-aminophenol (PAP) using kinetic data obtained by novel potentiometric method. The method is based on the rate of chloride ion production in reaction of PAR and PAP with N-chlorosuccinimide (NCS) which is monitored by a chloride ion-selective electrode. The production rate of chloride ions in the reaction of PAR and PAP with NCS is different so that PLS and PCR can be applied to analyze the experimental potentiometric data. The determination of PAR and PAP is performed in the concentration ranges of 0.50-65.0 and 0.10-75.0 μg mL-1, respectively. The total relative standard errors in PLS and PCR methods were calculated to be 4.07 and 4.74 for PAR and 3.93 and 4.79 for PAP, respectively.
    Keywords: Kinetic, Potentiometric determination, Paracetamol, p, Aminophenol, Partial least squares, Principal component regression}
نکته
  • نتایج بر اساس تاریخ انتشار مرتب شده‌اند.
  • کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شده‌است. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
  • در صورتی که می‌خواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.
درخواست پشتیبانی - گزارش اشکال