سحر جاویدان
-
آگاهی از کیفیت آب یکی از نیازهای مهم در برنامه ریزی، توسعه و حفاظت از منابع آب به شمار می رود. تعیین کیفیت آب برای مصارف مختلف از جمله آبیاری و شرب در مناطق مختلف ضروری است. استفاده از روش های مدرن داده کاوی، می توانند رویکرد مناسبی برای پیش بینی و طبقه بندی کیفیت آب ارائه دهند. در پژوهش حاضر کیفیت آب رودخانه قزل اوزن در ایستگاه قره گونئی روستایی از توابع بخش حلب شهرستان ایجرود در استان زنجان مورد ارزیابی قرار گرفت. در این راستا شاخص کیفی آب شرب (WQI) با استفاده از پارامترهای شیمیایی سختی کل، قلیائیت (pH)، هدایت الکتریکی، کل مواد جامد محلول، کلسیم، سدیم، منیزیم، پتاسیم، کلر، کربنات، بی کربنات و سولفات در دوره آماری 21ساله (1398-1378) محاسبه شد. با توجه به تعداد نسبتا زیاد پارامترها از روش های تحلیل مولفه های اصلی و تحلیل مولفه های مستقل برای کاهش ابعاد استفاده شد. سپس از الگوریتم های مختلف یادگیری ماشین شامل درخت تصمیم، رگرسیون لجستیک و شبکه عصبی مصنوعی پرسپترون چندلایه برای مدل سازی شاخص کیفی آب استفاده شد. با استفاده از این روش ها تعداد پارامترهای مورد نیاز برای محاسبه شاخص کیفی از 12 به دو کاهش یافت. کاهش ابعاد داده ها باعث صرفه جویی در زمان نمونه برداری، پایش نمونه ها و تعیین کیفیت آب شده و هزینه های مورد نیاز برای مدل سازی را به مقدار قابل توجهی کاهش می دهد. نتایج نشان داد از بین روش های کاهش بعد روش تحلیل مولفه های اصلی نسبت به روش تحلیل مولفه های مستقل کارایی بهتری می تواند داشته باشد. هم چنین، نتایج نشان داد که از بین روش های مورد استفاده در مدل سازی، روش شبکه عصبی پرسپترون چندلایه با استفاده از تحلیل مولفه های اصلی با ضریب تبیین 99/0، جذر میانگین مربعات خطا برابر 79/44 و ضریب ویلموت اصلاح شده برابر 99/0 بهترین عملکرد را داشته است. با توجه به این که ابعاد زیاد داده در بررسی و مدل سازی کیفیت آب باعث پیچیدگی و زمان بر بودن فرآیند مدل سازی می شود، لذا توصیه می شود از روش های کاهش بعد مانند تحلیل مولفه های اصلی برای کاهش ابعاد داده استفاده شود. نتایج حاصل از بررسی ها برتری روش تحلیل مولفه های اصلی نسبت به روش تحلیل مولفه های مستقل را نشان می دهد.
کلید واژگان: شاخص کیفی آب, کاهش ابعاد, الگوریتم های یادگیری ماشین, تحلیل مولفه های اصلی, تحلیل مولفه های مستقلIntroductionWater quality assessment is paramount for various sectors, including environmental planning, public health, and industrial operations. With the increasing importance of ensuring safe water sources, especially for drinking and irrigation purposes, modern methodologies like data mining offer valuable tools for predictive analysis and classification of water quality. Knowledge of water quality is considered one of the most important needs in planning, developing, and protecting water resources. Determining the quality of water for different uses, including irrigation and drinking in different areas of life. The use of modern data mining methods can be beneficial for predicting and classifying the quality of provider water. In the current study, the water quality of the Qizil-Uzen River was evaluated at Qara Gunei stations. In this regard, the drinking water quality index (WQI) using the chemical compounds of glass hardness, alkalinity (PH), electrical conductivity, total dissolved substances, calcium, sodium, magnesium, potassium, chlorine, carbonate, bicarbonate and sulfate in the statistical period of 21 years (2000-2020) was estimated. Water quality assessment is paramount for various sectors, including environmental planning, public health, and industrial operations. With the increasing importance of ensuring safe water sources, especially for drinking and irrigation purposes, modern methodologies like data mining offer valuable tools for predictive analysis and classification of water quality.
Materials and MethodsDue to the relatively large number of variables, principal component analysis and independent component analysis methods were used to reduce dimensions, and then different machine learning algorithms including decision tree, logistic regression, and multi-layer perceptron artificial neural network were used to model the water quality index. By using these methods, the number of parameters needed to calculate the quality index was reduced from 12 to 2. Reducing the dimensions of the data saves the time of sampling, monitoring the samples, and determining the quality of the water and reduces the costs required for modeling to a significant amount. The results showed that among the dimensionality reduction methods, the principal component analysis method can perform better than the independent component analysis method. In the current research, the WQI index was modeled using machine learning algorithms including decision tree, logistic regression, and artificial neural network method. The quality of water in the Qizil-Uzen Qara Gunei river station has been evaluated. Then, to estimate the numerical values of the WQI index, TH, pH, EC, TDS, Ca, Na, Mg, K, Cl, CO3, HCO3, and SO4 parameters of the mentioned station in the statistical period of 21 years (1378-1398) were used. PCA and ICA methods have been used to select different input parameters. Modeling has been done in a Python programming environment. Among the available samples, 75% are considered for training and 25% for testing.
Results and DiscussionIn the present research, to model the water quality index in the first stage, different dimensionality reduction methods such as PCA and ICA were used to reduce the time and cost of implementation. In the second stage, machine learning methods such as decision tree, linear regression, and multilayer perceptron were used. In the method used by Tripathi and his colleagues, by using the principal component analysis method, they reduced the number of parameters needed to calculate the quality index from 28 to 9 and calculated the water quality index with the number of 9 parameters. Examining the two methods of PCA and ICA has reduced the dimensions of the problem from 12 dimensions to 2 dimensions. The results show that the PCA method can help us improve performance with little cost and high accuracy. Because of the PCA dimensions. The comparison of the results of the models was done using different numerical and graphical evaluation criteria, including R2, RMSE, and modified Wilmot coefficient as numerical criteria and Taylor diagram as graphical criteria. Because the PCA algorithm can help reduce noise in data, feature selection, and generate independent and unrelated features from data. The results show that multi-layer perceptron, decision tree, and logistic regression methods accurately perform the water quality index. In this research, for the first time, using the ICA dimension reduction algorithm, while reducing the dimensions of the problem, the water quality index is predicted with an accuracy of over 90%.
ConclusionWater quality index modeling holds significant relevance in agricultural practices, where access to clean water is crucial for irrigation and crop growth. Surprisingly, only a limited number of studies have explored variable reduction methods in water quality index modeling, with none incorporating the relatively novel Independent Component Analysis (ICA) method for dimensionality reduction. Thus, the current research fills this gap by employing PCA and ICA techniques to reduce the dimensionality of large datasets in water quality index modeling. By utilizing these advanced methods, the study aims to enhance efficiency and accuracy in assessing water quality, thereby offering valuable insights for agricultural water management. Following dimensionality reduction, the dataset is then subjected to modeling using various machine learning algorithms. This approach not only optimizes computational resources but also facilitates a deeper understanding of the complex interrelationships among water quality parameters. Through this pioneering research endeavor, the efficacy of ICA alongside PCA in addressing water quality index modeling challenges is evaluated. By integrating these techniques with machine learning methodologies, the study endeavors to provide actionable intelligence for agricultural stakeholders, aiding in informed decision-making and resource allocation. Moreover, by venturing into unexplored territory with the inclusion of ICA, the research contributes to expanding the methodological toolkit available for water quality assessment. As agriculture faces increasing pressure from climate change and resource scarcity, such innovative approaches hold promise in ensuring sustainable water management practices.
Keywords: Dimensionality Reduction, Independent Component Analysis, Machine Learning Algorithms, Principal Component Analysis, Water Quality Index -
بارش روزانه با داشتن خصوصیتی کاملا تصادفی یکی از مولفه های اساسی چرخه آب بوده و دارای نقش مهمی در مدیریت منابع آب های سطحی و زیرزمینی به لحاظ کمی و کیفی است. عدم وجود داده های طولانی مدت و قابل اتکای بارش، شناسایی رفتار آن را پیچیده نموده است. در این مقاله سعی شده از طریق تعامل انسان و داده که با عنوان داده کاوی بصری یاد می شود، اقدام به شناسایی رفتار و الگوی بارش نمود. در این پژوهش برای شناسایی الگوهای بارش از داده های روزانه بارش و دمای ایستگاه سینوپتیک تبریز در بازه زمانی هفتاد و یک ساله اخیر (1400-1330) استفاده شد. نتایج به دست آمده حاکی از تغییر الگوی بارش ها در 5 سال اخیر (1400-1396) بود. علیرغم این که در این پنج سال میزان بارش سالانه بالای میانگین 71 ساله بوده، ولی همچنان از دوره طلایی بارش در دهه 40 پایین تر است. نتایج نشان داد که شدت بارش های بهاره تبریز در دوره 1385 تا 1399 کاهش محسوسی داشته است. این در حالیست که در دهه های 30 تا 60 بارش های بهاره هم به لحاظ میزان بارش و هم شدت بارش بیشتر بوده، اما در دوره های بعدی از دهه 70 تا 90 هم از شدت بارش و هم از میزان بارش کاسته شده است. یافته ها نشان داد بیشتر بارش بهاره مربوط به سال 1360 به میزان mm 3/276 بوده که 26/73% از کل بارش آن سال را تشکیل می داد. همچنین رفتار دمایی در کل این مدت افزایش میانگین دما را نشان داد که تاییدی بر افزایش دمای کره زمین است.
کلید واژگان: الگوی بارش, بارش روزانه, داده کاوی بصری, رگرسیون, روند بارشBackground and ObjectivesDaily precipitation, which is completely stochastic, is one of the basic components of the water cycle and has an important role in the management of surface and ground water resources in terms of quantity and quality. Indispensable element of drought analysis and flood control research is precipitation. The efficient management of surface water resources directly depends on precipitation. The lack of long-term and reliable data has made it difficult to determine precipitation behavior. In this study, we tried to determine the behavior and pattern of precipitation through human-data interaction called visual data mining approach. One of the new approaches that focuses on the use of visualization and graphics in the analysis of complexities in data is visual data mining. Visual data mining can be thought of as a combination of two disciplines, visualization and data mining. Visual data mining is also closely related to computer graphics, multimedia systems, human-computer interaction, pattern recognition, and high-performance computing. The aim of this study is to analyze Tabriz daily precipitation data and discover the patterns in this data with the help of visual data mining approaches. Discovering these patterns and identifying rainfall behavior will help to manage floods on the one hand and droughts on the other.
MethodologyIn this study, daily precipitation and temperature data of Tabriz Synoptic Station for the last seventy one years (1951-2021) were used to determine precipitation patterns. Tabriz has a generally cold climate as the center of the eastern Azerbaijan province and is surrounded by mountains. Recently, with the increase in data and software, data mining techniques have also started to attract attention. Data alone cannot mean anything. However, graphs consisting of data can give very meaningful information and messages. Visual data mining approach is an effort to bring data to life with different graphics. In this research, various softwares such as R, ArcGIS and Tableau were used for visualization. In addition, ExcelStat was used to check the accuracy of the data and for statistical tests. R statistical language was used to create the data mining structure and to display the data graphically. Then, different diagrams were drawn using the Tableau program. Finally, the drawn diagrams were evaluated and the final graphics were selected. ArcGIS software was used for spatial analysis and map drawing. Also, multiple linear regression method was used to predict precipitation amount and probability of occurrence.
FindingsAccording to the temperature histogram, the long-term average annual temperature in Tabriz varies between 12 and 13 degrees Celsius. Also, according to the precipitation histogram, precipitation over 5 mm in Tabriz varies between 10 and 20 days per year on average. The results obtained showed that there has been a change in precipitation patterns in the last 5 years (2017-2021). Although annual precipitation during these five years is above the 71-year average, it is still below the golden precipitation period (1961 to 1970). The results showed that the intensity of spring rains decreased significantly in Tabriz during the period 2006-2021. However, from 1971 to 1980 and from 2001 to 2010, it was observed that the spring rains were more in terms of both precipitation values and precipitation intensity. However, in the following periods from 2011 to 2021, both precipitation intensity and precipitation values decreased. The results showed that most of the spring precipitation in 1981 was 276.3 mm, making up 73.26% of the total precipitation for that year. According to the findings, precipitation has started to decrease in the spring season in recent periods. Decreased dry grain yield in the Azerbaijan region may be affected by decreased spring precipitation. As a result of this decrease, it is expected that the agricultural economy in the study area will be negatively affected.
ConclusionIn this study, as a first, daily precipitation in Tabriz was investigated with visualized data mining techniques. Thus, interesting findings were obtained with the help of different graphics. The results showed an increase in precipitation in the last 5-6 years. It has also been proven that the temperature behavior during this period shows an increase in average temperature, a confirmation of the increase in global temperature. Although the results of this research showed that visualized data mining is successful in precipitation analysis, it is recommended to conduct more comprehensive studies in this field in the future.
Keywords: Daily precipitation, Precipitation pattern, Precipitation trend, Regression, Visual data mining -
برای مدیریت موثر کیفی آب شرب، برآورد سطح آلودگی آبهای سطحی ضروری است. در پژوهش حاضر، برای محاسبه شاخص کیفی آب شرب از پارامترهای شیمیایی سختی کل، قلیاییت، هدایت الکتریکی، کل مواد جامد محلول، کلسیم، سدیم، منیزیم، پتاسیم، کلر، کربنات، بیکربنات و سولفات ایستگاه هیدرومتری باغ کلایه استان قزوین، در دوره آماری 23 ساله (1998-2020) استفاده شد. با توجه به مقادیر عددی محاسبه شده و استانداردهای موجود، کیفیت آب در دو کلاس خوب و عالی طبقه بندی شد. برای طبقه بندی کلاس کیفی آب شرب براساس پارامترهای شیمیایی، ترکیبهای مختلفی از پارامترها در قالب چندین سناریو درنظر گرفته شد. در این راستا، برای انتخاب سناریوهای مختلف، از دو روش همبستگی و الگوریتم رلیف استفاده شد. درخت هوفدینگ بهعنوان مدل پایه برای طبقه بندی کلاس کیفی آب براساس ترکیبهای مختلفی از پارامترهای شیمیایی به کار برده شد. هم چنین عملکرد روش ترکیبی Dagging در بهبود نتایج، مورد ارزیابی قرارگرفت. نتایج نشان داد که روش ترکیبی Dagging باعث بهبود نتایج طبقه بندی کلاس کیفی آب میشود. سناریوی 6 روش Dagging با الگوریتم پایه درخت هوفدینگ، شامل پارامترهای HCO3، Ca، SO3، TDS، EC و TH، با Kappa = 1، به عنوان بهترین روش معرفی شد. این روش توانست تمام نمونه های آزمایشی را به صورت صحیح، طبقه بندی کند.
کلید واژگان: آماره کاپا, روش ترکیبی Dagging, درخت هوفدینگ, شاخص کیفی آب شرب, منحنی راکFor the effective qualitative management of drinking water, it is necessary to estimate the level of water pollution. In this research, to calculate the quality index of drinking water from the chemical parameters of Total Hardness, Alkalinity, Electrical Conductivity, Total Dissolved Solids, Calcium, Sodium, Magnesium, Potassium, Chlorine, Carbonate, Bicarbonate, and Sulfate in the hydrometric station of Bagh Kelayeh, Qazvin province used in the statistical period of 23 years (1998-2020). According to the calculated numerical values and existing standards, water quality classified into two classes, good and excellent. To predict the quality class of drinking water based on chemical parameters, different combinations of parameters were considered in the form of several scenarios. In this regard, correlation and relief algorithms were used to select different scenarios. Hoeffding tree was used as a basic model for classifying water quality based on different combinations of parameters. Also, the performance of the combined Dagging approach in improving the results was evaluated. The results showed that the combined Dagging improves the water quality classification results. Scenario 6 Dagging with Hoeffding tree base algorithm, including HCO3, Ca, SO3, TDS, EC and TH parameters, with Kappa = 1, was introduced as the best method which is able to classify test samples correctly.
Keywords: Drinking Water Quality Index, Hoeffding Tree, Kappa statistic, Rock curve -
آگاهی از کیفیت آب، یکی از نیازهای مهم در برنامه ریزی، توسعه و حفاظت از منابع آب برای مصارف مختلف از جمله شرب به شمار می رود. استفاده از روش های مدرن داده کاوی، می تواند رویکرد مناسبی برای پیش بینی و طبقه بندی کیفیت آب باشد. در پژوهش حاضر، برای محاسبه شاخص کیفی آب شرب از پارامترهای شیمیایی شامل سختی کل، قلیاییت، هدایت الکتریکی، کل مواد جامد محلول، کلسیم، سدیم، منیزیم، پتاسیم، کلر، کربنات، بی کربنات و سولفات ایستگاه هیدرومتری باغ کلایه استان قزوین، در دوره آماری 23 ساله (1998-2020) استفاده شد. روش درخت تصادفی برای تخمین و مدل سازی مقادیر عددی شاخص کیفی آب شرب براساس ترکیب های مختلفی از پارامترهای شیمیایی به کار برده شد. ماتریس همبستگی و الگوریتم رلیف، مبنای انتخاب ترکیب های مختلفی از پارامترهای شیمیایی به عنوان ورودی روش های داده کاوی در قالب سناریوهای مختلف در نظر گرفته شدند. در جهت بهبود نتایج تخمین عددی شاخص کیفی آب شرب، از رویکرد های تبدیل موجک، دسته بندی مدل ها و تحلیل مولفه اصلی استفاده شد. بررسی نتایج نشان داد که ترکیب 3 روش تحلیل مولفه اصلی (با در نظر گرفتن 3 عامل اصلی)، رویکرد پیش پردازش Bagging و درخت تصادفی، با ضریب همبستگی برابر با 98/0، ریشه میانگین مربعات خطا برابر با 17/2، میانگین خطای قدر مطلق برابر با 52/1 و ضریب ویلموت اصلاح شده برابر با 97/0 می تواند دقت بالایی در تخمین مقادیر عددی شاخص کیفی آب شرب داشته باشد. براساس نتایج کلی به دست آمده، در صورت کمبود نمونه های آزمایشگاهی و یا عدم دسترسی به تمام پارامترهای شیمیایی، روش های معرفی شده در این مطالعه، به علت دقت بالا جهت تخمین شاخص کیفی آب شرب قابل توصیه خواهند بود.کلید واژگان: الگوریتم رلیف, تبدیل موجک, تحلیل مولفه اصلی, رویکرد پیش پردازش Bagging, ضریب ویلموت اصلاح شدهIntroductionSurface and underground waters are one of the world's most important problems and environmental concerns. In the last few decades, due to the rapid growth of the population, the water needs have increased, followed by the input load to the water. In order to classify the quality of underground water and water level according to the type of consumption, there are many methods, one of the most used methods is the use of quality indicators. Considering the facilities available in water quality monitoring stations and the need to save time and money, using alternative methods of modern data mining methods can be good for predicting and classifying water quality. The process of water extraction for domestic use, agricultural production, mineral industrial production, electricity production, and ester methods can lead to the deterioration of water quality and quantity, which affects the aquatic ecosystem, that is, the set of organisms that live and interact. Therefore, it is very important to evaluate the quality of surface water in water-environmental management and in monitoring the concentration of pollutants in rivers. The aim of the current research was to estimate the numerical values of the drinking water quality index (WQI) using the tree method and investigate the effect of wavelet transformation, the Bagging method, and principal component analysis.Materials and MethodsIn this research, to calculate the WQI index from the quality parameters of the Bagh Kalaye hydrometric station including total hardness (TH), alkalinity (pH), electrical conductivity (EC), total dissolved solids (TDS), calcium (Ca), sodium (Na), Magnesium (Mg), potassium (K), chlorine (Cl), carbonate (CO3), bicarbonate (HCO3) and sulfate (SO4) were used in the statistical period of 23 years (1998-2020). Quantitative values calculated with the WQI index were considered as target outputs. By using the relief and correlation method, the types of input combinations were determined. The random tree method was used to estimate the numerical values of the WQI index. Then, the capability of the combined approach of wavelet, principal component analysis, and Bagging method with random tree base algorithm was evaluated. To compare the values obtained from the data mining methods with the values calculated from the WQI index, the evaluation criteria of correlation coefficient (R), root mean square error (RMSE), mean absolute error (MAE), and modified Wilmot coefficient (Dr) were used.Results and DiscussionThe use of the wavelet transform method and the Bagging method has improved the modeling results. Considering that the Bagging classification method with the random tree base algorithm is a combination of the results of several random trees, so using this method has increased the accuracy of the RT model. So, in general, it was concluded that the use of wavelet transformation and classification methods increases accuracy and reduces errors. The best scenario with the highest accuracy and the lowest error was related to scenario 10 of the W-B-RT model with Total Hardness, Electrical Conductivity, Total Dissolved Solid, Sulphate, Calcium, Bicarbonate, Magnesium, Chlorine, Sodium, and potassium parameters. The results showed that the effect impact of pH in estimating the numerical value of the WQI index is considered lower than other parameters. When the principal component analysis method was used, by reducing the value of the eigenvalue from F1 to F12, the value of the factor also decreased; As a result,so F1, F2, and F3 factors were selected as the basic components. Considering 3 main factors, modeling was done employed and R=0.98, RMSE=2.17, MAE=1.52, and Dr=0.97 were obtained. In general, the results showed that the PCA method, despite reducing the dimension of the input vectors and simplifying it, can improve the accuracy and speed of the model and is introduced as the best method for estimating the numerical value of the WQI index.ConclusionThe results obtained from the present research showed that the use of wavelet transform, Bagging and PCA methods had a positive effect on improving the results and increasing higherthe accuracy. In estimating the numerical values of WQI index, PCA-B-RT method considering 3 main factors, with correlation coefficient equal to 0.98, root mean square error equal to 2.17, average absolute value error equal to 1.52 and tThe modified Wilmot coefficient equal to 0.97 had the highest accuracy. Considering that all the methods used in the estimation of quantitative values had acceptable accuracy, therefore, in case of lack of data and lack of access to all chemical parameters, it is possible to obtain appropriate and acceptable results by using a limited number of parameters and data mining methods achieved.Keywords: Bagging Preprocessing Approach, Modified Wilmot Coefficient, Principal component analysis, Relief Algorithm, Wavelet transform
-
هزینه بر و زمان بر بودن اندازه گیری مستقیم تبخیر-تعرق باعث شده تا پژوهشگران جهت پیش-بینی تبخیر-تعرق به استفاده از روش های غیرمستقیم روی آورند. هدف پژوهش حاضر بررسی توانایی روش های داده مبنای مبتنی بر هسته، مبتنی بر درخت، روش دسته بندی و روش های تجربی در برآورد میزان تبخیر-تعرق مرجع می باشد. بدین منظور، داده های مربوط به پارامترهای هواشناسی از جمله دمای میانگین، تعداد ساعات آفتابی، حداکثر و حداقل دما، سرعت باد، بارش و رطوبت نسبی در بازه زمانی 39 ساله گردآوری شد. ماتریس همبستگی، الگوریتم رلیف و دانش و تجربه نویسندگان همراه با سعی و خطا مبنای انتخاب سناریوهای ورودی بودند. عملکرد روش های مذکور با معیارهای ضریب همبستگی (R)، ریشه میانگین مربعات خطا (RMSE)، شاخص پراکندگی (SI)، نش ساتکلیف (NS) و ویلموت (WI) مورد ارزیابی قرار گرفت. بررسی نتایج نشان داد از بین کلیه سناریوها، سناریو 13 شامل ترکیب دمای بیشینه و شاخص زمانی ماهانه مبتنی بر الگوریتم رلیف به عنوان سناریو برتر و از سویی دیگر مدل درخت تصادفی با R=0.99، RMSE=0.04 mm/day و SI=0.01 به عنوان روش برتر انتخاب شد. بدین ترتیب حداکثر دما به عنوان مهمترین پارامتر هواشناسی تاثیرگذار در مدل سازی تبخیر-تعرق مرجع شناسایی گردید.
کلید واژگان: تبخیر-تعرق مرجع, داده کاوی, درخت تصادفی, مکینگ اصلاح شدهBecause direct measurement of evapotranspiration is costly and time-consuming, researchers have turned to the estimation of evapotranspiration via indirect approaches. The aim of this study is to investigate the capability of kernel-based, tree-based, bagging-based data-driven, and empirical models to estimate reference evapotranspiration. For this purpose, data related to meteorological parameters such as average temperature, hours of sunshine, maximum and minimum temperature, wind speed, precipitation, and relative humidity were collected over a period of 39 years. A correlation matrix, relief algorithm, and trial and error based on the author’s own experience were used to select input scenarios. The performance of these methods was evaluated using correlation coefficient (R2), root mean square error (RMSE), scattering index (SI), Nash Sutcliffe (NS), and Wilmot indexes (WI). Based on the results, scenario 13 includes maximum temperature and monthly time index based on the relief algorithm was selected as the best scenario, also on the other hand the random tree model with R=0.99, RMSE=0.04 mm/day, and SI=0.01 was selected as the superior method. Thus, the maximum temperature was defined as the efficient meteorological parameter for the reference evapotranspiration modeling.
Keywords: Data mining, Makkink Modified, Random Tree, Reference Evapotranspiration -
بارش به عنوان یک متغیر تصادفی با داشتن تغییرات مکانی و زمانی یکی از عناصر پیچیده در چرخه هیدرولوژی است. هدف پژوهش حاضر برآورد میزان بارش روزانه تبریز در بازه زمانی 36 ساله (1986-2021) با استفاده از گروه روش های درختی شامل، مدل درختی M5P، درخت تصادفی، کاهش خطای هرس درخت و روش دسته بندی است. بدین منظور از مقادیر بارش ایستگاه های حوضه دریاچه ارومیه از جمله سهند، سراب، ارومیه، مراغه و مهاباد در ترکیب های ورودی مختلف استفاده شد. ماتریس همبستگی و الگوریتم رلیف مبنای انتخاب سناریوهای ورودی در نظر گرفته شد و تاثیر مولفه های تجزیه فصلی-روند در بهبود نتایج مدل سازی بررسی شد. عملکرد روش های مذکور با معیارهای ضریب همبستگی، ریشه میانگین مربعات خطا، ضریب نش ساتکلیف، میانگین خطای قدر مطلق و ضریب ویلموت اصلاح شده مورد ارزیابی قرار گرفت. بررسی نتایج نشان داد رویکرد دسته بندی در اکثر موارد نتایج قابل قبولی ارایه نموده و باعث بهبود نتایج مدل سازی می گردد. بررسی ها مشخص نمود که ایستگاه سهند با بیشترین همبستگی و کمترین فاصله از تبریز، موثرترین ایستگاه مجاور در برآورد میزان بارش تبریز می باشد. در حالت اول و بدون اعمال مولفه های تجزیه (روند، فصلی و باقیمانده) در بین روش های مورد استفاده روش M5P با سناریو اول شامل بارش سهند به عنوان روش و سناریو برتر انتخاب شد. در حالت دوم با وارد شدن مولفه های تجزیه، دقت تخمین ها به صورت چشم گیری افزایش یافت. ادغام روش دسته بندی با الگوریتم پایه M5P با پارامترهای بارش سهند و باقیمانده بارش تبریز با R=0.98 و NS=0.95 به عنوان برترین حالت انتخاب گردید. در حالت کلی نتایج نشان داد، بهره گیری توام از رویکرد دسته بندی مدل ها و الگوریتم پیش پردازش مولفه های تجزیه باعث بهبود نتایج مدل سازی بارش روزانه تبریز می شود. به طوریکه مقدار خطای RMSE نسبت به حالت اول 64/60 درصد کاهش یافت. بنابراین به علت استفاده از حداقل تعداد پارامتر ورودی و ارایه نتایج قابل قبول، مدل های دسته بندی با الگوریتم پایه درختی به عنوان روش های ساده و پرکاربرد پیشنهاد می گردد.
کلید واژگان: تجزیه, حوضه دریاچه ارومیه, رویکرد دسته بندی, مدل های درختی, ویلموت اصلاح شدهIntroductionPrecipitation is one of the most important components of water cycle. Accurate precipitation measurement is essential for flood forecasting and control, drought analysis, runoff modeling, sediment control and management, watershed management, agricultural irrigation planning, and water quality studies. Determining the correct amount of precipitation in cities and rural areas is also important for managing floods. The precipitation process is completely non-linear and involves randomness in terms of time and space. Therefore, it is not easy to explain that with simple linear models due to various climatic factors and may contain major errors. Therefore, various methods and models have been proposed to evaluate, and predict precipitation. This study aimed to estimate the daily precipitation of Tabriz based on hybridized tree-based and Bagging methods by using neighboring stations.
Materials and MethodsIn the present study, the rainfall data of adjacent stations in Urmia lake basin (Sahand, Sarab, Urmia, Maragheh and Mahabad) were employed in 1986-2021 to estimate the daily rainfall in Tabriz. About 70% of data were considered for calibration and 30% of data were applied for validation. Using the correlation matrix and Relief algorithm, various input components were identified. Modeling was performed using tree-based data mining methods including M5P, RT and REPT and Bagging method. The daily precipitations of Tabriz was decomposed into their components by seasonal-trend analysis method. Its components, including trend, seasonal and residual, were used in different input scenarios to investigate the effect of these components on improving the modeling results. To evaluate the modeling performance, the indices of correlation coefficient, Root Mean Square Error, Nash-Sutcliffe Efficiency and modified Wilmot coefficient were applied.
Results and DiscussionRT and REPT methods increased the accuracy of the model and decreased its error when they were used as the basic algorithm of the Bagging method. This was not the case with the M5P method, as the results were slightly weaker. It was also observed that Tabriz rainfall is largely influenced by Sahand rainfall, as the most models gave reliable estimates by using the rainfall data for Sahand station. This can be explained by the high correlation between Tabriz rainfall and Sahand. The results showed that the first scenario (Sahand) for M5P, RT, REPT and B-M5P method, the fifth scenario (Sahand, Sarab, Urmia, Maragheh and Mahabad) for the B-RT method, and the fourth scenario (Sahand, Sarab, Urmia and Mahabad) for the B-REPT method were the best scenarios. The best performance was found for the scenario 1 of the M5P decision tree model, followed by the Bagging method with the M5P base algorithm. In general, it was concluded that application of the Bagging method produced reliable results. Modeling without considering the decomposition components was compared with modeling with decomposition components. Adding seasonal, trend and residual components to the modeling input combinations significantly improved the accuracy of the results. Application of Bagging method in most cases also increased the modeling accuracy. The first scenario (Sahand and residual) for M5P and B-M5P methods, the tenth scenario (residual, trend, seasonal, Sahand and Sarab) for RT, REPT and B-REPT methods, and the eighth scenario (residual, trend and Sahand) for B-RT method were selected as the best scenarios. As a result, among the stations, Sahand, due to proximity and high correlation, and Sarab, due to greater correlation, had a great impact on precipitation in Tabriz. In general, the Bagging method with the basic M5P algorithm (B-M5P) was best suited in the first scenario. Thus, adding precipitation analysis components and using the Bagging method improve the modeling results with tree-based data mining methods.
ConclusionOur results showed that Bagging method provided acceptable results in most cases. In the first case, the first scenario of M5P method including Sahand precipitation data was selected as the superior method and scenario. As a result, Sahand was the most effective station in estimating Tabriz rainfall with the highest correlation and the shortest distance from Tabriz. In the second case, with the decomposition components, the accuracy of the results increased significantly. The Bagging method with the basic M5P algorithm, the parameters of Sahand precipitation and the residual of Tabriz precipitation was considered as the best modeling algorithm. It can be concluded that using Bagging method and decomposition components with the closest station to the studied station results in the highest accuracy. Therefore, Bagging models with tree-based algorithm can be considered as simple and widely used methods.
Keywords: Bagging Method, Decomposition, Modified Wilmot, Tree Models, Urmia Lake Basin -
مدلهای داده مبنا بهعنوان یک جایگزین برای روشهای هیدرولوژیکی در محاسبات مربوط به تخمین رسوب مطرح هستند. هدف پژوهش حاضر مقایسه عملکرد و دقت روشهای هیدرولوژیکی و داده- مبنا در برآورد میزان رسوب معلق بود. بدین منظور دادههای دبی و رسوب در بازه زمانی yr 20 (1399-1380) جمعآوری و سپس میزان رسوب معلق ایستگاه هیدرومتری باغ کلایه بر روی رودخانه الموت در استان قزوین برآورد شد. در این پژوهش از روشهای هیدرولوژیکی شامل منحنی سنجه رسوب، فایو و روش اصلاحگر و روشهای داده-مبنای برنامه ریزی بیان ژن، یادگیری بر پایه نمونه K و رگرسیون خطی استفاده شد. عملکرد روشهای مذکور با معیارهای R، RRMSE و NS مورد ارزیابی قرار گرفت. نتایج نشان داد که به ترتیب روش یادگیری بر پایه نمونه K با معیارهای ارزیابی 94/0 R=، 29/0= RRMSE و 24/0= NS و روش برنامهریزی بیان ژن با 85/0 R=، 59/0= RRMSE و 65/0= NS رسوب معلق را با دقت بیشتری نسبت به سایر روشهای موردمطالعه برآورد کرده است. بدین ترتیب برتری روش های داده-مبنا در برآورد میزان رسوب معلق در منطقه موردمطالعه به اثبات رسید. ازاینروی استفاده از روش های داده-مبنا بهعنوان رقیب و جایگزین روش های هیدرولوژیکی برای تخمین میزان رسوب معلق در مناطقی شبیه با منطقه موردمطالعه توصیه میشود.
کلید واژگان: بیان ژن, رسوب معلق, رگرسیون خطی, روش اصلاح گر, منحنی سنجه رسوبData driven models are proposed as an alternative to hydrological methods in sediment estimation calculations. The aim of this study was to compare the performance and accuracy of hydrological and data-based methods in estimating the amount of suspended sediment. For this purpose, discharge and sediment data were collected in the period of 20 yr (2001-2011) and then the amount of suspended sediment of Bagh Kalayeh hydrometric station on Alamut River in Qazvin province was estimated. In this study hydrological methods including Smearing, FAO and Sediment Rating Curves versus data driven methods including Gene Expression Programming, Instance-Based Learning with parameter K and Linear Regression methods were used. The model performances were compared using two statistical methods of RRMSE and NS. The results showed that two techniques such as IBK model with evaluation criteria of (R = 0.94, RRMSE = 0.29 and NS = 0.24) and the GEP model with (R = 0.85, RRMSE = 0.59 and NS = 0.65) estimated suspended sediment in more accurate way than other studies methods. Thus, the superiority of data-driven methods in estimating the amount of suspended sediment in the study area was proved. Therefore, the use of data-based techniques as a competitor and alternative to hydrological methods to estimate the amount of suspended sediment in areas similar to the study area is recommended.
Keywords: Gene expression programming, linear regression, Sediment Rating Curves, Smearing method, Suspended Sediment -
تخمین دقیق تبخیر و تعرق گیاه مرجع در برنامه ریزی های آبیاری اهمیت ویژه ای دارد. همچنین، عدم دسترسی به داده های لایسیمتری باعث شده است پژوهش گران به استفاده از روش های غیرمستقیم از جمله روش های داده محور روی آورند. در پژوهش حاضر، توانایی روش های داده محور رگرسیون فرآیند گاوسی (GPR)، رگرسیون بردار پشتیبان (SVR) و جنگل تصادفی (RF) در تخمین تبخیر و تعرق گیاه مرجع موردبررسی قرار گرفت. بدین منظور، داده های هواشناسی دمای میانگین، سرعت باد، رطوبت نسبی و ساعات آفتابی در بازه زمانی 97-1392 در نه ایستگاه شمالی کشور از جمله آستارا، بندر انزلی، رشت، رامسر، نوشهر، ساری، بندر ترکمن، گرگان، گنبدکاووس جمع آوری شد. تبخیر و تعرق محاسبه شده با استفاده از روش فایو-پنمن-مونتیث به عنوان خروجی های هدف در نظر گرفته شده و چهار سناریو ترکیبی از پارامترهای هواشناسی برای واسنجی و صحت سنجی روش های موردمطالعه، مدنظر قرار گرفتند. دقت روش های مذکور با استفاده از پارامتر های آماری ضریب همبستگی، شاخص پراکندگی و ضریب ویلموت مورد مقایسه قرار گرفت. نتایج نشان داد که مدلGPR4 با شاخص پراکندگی در محدوده 132/0 تا 179/0 در ایستگاه های آستارا، بندر انزلی، رشت، رامسر، نوشهر و ساری، مدلSVR4 با شاخص پراکندگی 116/0 تا 120/0 در ایستگاه های بندر ترکمن و گنبدکاووس و روش هارگریوز-سامانی با شاخص پراکندگی 509/0 در ایستگاه گرگان برآوردهای به مراتب دقیق تری از تبخیر و تعرق گیاه مرجع داشته اند.کلید واژگان: تبخیر و تعرق, روش های داده محور, شمال کشور, فائو-پنمن-مونتیث, هارگریوز-سامانیAccurate estimation of reference evapotranspiration has great importance in irrigation scheduling. Moreover, the lack of availability of lysimetric data has led researchers to use indirect methods, including data-driven approaches. In the present study, the ability of Gaussian process regression (GPR), support vector regression (SVR) and random forest (RF) data-driven methods was investigated to estimate the evapotranspiration of the reference plant. For this purpose, meteorological data on average temperature, wind speed, relative humidity and sunny hours in the period 2013-18 were collected in nine northern stations of Iran including Astara, Bandar Anzali, Rasht, Ramsar, Nowshahr, Sari, Turkmen port, Gorgan, and Gonbad Kavous. Evapotranspiration calculated using FAO-Penman-Montith method was considered as the target output and four combined scenarios of meteorological parameters were considered to calibrate and validate the studied methods. The accuracy of the mentioned methods was compared using the statistical parameters of correlation coefficient, scatter index, and Wilmott’s coefficient. The results showed that GPR4 model with scatter index in the range of 0.132 to 0.179 in Astara, Bandar Anzali, Rasht, Ramsar, Nowshahr and Sari stations, SVR4 model with dispersion index of 0.116 to 0.120 in Turkmen and Gonbad Kavous stations and the Hargreaves-Samani method with a scatter index of 0.509 at Gorgan station had much more accurate estimates of the evapotranspiration of the reference plant.Keywords: data driven methods, FAO Penman–Monteith method, Hargreaves-Samani equation, north of Iran, Reference Evapotranspiration
- در این صفحه نام مورد نظر در اسامی نویسندگان مقالات جستجو میشود. ممکن است نتایج شامل مطالب نویسندگان هم نام و حتی در رشتههای مختلف باشد.
- همه مقالات ترجمه فارسی یا انگلیسی ندارند پس ممکن است مقالاتی باشند که نام نویسنده مورد نظر شما به صورت معادل فارسی یا انگلیسی آن درج شده باشد. در صفحه جستجوی پیشرفته میتوانید همزمان نام فارسی و انگلیسی نویسنده را درج نمایید.
- در صورتی که میخواهید جستجو را با شرایط متفاوت تکرار کنید به صفحه جستجوی پیشرفته مطالب نشریات مراجعه کنید.