مهدیه واحدی پور
-
بسیاری از شبکه های اجتماعی و سایت ها به مردم اجازه می دهند تا احساسات و نظرات خود را در مورد محصولات و خدمات مختلف به اشتراک بگذارند. در این مقاله روشی جدید مبتنی بر قطبیت نظرات مثبت و منفی فارسی درباره محصولات تلفن همراه از سایت دیجی کالا و داده های سنتی پرس ارائه شده است. نتیجه اجرا با الگوریتم های بیز ساده، ماشین بردار پشتیبان، کاهش گرادیان تصادفی، رگرسیون لجستیک، جنگل تصادفی و یادگیری عمیق مانند شبکه عصبی کانولوشن و حافظه کوتاه مدت متوالی بر اساس پارامترهایی مانند صحت، بازیابی، معیار فیشر و دقت، موردتوجه قرار گرفته شده است. روش پیشنهادی روی داده های دیجی کالا، با الگوریتم های بیز ساده بین 10 تا 34 درصد و ماشین بردار پشتیبان بین 5 تا 24 درصد و کاهش گرادیان تصادفی بین 7 تا 38 درصد و رگرسیون لجستیک بین 5 تا 38 درصد و جنگل تصادفی بین 4 تا 22 درصد و روش شبکه عصبی کانولوشن به میزان 4 درصد افزایش دقت را به همراه داشته است. هم چنین در داده های سنتی پرس با الگوریتم های بیز ساده بین 12 تا 46 درصد و ماشین بردار پشتیبان بین 5 تا 46 درصد و کاهش گرادیان تصادفی بین 5 تا 35 درصد و رگرسیون لجستیک بین 6 تا 46 درصد و جنگل تصادفی بین 4 تا 46 درصد دقت نسبت به قبل از اعمال روش پیشنهادی به دست آمده است.
کلید واژگان: تحلیل احساسات, نظرکاوی, یادگیری ماشین, یادگیری عمیق, قطبیتIn recent years, the massive growth of generated content by users in social networks and online marketing sites, allows people to share their feelings and opinions on a variety of opinions about different products and services. Sentiment analysis is an important factor for better decision-making that is done using natural language processing (NLP), computational methods, and text analysis to extract the polarity of unstructured documents. The complexity of human languages and sentiment analysis have created a challenging research context in computer science and computational linguistics. Many researchers used supervised machine learning algorithms such as Naïve Bayes (NB), Stochastic Gradient Descent (SGD), Support Vector Machine (SVM), Logistic Regression (LR) Random Forest (RF), and deep learning algorithms such as Convolution Neural Network (CNN) and Long Short-Term Memory (LSTM). Some researchers have used Dictionary-based methods. Despite the existence of effective techniques in text mining, there are still unresolved challenges. Note that user comments are unstructured texts; Therefore, in order to structure the textual inputs, parsing is usually done along with adding some features, linguistic interpretations and removing additional items, and inserting the next terms in the database, then extracting the patterns in the structured data and finally the outputs will evaluate and interpret. The imbalance of data with the difference in the number of samples in each class of a dataset is an important challenge in the learning phase. This phenomenon breaks the performance of the classifications because the machine does not learn the features of the unpopulated classes well. In this paper, words are weighted based on the prescribed dictionary to influence the most important words on the result of the opinion mining by giving higher weight. On the other hand, the combination of the adjacent words using n-gram methods will improve the outcome. The dictionaries are highly related to the domain of the application. Some words in an application are important but in mobile comments are not impressive. Another challenge is the unbalanced train data, in which the number of positive sentences is not equal to the number of negative sentences. In this paper, two ideas are applied to build an efficient opinion mining algorithm. First, we build a precise dictionary for mobile Persian comments, and the second idea is to balance the positive and negative comments in train data. In summary, the main achievements of the current research can be mentioned: creating a weighted comprehensive dictionary in the field of mobile phone opinions to increase the accuracy of opinion analysis, balancing positive and negative opinions to improve the accuracy of opinion analysis, and eliminating the negative effect of overfitting and providing a precise approach to Determining the polarity of users' opinions about mobile phones using machine learning and recurrent deep learning algorithms. This new method is presented on mobile phone products from the Digikala site and Senti-Pers data. The result is performed with Naive Bayesian, Support Vector Machine, Stochastic Gradient Descent, Logistic Regression, Random Forest, and deep learning methods such as Convolutional Neural Network and Long Short-Term Memory based on parameters such as Accuracy, Precision, Retrieval, and F-Measure. The proposed method increases accuracy on Digikala, with NB between 10% and 34% and SVM between 5% and 24%, SGD between 7% and 38%, LR between 5% to 38%, and RF between 4% Up to 22% and CNN by 4%. The results show an accuracy increment on Senti-Pers, with NB between 12% and 46% and SVM between 5% and 46%, SGD between 5% and 35%, LR between 6% to 46%, and RF between 4% Up to 46%.
Keywords: Sentiment Analysis, Opinion Mining, Machine Learning, Deep Learning, Polarity
- در این صفحه نام مورد نظر در اسامی نویسندگان مقالات جستجو میشود. ممکن است نتایج شامل مطالب نویسندگان هم نام و حتی در رشتههای مختلف باشد.
- همه مقالات ترجمه فارسی یا انگلیسی ندارند پس ممکن است مقالاتی باشند که نام نویسنده مورد نظر شما به صورت معادل فارسی یا انگلیسی آن درج شده باشد. در صفحه جستجوی پیشرفته میتوانید همزمان نام فارسی و انگلیسی نویسنده را درج نمایید.
- در صورتی که میخواهید جستجو را با شرایط متفاوت تکرار کنید به صفحه جستجوی پیشرفته مطالب نشریات مراجعه کنید.