به جمع مشترکان مگیران بپیوندید!

تنها با پرداخت 70 هزارتومان حق اشتراک سالانه به متن مقالات دسترسی داشته باشید و 100 مقاله را بدون هزینه دیگری دریافت کنید.

برای پرداخت حق اشتراک اگر عضو هستید وارد شوید در غیر این صورت حساب کاربری جدید ایجاد کنید

عضویت

جستجوی مقالات مرتبط با کلیدواژه « word embedding » در نشریات گروه « برق »

تکرار جستجوی کلیدواژه «word embedding» در نشریات گروه «فنی و مهندسی»
  • شکوفه بستان *، علی محمد زارع بیدکی، محمدرضا پژوهان

    رتبه بندی کارآمد اسناد در عصر اطلاعات امروز، نقش مهمی در سیستم های بازیابی اطلاعات ایفا می کند. این مقاله یک رویکرد جدید برای رتبه بندی اسناد با استفاده از مدل های درون سازی با تمرکز بر مدل زبانی BERT برای بهبود نتایج رتبه بندی ارائه می کند. رویکرد پیشنهادی از روش های درون سازی واژگان برای به تصویرکشیدن نمایش های معنایی پرس وجوهای کاربر و محتوای سند استفاده می کند. با تبدیل داده های متنی به بردارهای معنایی، ارتباط و شباهت بین پرس و جوها و اسناد تحت روابط رتبه بندی پیشنهادی با هزینه کمتر مورد ارزیابی قرار می گیرد. روابط رتبه بندی پیشنهادی عوامل مختلفی را برای بهبود دقت در نظر می گیرند که این عوامل شامل بردارهای درون سازی واژگان، مکان واژگان کلیدی و تاثیر واژگان باارزش در رتبه بندی بر مبنای بردارهای معنایی است. آزمایش ها و تحلیل های مقایسه ای برای ارزیابی اثربخشی روابط پیشنهادی اعمال گردیده است. نتایج تجربی، اثربخشی رویکرد پیشنهادی را با دستیابی به دقت بالاتر در مقایسه با روش های رتبه بندی رایج نشان می دهند. این نتایج بیانگر آن مسئله است که استفاده از مدل های درون سازی و ترکیب آن در روابط رتبه بندی پیشنهادی به طور قابل توجهی دقت رتبه بندی را تا 87/0 در بهترین حالت بهبود می بخشد. این بررسی به بهبود رتبه بندی اسناد کمک می کند و پتانسیل مدل درون سازی BERT را در بهبود عملکرد رتبه بندی نشان می دهد.

    کلید واژگان: بردار معنایی, درون سازی واژه, رتبه بندی, یادگیری عمیق}
    Shekoofe Bostan*, Ali-Mohammad Zare-Bidoki, Mohammadreza Pajoohan

    In today's information age, efficient document ranking plays a crucial role in information retrieval systems. This article proposes a new approach to document ranking using embedding models, with a focus on the BERT language model to improve ranking results. The proposed approach uses vocabulary embedding methods to represent the semantic representations of user queries and document content. By converting textual data into semantic vectors, the relationships and similarities between queries and documents are evaluated under the proposed ranking relationships with lower cost. The proposed ranking relationships consider various factors to improve accuracy, including vocabulary embedding vectors, keyword location, and the impact of valuable words on ranking based on semantic vectors. Comparative experiments and analyses were conducted to evaluate the effectiveness of the proposed relationships. The empirical results demonstrate the effectiveness of the proposed approach in achieving higher accuracy compared to common ranking methods. These results indicate that the use of embedding models and their combination in proposed ranking relationships significantly improves ranking accuracy up to 0.87 in the best case. This study helps improve document ranking and demonstrates the potential of the BERT embedding model in improving ranking performance.

    Keywords: Word Embedding, BERT, Semantic Vector, Query, Ranking}
  • شکوفه بستان، علی محمد زارع بیدکی، محمدرضا پژوهان

    استفاده از بافت و ترتیب واژگان در یک عبارت از مواردی است که می تواند به فهم بهتر آن عبارت منجر گردد. در سال های اخیر، مدل های زبانی از پیش آموزش یافته، پیشرفت شگرفی در زمینه پردازش زبان طبیعی به وجود آوده اند. در این راستا مدل های مبتنی بر ترنسفورمر مانند الگوریتم BERT از محبوبیت فزاینده ای برخوردار گردیده اند. این مسیله در زبان فارسی کمتر مورد بررسی قرار گرفته و به عنوان یک چالش در حوزه وب فارسی مطرح می گردد. بنابراین در این مقاله، درون سازی واژگان فارسی با استفاده از این الگوریتم مورد بررسی قرار می گیرد که به درک معنایی هر واژه بر مبنای بافت متن می پردازد. در رویکرد پیشنهادی، مدل ایجادشده بر روی مجموعه دادگان وب فارسی مورد پیش آموزش قرار می گیرد و پس از طی دو مرحله تنظیم دقیق با معماری های متفاوت، مدل نهایی تولید می شود. در نهایت ویژگی های مدل استخراج می گردد و در رتبه بندی اسناد وب فارسی مورد ارزیابی قرار می گیرد. نتایج حاصل از این مدل، بهبود خوبی نسبت به سایر مدل های مورد بررسی دارد و دقت را نسبت به مدل برت چندزبانه تا حداقل یک درصد افزایش می دهد. همچنین اعمال فرایند تنظیم دقیق با ساختار پیشنهادی بر روی سایر مدل های موجود توانسته به بهبود مدل و دقت درون سازی بعد از هر فرایند تنظیم دقیق منجر گردد. نتایج رتبه بندی بر مبنای مدل های نهایی، بیانگر بهبود دقت رتبه بندی وب فارسی نسبت به مدل های پایه مورد ارزیابی با افزایش حدود 5 درصدی دقت در بهترین حالت است.

    کلید واژگان: بردار معنایی, درون سازی واژه, رتبه بندی, یادگیری عمیق}
    shekoofe bostan, Ali-Mohammad Zare-Bidoki, mohamadreza pajohan

    Using the context and order of words in sentence can lead to its better understanding and comprehension. Pre-trained language models have recently achieved great success in natural language processing. Among these models, The BERT algorithm has been increasingly popular. This problem has not been investigated in Persian language and considered as a challenge in Persian web domain. In this article, the embedding of Persian words forming a sentence was investigated using the BERT algorithm. In the proposed approach, a model was trained based on the Persian web dataset, and the final model was produced with two stages of fine-tuning the model with different architectures. Finally, the features of the model were extracted and evaluated in document ranking. The results obtained from this model are improved compared to results obtained from other investigated models in terms of accuracy compared to the multilingual BERT model by at least one percent. Also, applying the fine-tuning process with our proposed structure on other existing models has resulted in the improvement of the model and embedding accuracy after each fine-tuning process. This process will improve result in around 5% accuracy of the Persian web ranking.

    Keywords: : Semantic vector, word embedding, ranking, deep learning}
  • محمدرضا فیضی درخشی، زینب متقی نیا*، میثم عسگری چناقلو

    امروزه با توجه به رشد روزافزون حجم اسناد الکترونیکی، طبقه بندی متون بر اساس روش های مختلفی در میان محققین بازیابی اطلاعات و متون عمومیت یافته است. با توجه به اهمیت موضوع و کارهایی که در این زمینه در زبان های مختلف دنیا انجام گرفته است، نیاز به طبقه بندی متون فارسی به خوبی احساس می شود. به طور کلی روش های طبقه بندی متون را می توان به روش های سنتی (مبتنی بر انتخاب ویژگی و یادگیری ماشین) و روش های مبتنی بر یادگیری عمیق تقسیم بندی کرد. روش های مبتنی بر یادگیری عمیق به دلیل توانایی اشتراک وزن به طور قابل توجهی سبب کاهش تعداد متغیرهای آزاد آموزش پذیر شبکه و در نتیجه افزایش تعمیم پذیری شده است و نتایج بهتری به نسبت سایر روش ها می دهد. در زبان فارسی روش های مبتنی بر یادگیری عمیق بسیار اندکی برای طبقه بندی متون ارایه شده است. در این مقاله دو مدل شبکه عصبی عمیق شامل شبکه عصبی پیچشی ParsCNN و شبکه عصبی با حافظه بلند کوتاه- مدت دوسویه سلسه مراتبی با لایه توجه ParsBiLSTM برای طبقه بندی متون فارسی تشریح شده است. کارایی سیستم های مبتنی بر شبکه عصبی عمیق بر روی مجموعه داده همشهری بررسی شده و از نظر سه معیار ارزیابی دقت، فراخوانی و مقیاس-F مورد مطالعه قرار گرفته است. نتایج آزمایش ها نشان می دهد که روش ParsCNN میزان دقت 69/0، فراخوانی 7/0 و مقیاس-F 69/0؛ همچنین روش ParsBiLSTM میزان دقت 72/0، فراخوانی 73/0 و مقیاس-F 72/0 دارند که نشان دهنده کارایی بالاتر این روش ها نسبت به روش های طبقه بندی متون فارسی مورد مطالعه است.

    کلید واژگان: طبقه بندی متون, شبکه های عصبی عمیق, بردار نمایش کلمات, تعبیه کلمات, یادگیری ماشین}
    MohammadReza Feizi-Derakhshi, Zeynab Mottaghinia *, Meysam Asgari-Chenaghlu

    Nowadays, according to the growing volume of electronic documents, the classification of text has attracted the attention of information retrieval researchers. Considering the importance of text classification and the efforts done in this field in several languages in the world, the necessity of Persian text classification is understood. In general, we can classify text classification methods into two classes, including traditional methods (based on feature selection and machine learning) and methods based on deep learning. Deep learning methods, due to the ability of weight sharing, significantly reduce the number of trainable parameters and thus increase generalization and provide better results than other methods. There are a few methods based on deep learning for Persian text classification. In this study, we propose to use CNN and BLSTM with an attention layer for Persian text classification named ParsCNN and ParsBiLSTM. The experimental results on the Hamshahri dataset show that the ParsCNN method has a precision of 0.69, a recall of 0.7, and, an F-score of 0.69; Also, the ParsBiLSTM method has a precision of 0.72, a recall of 0.73 and, an F-score of 0.72, which indicates the methods based on deep Neural Networks have better performance than other approaches.

    Keywords: Text classification, Deep Neural Networks, Word Vector Representation, Word Embedding, Machine Learning}
  • نرجس چاوش، سیما عمادی*

    امروزه به دلیل وجود حجم انبوه نظرات منتشرشده توسط افراد در فضای مجازی، تحلیل احساسات نقش اساسی را در استخراج اطلاعات بازی می-کند. یکی از تکنیکهای نوین براساس مطالعات انجام شده به منظور تعیین دقیق تر قطبیت جمله در تحلیل احساسات مبتنی بر الگوریتم های یادگیری عمیق است. در این تحقیق به منظور تعیین قطبیت نظرات متنی از الگوریتم یادگیری عمیق LSTM و RNN استفاده شده است تا با بررسی و مقایسه این دو الگوریتم بتوان الگوریتم مناسب برای تحلیل احساسات را انتخاب نمود. همچنین در روش پیشنهادی برای تعیین روابط معنایی بین کلمات از روش تعبیه گذاری کلمات از پیش آموزش داده شده ی Wordtovec استفاده شد تا دقت روش پیشنهادی افزایش یابد. روش پیشنهادی بر روی دو مجموعه داده airline-tweet و IMDB ارزیابی شد. نتایج ارزیابی نشان می دهد که روش پیشنهادی بر روی مجموعه داده airline-tweet در صورت استفاده از تعبیه گذاری Wordtovec دقت 78/0 دارد. همچنین روش پیشنهادی بر روی مجموعه داده IMDB در صورت استفاده از تعبیه گذاری Wordtovec دقت 84/0 دارد.

    کلید واژگان: تجزیه و تحلیل احساسات, یادگیری عمیق, RNN, LSTM, تعبیه گذاری کلمات}
    Narjes Chavosh, Sima Emadi*

    Today, due to the large volume of opinions published by people in cyberspace, sentiment analysis plays a key role in extracting information. One of the new techniques based on studies has been done to determine the exact polarity of the sentence in sentiment analysis is deep learning algorithms. In this research, two deep learning algorithms, namely RNN and LSTM, has been used to determine sentence polarity in order to achieve more accurate results. Moreover, in the proposed technique, pre-trained word embedding algorithm, namely Wordtovec, was used to determine the semantic relationships between words to increase the accuracy of the proposed method. The proposed method was evaluated on two data sets; airline-tweet and IMDB. The evaluation results show that on the airline-tweet dataset, the proposed method has an accuracy of 0.78 and accuracy of 0.84 on the IMDB data set.

    Keywords: Sentiment Analysis, Deep learning, RNN, LSTM, Word Embedding, Word2vec}
  • محمد جعفرآباد*، روح الله دیانت

    برای انجام مطالعات داده کاوی، تاحدودی به دلیل پیچیده بودن فرآیند انتخاب ویژگی در کار مورد نظر، نیاز داریم تا بخشی از برچسب زنی را به کارگران در فعالیت جمع سپاری واگذار کنیم. فرآیند واگذاری کارهای داده کاوی به کاربران، اغلب به وسیله سامانه های نرم افزاری و بدون اطلاع دقیق از موقعیت سنی یا جغرافیای محل سکونت کاربران صورت می گیرد. عدم اطمینان از عملکرد کاربران مجازی در جمع سپاری، میزان صحت اطلاعات دریافتی را کاهش می دهد. در این مقاله پیشنهاد داده ایم تا با استفاده از روش های ایجاد انگیزش، تعدادی از مردم را در محلی جمع و از آنها در جهت وظایف جمع سپاری استفاده کنیم. افزایش دقت در اعلام نتایج به دلیل حضور فیزیکی، سرعت بالا در گرفتن نتایج با دقت بالا در زمان تعیین شده، تحصیلات مناسب شرکت کنندگان در فعالیت و بومی بودن طرح اجرایی از ویژگی های این پژوهش هستند. در این پژوهش یک کار یادگیری ماشین انجام شد تا بتوانیم در ضمن آن فعالیت های جمع سپاری را با الگوریتم های شبکه عصبی عمیق ترکیب نماییم.  وظیفه کلاس بندی برای تعبیه لغات به صورت الگوریتمی و تلفیقی با کمک جمع سپاری انجام می شود. روش پیشنهادی با افزودن داده های جمع سپار به داده های قبلی و تغییرات در مدل تعبیه لغات ترکیبی گلاو و وردتووک توانست نتایج مناسبی را  در استخراج ویژگی به دست بیاورد.

    کلید واژگان: جمع سپاری, تعبیه لغات, گلاو, وردتووک, طبقه بندی}
    Mohammad Jafarabad*, Rouhollah Dianat

    For data mining studies, due to the complexity of doing feature selection process in tasks by hand, we need to send some of labeling to the workers with crowdsourcing activities. The process of outsourcing data mining tasks to users is often handled by software systems without enough knowledge of the age or geography of the users' residence. We use convolutional neural network, for doing classification in six classes: USAGE, TOPIC, COMPARE, MODEL-FEATURE, RESULT and PART-WHOLE. This article extracts the data from the abstract of 450 scientific articles and it is a total of 835 relations. One hundred of these abstracts have been selected by the crowdsourcing. Classification results in this article have been done with a slight improvement in accuracy. In this study, we computed the classification results on a combination of vocabulary vectors with using of 450 abstract relation data (100 crowd source datasets with 350 standards). The results of the implementation of the classification algorithm give us performance improvement. This paper uses the population power to perform preparing data mining works. The proposed method by adding crowdsource data to the previous data was able to obtain better results rather than the top 5 methods.

    Keywords: Glove, Word2vec, Crowdsourcing, word embedding, classification}
  • الهام پارسایی مهر، مهدی فرتاش*، جواد اکبری ترکستانی
    یکی از مراحل اولیه در بیشتر پردازش های زبان طبیعی، استخراج موجودیت نامدار از جمله است. در این زمینه تکنیک های مختلف مبتنی بر یادگیری ماشین ارایه شده است که بدون نیاز به پیچیدگی های استخراج ویژگی دستی، دقت بالاتری از خود نشان داده اند. لذا، دراین تحقیق ما برای گرفتن ویژگی های جمله ورودی از ترکیب دو مدل یادگیری عمیق شامل شبکه عصبی کانولوشن و همینطور حافظه کوتاه مدت طولانی استفاده می کنیم. با استخراج ویژگی های محلی کلمات توسط شبکه کانولوشن در کنار ویژگی های سراسری، اطلاعات بیشتری از جمله جهت کلاسبندی دقیقتر موجودیتها بدست میآوریم. ما معماری پیشنهادی مان را روی دو دیتاست CoNLL2003 و ACE05 ارزیابی می نماییم و نشان میدهیم که افزودن شبکه کانولوشن سطح کلمه باعث استخراج اطلاعات محلی مفیدی از کلمات موجود در جمله می شود که منجر به افزایش دقت سیستم می گردد. در نهایت، کارایی سیستم را با دیگر رقبا مقایسه مینماییم و برتری این معماری نسبت به دیگران گزارش داده می شود.
    کلید واژگان: تشخیص موجودیت نامدار, تعبیه گذاری کلمه, LSTM, CNN, پردازش زبان طبیعی}
    Elham Parsaeimehr, Mehdi Fartash *, Javad Akbari Torkestani
    One of the main processes in most natural language processing (NLP), is named entity recognition (NER). In this regard, some machine learning techniques have been presented that traditionally use manual features. Also, in recent years, deep neural network-based models have been proposed that achieve higher accuracy without relying on huge computations for feature engineering. Thus, in this article, we employ a combination of two deep learning models to capture the properties of the input sentence, including: long short term memory (LSTM) and convolutional neural network (CNN). In this architecture, extracting local features along with global features, more information is acquired for more accurate classification. We evaluate the performance of this architecture on two datasets CoNLL2003 and ACE05; and demonstrate that by adding a word level CNN, useful local properties are extracted that enhance the accuracy of the performance. Finally, we compare the performance of our system with competitors and our superiority is reported.
    Keywords: Named Entity Recognition, LSTM, CNN, Word Embedding, Natural Language Processing}
  • M. Nasiri, H. Rahmani *

    Determining the personality dimensions of individuals is very important in psychological research. The most well-known example of personality dimensions is the Five-Factor Model (FFM). There are two approaches 1- Manual and 2- Automatic for determining the personality dimensions. In a manual approach, Psychologists discover these dimensions through personality questionnaires. As an automatic way, varied personal input types (textual/image/video) of people are gathered and analyzed for this purpose. In this paper, we proposed a method called DENOVA (DEep learning based on the ANOVA), which predicts FFM using deep learning based on the Analysis of variance (ANOVA) of words. For this purpose, DENOVA first applies ANOVA to select the most informative terms. Then, DENOVA employs Word2Vec to extract document embeddings. Finally, DENOVA uses Support Vector Machine (SVM), Logistic Regression, XGBoost, and Multilayer perceptron (MLP) as classifiers to predict FFM. The experimental results show that DENOVA outperforms on average, 6.91%, the state-of-the-art methods in predicting FFM with respect to accuracy.

    Keywords: FiveFactor Model (FFM), ANOVA, deep learning, word embedding, Text mining}
  • A. Lakizadeh *, Z. Zinaty

    Aspect-level sentiment classification is an essential issue in sentiment analysis that intends to resolve the sentiment polarity of a specific aspect mentioned in the input text. Recent methods have discovered the role of aspects in sentiment polarity classification and developed various techniques to assess the sentiment polarity of each aspect in the text. However, these studies do not pay enough attention to the need for vectors to be optimal for the aspect. To address this issue, in the present study, we suggest a Hierarchical Attention-based Method (HAM) for aspect-based polarity classification of the text. HAM works in a hierarchically manner; firstly, it extracts an embedding vector for aspects. Next, it employs these aspect vectors with information content to determine the sentiment of the text. The experimental findings on the SemEval2014 data set show that HAM can improve accuracy by up to 6.74% compared to the state-of-the-art methods in aspect-based sentiment classification task.

    Keywords: deep learning, Sentiment Analysis, word embedding, long short-term memory}
  • فاطمه خجسته*، محسن کاهانی، بهشید بهکمال

    فرایندهای کسب وکار در دنیای واقعی بسیار پیچیده هستند و متناسب با تحولات محیطی دچار تغییر می شوند. این در حالی است که روش های کشف فرایند پایه، قادر به شناسایی این تغییرات نیستند و تنها فرایندهای ثابت را تحلیل می کنند؛ از این رو، روش هایی به منظور شناسایی رانش مفهومی در فرایندهای کسب وکار مطرح شدند. همه روش های موجود در این حوزه، با انتخاب ویژگی ها و مقایسه آنها با استفاده از پنجره سعی در شناسایی این تغییرات دارد. انتخاب ویژگی مناسب و همچنین اندازه مناسب پنجره چالش های اصلی این روش ها به شمار می آیند. در این پژوهش، با بیان مفهوم تعبیه دنباله که برگرفته از تعبیه واژه در دنیای پردازش زبان طبیعی است، روشی خودکار و مستقل از پنجره به منظور شناسایی رانش ناگهانی در نگاره های کسب وکار ارایه کرده ایم. استفاده از روش تعبیه دنباله، این امکان را فراهم می کند که انواع روابط میان دنباله ها و رویدادها را استخراج و رانش های موجود در فرایندها را شناسایی کنیم. ارزیابی ها نشان می دهد که روش پیشنهادی نسبت به روش های موجود دقت بالاتر و تاخیر شناسایی رانش کمتری دارد.

    کلید واژگان: فرایندکاوی, رانش مفهومی, تغییرات فرایند, تعبیه واژه}
    Fatemeh Khojasteh*, Mohsen Kahani, Behashid Behkamal

    Process mining provides a bridge between process modeling and analysis on the one hand and data mining on the other hand. Process mining aims at discovering, monitoring, and improving real processes by extracting knowledge from event logs. However, as most business processes change over time (e.g. the effects of new legislation, seasonal effects and etc.), traditional process mining techniques cannot capture such “second-order dynamics” and analyze these processes as if they are in steady-state. Such changes can significantly impact the performance of processes. Hence, for the process management, it is crucial that changes in processes be discovered and analyzed. Process change detection is also known as business process drift detection.All the existing methods for process drift detection are dependent on the size of windows used for detecting changes. Identifying convenient features that characterize the relations between traces or events is another challenge in most methods. In this thesis, we propose an automated and window-independent approach for detecting sudden business process drifts by introducing the notion of trace embedding. Using trace embedding makes it possible to automatically extract all features from the relations between traces. We show that the proposed approach outperforms all the existing methods in respect of its significantly higher accuracy and lower detection delay.

    Keywords: process mining, concept drifts, process changes, word embedding}
  • فاطمه کاوه یزدی، علی محمد زارع بیدکی*

    عدم همخوانی واژگان مهمترین چالش پیش روی سیستم های بازیابی اطلاعات از وب هستند. عدم همخوانی واژگانی به تفاوت های موجود بین پرس وجوهای کاربران و محتوای اسناد وب در حالی اطلاق می گردد که هر دو به یک موضوع واحد اشاره دارند. روش های گسترش پرس وجو برای رویارویی با مشکل عدم همخوانی واژگانی، پرس وجوی کاربر را بازآرایی می نمایند تا بدینوسیله همپوشانی بین عبارت های موجود در پرس وجو و اسناد را افزایش دهند. در این مقاله یک چهارچوب گسترش پرس وجوی مبتنی بر شبکه سیامی عمیق حافظه کوتاه-مدت طولانی ارایه شده است. به علاوه، برای نخستین بار وابستگی ارتباطی در این مقاله تعریف شده و برای برچسب گذاری جفت های متشکل از پرس وجوی کاربر و پرس وجوی جایگزین مورد استفاده قرار گرفته است. شبکه سیامی آموزش داده شده با استفاده از جفت های برچسب گذاری شده با نظارت ضعیف، علاوه بر ارایه برچسب برای جفت های ورودی، هزینه هم سنجی آن ها را نیز محاسبه نموده و اعلام می کند. پس از برچسب گذاری، جفت های با کم ترین هزینه هم سنجی انتخاب و در هم ادغام می شوند تا به یک پرس وجوی گسترش یافته تبدیل شوند. نتایج آزمایشات نشان دهنده برتری روش پیشنهادی بر سایر روش های مشابه گسترش پرس وجوی مبتنی بر جاسازی کلمات بوده است.

    کلید واژگان: بازیابی اطلاعات, گسترش پرسوجو, جاسازی کلمات, وابستگی معنایی, وابستگی ارتباطی, شبکه سیامی عمیق, سلول حافظه کوتاه-مدت طولانی}
    F. Kaveh Yazdy, A. M. Zareh Bidoki *

    Term mismatch is the most important challege in web information retrieval. The term mismatch problem is defined as differences between user queries and contents of documents while referring to the same topic. Query expansion methods deal with term mismatch by reformulating the queries to increase their term-overlap with relevant documents. In this paper, we proposed a query expansion framework based on a deep Siamese LSTM neural network. In addition, we defined the relevant relatedness for the first time and used this concept to label pairs made from user query and candidate query. Weakly-supervised labeled pairs are utilized in training of the deep Siamese network. The trained Siamese network provides labels for testset pairs in addition to contrastive loss values. The contrastive loss value reflects the cost of pulling together similar pairs. Pairs with minimum contrastive loss values are selected and merged together to form one expanded query. Results of our tests showed that the proposed framework outperforms similar word embedding based query expansion methods.

    Keywords: information retrieval, Query Expansion, Word Embedding, Semantic Relatedness, Relevant Relatedness, Deep Siamese Network, LSTM cell}
  • سعیده ممتازی*، فرزانه ترابی

    شناسایی موجودیت های نامدار [1] یکی از فعالیت های زیربنایی در حوزه پردازش زبان طبیعی [2] و به طور کلی زیر مجموعه ای از استخراج اطلاعات [3] است. در فرآیند شناسایی موجودیت های نامدار به دنبال یافتن عناصر اسمی در متن و دسته بندی آنها به رده هایی ازپیش تعیین شده از قبیل اسامی اشخاص، سازمان ها، مکان ها، مذاهب، عنوان کتاب ها، عنوان فیلم ها و غیره هستیم. در این مقاله با بهره گیری از روش های نوین در این حوزه مانند استفاده از دو بردار مختلف بازنمایی معنایی واژگان برمبنای کلمه و حروف تشکیل دهنده آن برمبنای شبکه های عصبیو همچنین استفاده از روش های یادگیری عمیق [4] یک سامانه تشخیص موجودیت های نامدار معرفی می شود. همچنین در راستای پژوهش حاضر، یک پیکره برچسب گذاری شده شامل سه هزار چکیده از ویکی پدیای فارسی که شامل نود هزار واژه است با استفاده از پانزده برچسب مختلف ارایه می شود که گام مهمی در ارتقای پژوهش های آینده این حوزه برداشته خواهد شد. نتایج حاصل از ارزیابی سامانه پیشنهادی نشان می دهد که می توان با استفاده از داده معرفی شده به دقت 09/72 در معیار F رسید.



    کلید واژگان: تشخیص موجودیت های نامدار, پردازش زبان طبیعی, بازنمایی معنایی کلمات, یادگیری عمیق}
    Saeedeh Momtazi*, Farzaneh Torabi

    Named entities recognition is a fundamental task in the field of natural language processing. It is also known as a subset of information extraction. The process of recognizing named entities aims at finding proper nouns in the text and classifying them into predetermined classes such as names of people, organizations, and places. In this paper, we propose a named entity recognizer which benefits from neural network-based approaches for both word representation and entity tagging. In the word representation part of the proposed model, two different vector representations are used and compared: (1) the semantic representation of words based on their context using word2vec continues skip-gram model, and (2) the semantic representation of words based on their context as well as characters forming them using fasttext. While the former model captures the semantic concepts of words, the latter one considers the morphological similarity of words as well. For the entity identification, a deep Bidirectional Long Short Term Memory (BiLSTM) network is used. Using LSTM model helps to consider the history of text when predicting entities, while the BiLSTM model expands this idea by benefiting from the history from both sides of the context. Moreover, inline of the present research, an annotated corpus containing 3000 abstracts (90000 tokens) from the Persian Wikipedia is provided. In contrast to the available datasets in the field, which includes up to 7 label types, the new dataset contains 15 different labels, namely person individual, person group, organizations, locations, religions, books, magazines, movies, languages, nationalities, events, jobs, dates, fields, and other. Developing this dataset will be an important step in promoting future research in this field, especially for the tasks such as question answering that need wider range of entity types. The results of the proposed system show that by using the introduced model and the provided data, the system can achieve 72.92 F-measure.

    Keywords: Name entity recognition, natural language processing, word embedding, deep learning}
نکته
  • نتایج بر اساس تاریخ انتشار مرتب شده‌اند.
  • کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شده‌است. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
  • در صورتی که می‌خواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.
درخواست پشتیبانی - گزارش اشکال