به جمع مشترکان مگیران بپیوندید!

تنها با پرداخت 70 هزارتومان حق اشتراک سالانه به متن مقالات دسترسی داشته باشید و 100 مقاله را بدون هزینه دیگری دریافت کنید.

برای پرداخت حق اشتراک اگر عضو هستید وارد شوید در غیر این صورت حساب کاربری جدید ایجاد کنید

عضویت

جستجوی مقالات مرتبط با کلیدواژه « مدل سازی موضوع » در نشریات گروه « ادبیات و زبان ها »

تکرار جستجوی کلیدواژه «مدل سازی موضوع» در نشریات گروه «علوم انسانی»
  • مریم موسویان، مسعود قیومی*

    سالانه، پژوهشگران در حوزه های گوناگون علمی یافته های پژوهش های خود را به صورت گزارش های فنی یا مقاله هایی در مجموعه مقالات یا مجله ها چاپ می کنند. گردآوری این نوع داده توسط موتورهای جست وجو و کتابخانه های دیجیتال، برای جست وجو و دسترسی به نشریه های پژوهشی به کار گرفته می شود که معمولا مقاله های مرتبط بر اساس کلیدواژه های پرسمان به جای موضوعات مقاله بازیابی می گردد. در نتیجه، دسته بندی دقیق مقاله های علمی می تواند کیفیت جست وجوی کاربران را هنگام جست وجوی یک سند علمی در پایگاه های اطلاعاتی افزایش دهد. هدف اصلی این مقاله، ارایه یک مدل دسته بندی برای تعیین موضوع مقاله های علمی است. به این منظور، مدلی را پیشنهاد کردیم که از دانش بافتی غنی شده مقاله های فارسی مبتنی بر معناشناسی توزیعی بهره می برد. بر این اساس، شناسایی حوزه خاص هر سند و تعیین دامنه آن توسط دانش غنی شده برجسته، دقت دسته بندی مقاله های علمی را افزایش می دهد. برای دست یابی به هدف، ما مدل های درونه یابی بافتی، اعم از ParsBERT  یا XLM-RoBERTa را با موضوع های پنهان در مقاله ها را برای آموزش یک مدل پرسپترون چندلایه غنی می کنیم. بر اساس یافته های تجربی، عملکرد کلیParsBERT-NMF-1HT  72/37 درصد (ماکرو) و 75/21 درصد (میکرو) بر اساس معیار-اف بود که تفاوت عملکرد این مدل در مقایسه با مدل پایه از نظر آماری معنادار (p<0/05) بود.

    کلید واژگان: تحلیل محتوایی مقاله, بازنمایی بافتی, معناشناسی توزیعی, شبکه عصبی, دسته بندی مقاله علمی, مدل سازی موضوع}
    Maryam Moosaviyan, Masood Ghayoomi *

    Annually, researchers in various scientific fields publish their research results as technical reports or articles in proceedings or journals. The collocation of this type of data is used by search engines and digital libraries to search and access research publications, which usually retrieve related articles based on the query keywords instead of the article’s subjects. Consequently, accurate classification of scientific articles can increase the quality of users’ searches when seeking a scientific document in databases. The primary purpose of this paper is to provide a classification model to determine the scope of scientific articles. To this end, we proposed a model which uses the enriched contextualized knowledge of Persian articles through distributional semantics. Accordingly, identifying the specific field of each document and defining its domain by prominent enriched knowledge enhances the accuracy of scientific articles’ classification. To reach the goal, we enriched the contextualized embedding models, either ParsBERT or XLM-RoBERTa, with the latent topics to train a multilayer perceptron model. According to the experimental results, overall performance of the ParsBERT-NMF-1HT was 72.37% (macro) and 75.21% (micro) according to F-measure, with a statistical significance compared to the baseline (p<0.05).

    Keywords: Article Content Analysis, Contextualized Representation, Distributional Semantics, Neural Network, Scientific Article Classification, Topic Modeling}
  • مسعود قیومی*
    بیماری همه گیر کرونا موجب تغییراتی در سبک زندگی روزمره، مانند کاهش مراودات اجتماعی و ایجاد فاصله گذاری اجتماعی، شده است. در این پژوهش، دو هدف را پیگیری کرده ایم. هدف نخست تحلیل الگوریتمی نظرات و پیام‎های مرتبط با کرونا به زبان فارسی است که توسط افراد مختلف، در دو رسانه اجتماعی توییتر و اینستاگرام، منتشر می شود. برای این هدف، با استفاده از مدل سازی موضوعی، به عنوان یک شیوه تحلیل محتوایی داده، داده ها را به موضوعات انتزاعی خوشه بندی کرده ایم. هدف دیگر، یافتن رابطه همبستگی بین موضوعات در نظرات و هشتگ های به کاررفته در نظرات است. برای تحقق این هدف، با گردآوری نظرات و پیام‎های خزش شده مربوط به کرونا از این دو رسانه، یک پیکره زبانی تهیه شده است. از تحلیل محتوایی نظرات این پیکره، 24 موضوع انتزاعی به دست آمد که به‎صورت دستی برچسب‏گذاری شد تا این موضوع‏ها هویت پیدا کنند. با بررسی داده های این پیکره و آمار به دست آمده از پردازش موضوعی آن ها، می توان گمانه زنی کرد که حدود 25٪ از نظرات این پیکره بر دو موضوع «سیاسی» و «اجتماعی» متمرکز است. 10 موضوع دانه ریز این پیکره، یعنی 35٪ از حجم نظرات، به خود ویروس کرونا و ماهیت همه‎گیری آن مربوط است که بیانگر اهمیت توجه به رسانه های اجتماعی برای آگاه سازی و نشر اطلاعات است. علاوه برآن، فرضیه وجود رابطه بین هشتگ ها و موضوع ها، با استفاده از ضریب همبستگی پیرسون، از نظر آماری مورد بررسی قرار گرفت. برای 20 موضوع، همبستگی بالا بین موضوع و تعدادی از هشتگ ها یافت شد؛ ولی برای 4 موضوع این همبستگی یافت نشد. از این پژوهش می توان برای افزایش انسجام درونی متن و پیش بینی پذیری هشتگ ها استفاده کرد.
    کلید واژگان: رسانه های اجتماعی, ویروس کرونا, کووید 19, هشتگ, مدل سازی موضوع, تحلیل محتوایی}
    Masood Ghayoomi *
    Coronavirus pandemic caused changes in the daily lifestyle, such as reducing social interactions and creating social distancing. In this research, we pursue two goals. One is algorithmic content analysis of comments/posts in Persian related to the Coronavirus on two social media, namely Tweeter and Instagram. To this end, topic modeling is used as a method for content analysis to cluster the data into abstract topics. The other goal is finding the correlation between topics and hashtags in the comments/posts. To this end, we developed a corpus from these two social media. We found 24 abstract topics by algorithmic content analysis of this corpus and they were manually labeled to be comprehensive. According to the corpus and the statistical information of the extracted topics, it can be speculated that about 25% of the comments/posts in this corpus focused on political and social issues of the virus. 10 fine-grained topics which contained 35% of the comments were related to the Coronavirus itself and its pandemic property. This indicates the importance of the attention that has been paid to social media for informing and disseminating information. Furthermore, the hypothesis of existing correlation between topics and hashtags was studied from statistical point of view by using the Pearson correlation coefficient. For 20 topics, a high correlation score between topics and hashtags was found; but this correlation was not found for 4 topics. The outcome of this research can be used to increase the internal coherence of a text and to make the hashtags predictable.
    Keywords: Social Media, Coronavirus, COVID-19, Hashtag, Topic Modeling, content analysis}
  • مسعود قیومی

    از زمان پیدایش اینترنت تاکنون، با حجم زیادی از داده هایی مواجه هستیم که در این بستر قرار گرفته است. این امر سبب شده است تا شیوه مطالعه داده ها و بررسی سیر تحول آنها از روش دستی به خودکار تغییر کند. هدف از انجام این پژوهش، استخراج موضوعات مطرح شده در مقالات رشته زبان شناسی و روندشناسی تحول موضوعات در طول زمان با کمک الگوریتم مدل سازی موضوعی است. برای این هدف از الگوریتم تخصیص پنهان دیریشله استفاده می شود. پیکره این پژوهش ازطریق خزش به دست آمده و پس از پالایش و پیش پردازش داده ها، تعداد 5، 10 و 15 موضوع از مقالات استخراج شده و براساس واژه های هر موضوع به صورت دستی برچسب گذاری شده است. توزیع مقالات از سال 1306 تا 1399 سبب شد تا این مدت به 5 مقطع زمانی تقسیم و موضوعات مربوط به هر برش زمانی پس از فرایند برچسب گذاری مشخص شود. رشد و افول موضوعات استخراج شده از مقالات در پردازش های با تعداد 5، 10 و 15 موضوع در بازه های زمانی قابل مشاهده است. دستاورد کاربردی این پژوهش سیاست گذاری در حوزه علم است که علاوه بر مطرح کردن یک روش شناسی فناورانه کاربردی در پژوهش، می توان موضوعات داغ میان پژوهشگران یک رشته علمی را مشخص کرد و خلاهای موضوعات پژوهشی را یافت و بر متنوع سازی و متوازن سازی موضوعات پژوهشی اهتمام ورزید.

    کلید واژگان: تکوین, پردازش زبان طبیعی, مدل سازی موضوع, زبان شناسی پیکره ای, مقاله علمی, تحلیل محتوایی}
    Masood Ghayoomi

    Since the advent of the Internet, we have come across a large amount of data that has been placed on this platform. This has caused the way data is studied and examined to evolve from manual to automatic. This research aims to extract the topics raised in articles in the field of language and linguistics and to study the evolution of topics over time with the help of the topic modeling algorithm. To this end, the Latent Dirichlet allocation algorithm is used. The corpus of this research was developed through crawling; and after filtering and pre-processing of the data, the number of 5, 10 and 15 topics are extracted from the articles; and based on the words of each topic, they are manually labeled. Due to the distribution of articles from 1927 to 2020 (1306 to 1399 according to the solar calendar), the time is divided into 5 time span and the topics related to each time span is identified after the labeling process. Among the 5 extracted topics, including Education, Discourse Analysis, Psychology, Syntax and Dialectology, all topics, except Discourse Analysis, are progressively studied over time. The growth and decline of the topics extracted from the articles can be seen in 10 and 15 topics. The practical achievement of this research is policy-making in the field of science. In addition to introducing a practical, technological methodology in do research, it is possible to identify hot topics among researchers in a scientific field and to find the gaps in research topics and to try to diversify and balance research topics.

    Keywords: Evolution, Topic Modeling, corpus linguistics, Scientific Article, Content analysis}
نکته
  • نتایج بر اساس تاریخ انتشار مرتب شده‌اند.
  • کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شده‌است. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
  • در صورتی که می‌خواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.
درخواست پشتیبانی - گزارش اشکال