-
هدف اصلی استخراج کلمات کلیدی انتخاب مجموعه ای از لغات در متن است که می تواند موضوع اصلی متن را بازگو کند. استخراج کلیدواژگان در بازیابی اطلاعات، سیستم های پیشنهاددهنده متنی و دسته بندی متون، نقش مهم را ایفا می کند. در زبان فارسی باتوجه به پیچیدگی ذاتی زبان فارسی استخراج کلیدواژگان به مراتب دشوارتر شده است. در این پژوهش سعی شده است با رویکرد نوین ترکیبی آماری و یادگیری ماشین به استخراج کلیدواژگان پرداخته شود. ابتدا باتوجه به ساختار زبان فارسی پیش پردازهای لازم برای حذف کلمات و علایم نگارشی صورت می گیرد. سپس با استفاده از سه نوع ویژگی آماری و دسته بند بیز سیستم به صورت خودکار الگوی کلمات کلیدی با کلمات عادی را آموزش می بیند. همچنین پس پردازش کارا برای کم کردن کلمات مثبت کاذب در چارچوب پیشنهادی طراحی شده است. گفتنی است که مدل ساخته شده قادر به شناسایی تعداد حداکثر 20 کلیدواژه در هر پایان نامه است و این کلمات با کلیدواژگان نوشته شده در هر متن مقایسه و ارزیابی می شوند. نتایج ارزیابی های متنوع نشان می دهد روش پیشنهادی با دقت مناسبی توانسته است کلمات کلیدی نوشتارهای فارسی علمی (پایان نامه و رساله) را استخراج کند.
کلید واژگان: استخراج کلیدواژگان, دسته بند بیز, ویژگی های آماری, پیش پردازش, پس پردازشKeyword extraction aims to extract words that are able to represent the corpus meaning. Keyword extraction has a crucial role in information retrieval, recommendation systems and corpora classification. In Persian language, keyword extraction is known as hard task due to Persian’s inherent complication. In this research work, we aim to address keyword extraction with a combination of statistical and Machine Learning as a novel approach to this problem. First the required preprocessing is applied to the corpora. Then three statistical methods and Bayesian classifier was utilized to the corpora to extract the keywords pattern. Also, a post processing methods was used to decrease the number of True Positive outputs. It should be pointed out that the built model can extract up to 20 keywords and they will be compared with keywords in the corresponding corpus. The evaluation results indicate that the proposed method, could extract keywords from scientific corpora (Specifically Thesis and Dissertations) with a good accuracy.
Keywords: Extraction, Bayesian Classification, statistical features, preprocessing, post-processing -
واژگان کلیدی لغات مهمی از سند هستند که بیان گر توصیفی از متن هستند و نقش بسیار مهمی در فهم دقیق و سریع از محتوا دارند. شناسایی واژگان کلیدی از متن با روش های معمول کاری زمان بر و پرهزینه است. در این مقاله ابتدا با استفاده از شبکه عصبی پیشرو و از طریق الگوریتم Word2Vec ماتریس همبستگی واژگان را به ازای یک سند محاسبه و سپس با استفاده از ماتریس همبستگی و یک فهرست اولیه محدود از واژگان کلیدی، نزدیک ترین واژگان را از نظر شباهت در قالب فهرست نزدیک ترین همسایگی ها استخراج می کنیم. فهرست به دست آمده را به صورت نزولی مرتب و از ابتدای فهرست، درصدهای مختلفی از واژگان را انتخاب و به ازای هر درصد، ده مرتبه فرایند آموزش شبکه عصبی و ساخت ماتریس همبستگی و استخراج فهرست نزدیک ترین همسایگی ها را تکرار و در نهایت میانگین دقت، فراخوانی و معیارF را محاسبه می کنیم. این کار را تا جایی ادامه می دهیم که به بهترین نتایج در ارزیابی دست یابیم؛ نتایج نشان می دهند که به ازای انتخاب حداکثر چهل درصد واژگان از ابتدای فهرست نزدیک ترین همسایگی ها، نتایج مورد قبولی به دست می آید. الگوریتم بر روی پیکره ای با هشتصد خبر که به صورت دستی واژگان کلیدی آن ها را استخراج کرده ایم، آزمایش شده است و نتایج آزمایش ها نشان می دهد که دقت روش پیشنهادی 78 درصد خواهد بود.
کلید واژگان: الگوریتم word2Vec, شبکه عصبی, وزن دهی ویژگیKeywords can present the main concepts of the text without human intervention according to the model. Keywords are important vocabulary words that describe the text and play a very important role in accurate and fast understanding of the content. The purpose of extracting keywords is to identify the subject of the text and the main content of the text in the shortest time. Keyword extraction plays an important role in the fields of text summarization, document labeling, information retrieval, and subject extraction from text. For example, summarizing the contents of large texts into smaller texts is difficult, but having keywords in the text can make you aware of the topics in the text. Identifying keywords from the text with common methods is time-consuming and costly. Keyword extraction methods can be classified into two types with observer and without observer. In general, the process of extracting keywords can be explained in such a way that first the text is converted into smaller units called the word, then the redundant words are removed and the remaining words are weighted, then the keywords are selected from these words. Our proposed method in this paper for identifying keywords is a method with observer. In this paper, we first calculate the word correlation matrix per document using a feed forward neural network and Word2Vec algorithm. Then, using the correlation matrix and a limited initial list of keywords, we extract the closest words in terms of similarity in the form of the list of nearest neighbors. Next we sort the last list in descending format, and select different percentages of words from the beginning of the list, and repeat the process of learning the neural network 10 times for each percentage and creating a correlation matrix and extracting the list of closest neighbors. Finally, we calculate the average accuracy, recall, and F-measure. We continue to do this until we get the best results in the evaluation, the results show that for the largest selection of 40% of the words from the beginning of the list of closest neighbors, the acceptable results are obtained. The algorithm has been tested on corpus with 800 news items that have been manually extracted by keywords, and laboratory results show that the accuracy of the suggested method will be 78%.
Keywords: keywords, word2vec algorithm, neural network, giving weight features -
سیستم های متداول کاوشگر کلمات دارای یک مدل بازشناسی گفتار هستند که وظیفه آن تعیین کلیدواژه های کاندید شده و امتیاز اطمینان آنها است. به طور معمول قبول و یا رد کلیدواژه های کاندید شده بر مبنای مقایسه این امتیاز با یک مقدار آستانه ثابت انجام می گیرد. از آنجا که عملکرد مدل بازشناس در تشخیص واحدهای زیرکلمه ای متفاوت، یکسان نمی باشد؛ بنابراین اختصاص امتیاز اطمینان برای هر کلیدواژه بدون در نظر گرفتن ساختار واحدهای زیرکلمه ای آن مناسب نمی باشد. از این رو در این مقاله یک روش کاملا جدید نرمالیزاسیون امتیاز اطمینان بر اساس ساختار واجی کلیدواژه ها و روش برنامه ریزی خطی ارائه شده است. هدف این روش امتیازدهی به اجزاء واجی هر کلیدواژه، براساس بیشینه نمودن تفکیک توزیع امتیاز اطمینان اولیه کلیدواژه های درست و غلط تشخیص داده شده است. نتایج به دست آمده نشان می دهد که استفاده از روش پیشنهادی منجر به بهبود 2 درصدی در مقدار FOM نسبت به سیستم پایه خواهد شد. همچنین در این مقاله نحوه انتخاب بردار ویژگی مناسب در سیستم بازشناس گفتار مورد استفاده بررسی خواهد شد.
کلید واژگان: سیستم کاوشگر کلمات, کلید واژه, مدل پنهان مارکوف, امتیاز اطمینان, برنامه ریزی خطی, نرمالیزاسیون امتیازConventional word spotting systems determine hypothesized keywords and their confidence score using a speech recognizer. Acceptance or rejection of these keywords is intended based on comparison of their scores with a specific threshold. It has been proved that confidence score prepared by recognizer is highly dependent on sub-word structure of each keyword. So comparing assigned scores to keywords without considering their sub-word units could causes degradation in overall performance. In this paper a novel method for confidence score normalization is proposed which is based on sub-word units of each keyword and linear programming algorithm. In proposed method, a keyword-dependent correction term is added to the score of the keyword to maximize separation of confidence score histograms of true and false occurrences. Our results show a 2% improvement in FOM compared to baseline system. Also, choosing an appropriate feature vector has been discussed in this paper. -
با توجه به نقش مهمی که کلیدواژه ها در شکل گیری بانک های اطلاعاتی و همچنین بازیابی اطلاعات توسط پژوهشگران ایفا می کنند، پژوهش حاضر تلاشی است جهت بررسی ویژگی های کلیدواژه هایی که توسط نویسندگان مقالات علمی انتخاب می شوند. در این راستا، در مرحله ی کمی پژوهش، کلیدواژه های دویست مقاله تحقیقی در رشته زبانشناسی کاربردی از نقطه نظر حوزه، میزان تخصصی بودن و ارتباط با عناوین مقالات مورد تجزیه و تحلیل قرار گرفتند. در مرحله ی کیفی، راهکارهای انتخاب کلیدواژه ها توسط محققین این رشته بررسی گردید. یافته های مرحله کمی حاکی از میزان همپوشانی قابل ملاحظه ای بین عناوین و کلیدواژه های تخصصی می باشد. بر این اساس، توصیه هایی جهت افزایش موفقیت بازیابی اطلاعات، مخصوصا برای دانشجویان، ارائه می گردد.از سویی دیگر، تحلیل های انجام شده در مرحله کیفی نشانگر ماهیت سهل و ممتنع انتخاب کلیدواژه ها از دیدگاه نویسندگان مقالات بوده؛ وجوه تشابه و اختلاف نظر مشاهده شده می تواند راهگشای پژوهش های جدیدی در باب اثر دیدگاه های نویسنده در ویژگی های متنی ژانرهای علمی باشد.
کلید واژگان: انتخاب کلیدواژه, انتخاب کلیدواژه توسط نویسنده, کد بندی اطلاعات, عنوان در مقاله ی تحقیقی, جستجوی اینترنتی اطلاعاتThe current study attempts to explore the characteristics of author-assigned keywords in research articles as important constituents of targeted search in academic communities. To this end, the keywords of 200 research papers in the field of applied linguistics, in terms of domain, degree of specificity, and relation to the titles, were analyzed. To supplement the findings, the keyword choice strategy of a number of researchers with publishing experience in the field was also investigated. The analysis revealed a considerable rate of title-keywords match, especially with respect to field-specific keywords. This finding points to the importance of users’ field-specific background knowledge in locating relevant information on the web. The examination of authors’ viewpoints and strategies, on the other hand, helped to bring to light the complex and non-clichéd nature of keyword selection. The significance of authors’ diverging and converging attitudes and their implications for enhancing the success rate of keyword search are discussed. -
کلمات کلیدی زیر مجموعه ای از کلمات یا عبارات یک سند هستند که می توانند معنای سند را توصیف کنند و در فرایند بازیابی اطلاعات نقش مهمی ایفا کنند. از آنجا که عملیات استخراج کلیدواژه یا عبارات کلیدی از متون تخصصی و علمی کاری تخصصی و زمان بر بوده و حجم اسناد علمی که نیاز به کلیدواژه دارند روزافزون است، الگوریتم های مختلفی برای استخراج تخصصی و خودکار کلیدواژه و عبارات کلیدی به اسناد طراحی و پیاده سازی شده اند. RAKE یک الگوریتم پرکاربرد برای استخراج کلمات کلیدی از متون است. اساس کار الگوریتم RAKE، کلمات کلیدی و عموما حاوی چندین کلمه (یعنی عبارت کلیدی) هستند، ولی علایم نگارشی یا کلمات بی معنا یا ایست واژه ها را شامل نمی شوند. در این الگوریتم از برچسب گذاری دستوری کلمات به عنوان ابزاری برای تعیین ضریب اهمیت آن ها در جملات استفاده می شود. کلید واژه ها مجموعه ای از توالی های چندکلمه ای یا تک کلمه ای هستند که طبق معیار های خاصی امتیاز دهی می شوند. در این پژوهش، یک نسخه بهبود یافته از الگوریتم استخراج خودکار کلیدواژه (RAKE) ارایه شده است. در نسخه بهبودیافته سعی شده با ایجاد تغییراتی در معیارهای امتیازدهی عبارات کاندید، دقت و بازخوانی عبارات کلیدی استخراج شده افزایش یابد. راهکار ارایه شده برای بهبود الگوریتم RAKE با در نظر گرفتن ضعف های موجود در رویکرد های وزن دهی دراین الگوریتم به ویژه برای زبان فارسی و مستندات علمی پیشنهاد شده است. برای بررسی نقاط ضعف الگوریتم RAKE و ارایه راهکار پیشنهادی از مجموعه ای از فراداده های پایان نامه و رساله های فارسی استفاده شده است. راهکار پیشنهادی روی این داده ها آزمایش و ارزیابی شده و باعث افزایش دقت، بازخوانی و معیار F شده است.
کلید واژگان: استخراج کلید واژه, الگوریتم RAKE, برچسب گذاری دستوری, پردازش زبان طبیعی, مستندات علمی فارسیKeywords and key phrases are subsets of most relevant words or phrases that summarize contents of a document while they play a critical role in information and document retrieval. Keyword extraction from scientific text is challenging and time-consuming due to the technical and multi-subject nature of the text, while the number of documents requiring keywords is increasing. There are various algorithms and methods developed for automatic keyword extraction. Rapid Automatic Keyword Extraction (RAKE) is a popular algorithm in this domain. RAKE’s decisions are based on the observation that keywords generally contain multiple words and they rarely include stopwords and words with minimum lexical meanings. Candidate keywords are a set of single-word or multi-word sequences selected based on the scores assigned to them by some scoring criteria in RAKE.In this research, a new modified version of RAKE algorithm is proposed in which candidate keyword scoring scheme is improved to increase precision and recall in the keyword extraction process. The proposed algorithm is to cover some of the main weaknesses of RAKE algorithm, especially in Persian scientific documents. To study the weaknesses of RAKE algorithm and evaluating the proposed modified version of RAKE, a set of metadata of Persian theses and dissertations are used. The result of test and evaluation of the proposed algorithm confirm improvement in precision, recall and F-measure.We study effectiveness of RAKE in extracting keywords from Persian texts. We find that RAKE algorithm often extracts long phrases with redundant words on Persian texts, leading to low accuracy. In this paper, we study sources of scoring inefficiency of RAKE algorithm and propose an improved version of RAKE algorithm with a novel scoring mechanism. Our scoring mechanism overcomes some of the weaknesses in RAKE’s original scoring for Persian texts and yields better results. Our evaluations on Persian corpus demonstrate that our improved RAKE algorithm outperforms original RAKE algorithm by extracting more accurate keyword. Our results show that improved RAKE achieves more than 20% higher precision and recall on average compared to original RAKE.
Keywords: Keyword Extraction, RAKE Algorithm, Part of Speech Tagging, Natural Language Processing, Persian Scientific Document -
هدف پژوهش حاضر مقایسه میزان ربط نتایج حاصل از محدودسازی عبارت جستجو به عنوان و نشانی اینترنتی در دو حوزه علوم انسانی و علوم کشاورزی از دید کاربر بوده است. همچنین، مقایسه میزان حضور کلیدواژه های مورد جستجو در عنوان و نشانی اینترنتی وب سایت های دو حوزه و نیز رابطه حاکم بر کلیدواژه های مورد جستجو و همخوانی عنوان و نشانی اینترنتی وب سایت های حاصل از جستجو در موتور کاوش نیز از اهداف این پژوهش بوده است. نتایج پژوهش میزان ربط بیشتر نتایج حاصل از نشانی اینترنتی را نسبت به عنوان در حوزه علوم کشاورزی نشان داد. اما، در حوزه علوم انسانی تفاوت معنی داری بین میزان ربط نتایج جستجوی مبتنی بر عنوان و نشانی اینترنتی وجود نداشت. همچنین، نتایج حاکی از آن بود که هر چه تعداد کلیدواژه مورد جستجو کمتر باشد، میزان همخوانی عنوان و نشانی اینترنتی بیشتر است؛ هرچه میزان همخوانی عنوان و نشانی اینترنتی بیشتر باشد، میزان ربط نتایج نیز بالاتر است. نتیجه نهایی پژوهش این بود که کاربران با کنترل تعداد کلیدواژه های مورد جستجو نیز می توانند به موارد مرتبط تر دست یابند. همچنین، موتورهای کاوش تخصصی می توانند با افزایش وزن دهی به کلیدواژه های موجود در نشانی، نتایج مرتبط تری را رتبه بندی کنند و در اختیار کاربران خود قرار دهند.
کلید واژگان: عنوان, نشانی اینترنتی, ربط, بازیابی اطلاعات, موتورهای جستجوWhen the World Wide Web provides suitable methods for producing and publishing information to scientists, the Web has become a mediator to publishing information. This environment has been formed billions of web pages that each of them has a special title, special content, special address and special purpose. Search engines provide a variety of facilities limit search results to raise the possibility of relevance in the retrieval results. One of these facilities is the limitation of the keywords and search terms to the title or URL. It can increase the possibility of results relevance significantly. Search engines claim what are limited to title and URL is most relevant. This research tried to compare the results relevant between results limited in title and URL in agricultural and Humanities areas from their users sights also it notice to Comparison of the presence of keywords in the title and URL between two areas and the relationship between search query numbers and matching keywords in title and their URLs. For this purpose, the number of 30 students in each area whom were in MA process and in doing their thesis was chosen. There was a significant relevant of the results that they limited their information needs to title and URL. There was significantly relevance in URL results in agricultural area, but there was not any significant difference between title and URL results in the humanities. For comparing the number of keywords in title and URL in two areas, 30 keywords in each area were chosen. There was not any significantly difference between the number of keywords in the title and URL of websites in two areas. To show relationship between number of search keyword and the matching of title and URL 45 keywords in each area were chosen. They were divided to three parts (one keyword, two keywords and three keywords). It was determined that if search keyword was less, the amount of matching between title and URL was more and if the matching between title and URL was more, the rate of relevance of website was more. The research concluded that if users with specific names limit their search in the URL, they can get more related results. Also they can get better results by controlling of their search keywords. Specific search engines can also increase the weighting of keywords in the URLs and rank more relevant results to their users.Keywords: title, URL, relevance, information retrieval, search engines -
مقدمهبا توجه به اهمیت بهره گیری از ابزارهای نمایه سازی همچون اصطلاحنامه ها و سرعنوان های موضوعی پزشکی در ذخیره و بازیابی اطلاعات پزشکی، مطالعه حاضر با هدف تعیین میزان همخوانی کلید واژه های مقالات مجله انگلیسی زبان علوم پیراپزشکی دانشگاه علوم پزشکی شهید بهشتی (Journal of Paramedical Sciences) با سرعنوان های موضوعی پزشکی MeSH (Medical Subject Headings) انجام شد.روش بررسیاین مطالعه توصیفی- مقطعی از نوع کاربردی و ابزار جمع آوری داده ها، چک لیست محقق ساخته بود. در مجموع 1143 کلید واژه مستخرج از 269 مقاله منتشر شده در 24 شماره این مجله با MeSH مورد مقایسه قرار گرفت و بر اساس چک لیست در سه گروه همخوانکامل، همخوان نسبی و ناهمخوان طبقه بندی گردید.یافته هاطی سال های مورد بررسی، به طور میانگین 277 کلید واژه (2/24 درصد) همخوان کامل، 409 کلید واژه (8/35 درصد) همخوان نسبی و 457 کلید واژه (0/40 درصد) با اصطلاحات موجود در MeSH ناهمخوان بود. کلید واژه های بخشی همخوان یا همخوان با اصطلاح شناسه، بیشترین تعداد کلید واژه های همخوان نسبی را تشکیل داد.نتیجه گیرینویسندگان مقالات این مجله دانش کافی در زمینه انتخاب کلید واژه صحیح با استفاده از MeSH را نداشتند. ضروری است که استفاده صحیح از MeSH به نویسندگان آموزش داده شود. همچنین، هیات تحریریه این مجله ایرانی انگلیسی زبان در حوزه پیراپزشکی نیز باید از نویسندگان بخواهد که هنگام ارایه مقاله، کلید واژه های خود را بر اساس MeSH تنظیم نمایند.کلید واژگان: MeSH, مقاله مجله, نمایه سازی, واژگان کنترل شده, پیراپزشکیIntroductionConsidering the importance of using indexing tools such as thesauri and Medical Subject Headings (MeSH) in storage and retrieval of medical information, this study was performed with the aim to determine the compliance rate of keywords of articles published in an English-language journal Shahid Beheshti University of Medical Sciences, Journal of Paramedical Sciences, with the MeSH.MethodsThis was a cross-sectional and descriptive study using applied method. The data gathering tool was a researcher-made checklist. In total, 1143 keywords extracted from 269 articles published in 24 issues of the journal; those keywords were compared with MeSH, and were classified in three groups: exact match, partial match and no match.ResultsDuring the investigated years, on average, 277 keywords (24.2%) were exact matches, 409 keywords (35.8%) were partial matches, and the 457 keywords (40.0%) were not match with the terms contained in the MeSH. Keywords in match or match with the entry term categories formed the largest portion of partial match keywords.ConclusionThe results show that the authors of this journal do not have sufficient knowledge on correct keyword selection with use of the MeSH, and it is necessary for them to be trained in the correct way. In addition, the editorial board of this English-language Iranian journal in the paramedical field should request authors to adjust their keywords based on the MeSH during article selection.Keywords: MeSH, Journal Article, Indexing, Vocabulary Controlled, Paramedical
-
سابقه و هدفیکی از ملزومات استانداردهای بین المللی در نگارش مقالات مجلات حوزه های پزشکی، انتخاب کلیدواژه های نمای های اثر با استفاده از Mesh میباشد. لذا مطالعه حاضر با هدف تعیین و مقایسه میزان انطباق کلیدواژه های چکیده مقالات مجلات ایرانی دندانپزشکی و همتایان آمریکایی آن نمایه شده در Pub Med با Mesh 2014 انجام شد.
مواد و روشها: مطالعه توصیفی و از نوع کاربردی بود. درمجموع 1191 کلیدواژه مستخرج از 290 مقاله 4 مجله ایرانی منتخب و 1207 کلیدواژه مستخرج از 203 مقاله 2 مجله آمریکایی منتخب با Mesh مقایسه و براساس سیاههوارسی در سه گروه انطباقکامل، انطباقنسبی و نامنطبق طبقهبندی گردید. داده ها با استفاده از آمار توصیفی و استنباطی (درصد فراوانی و آزمون کای2) تجزیه و تحلیل شدند.یافته هابین نسبت کلیدواژه های انطباقکامل، انطباقنسبی و نامنطبق با Mesh در مقالات مجلات ایرانی و آمریکایی منتخب تفاوت معناداری وجود نداشت. بیشتر کلیدواژه های مقالات مجلات ایرانی بهطور مشترک در «عنوان و چکیده» و بیشتر کلیدواژه های مقالات مجلات آمریکایی در «متن مقاله، رفرنسها یا ذهنیات نگارنده» منشا داشتند. مجله برتر در میان مجلات موردبررسی ازنظر کیفیت کلیدواژه ها مجله«J Dent (Tehran)» بود.نتیجه گیریدانش نویسندگان هر دو گروه موردمطالعه در تشخیص توصیفگرهای پذیرفته شده Mesh برای انتخاب کلیدواژه تا رسیدن به سطح مطلوب فاصله دارد. این امر توجه بیشتر به ارزش واژه های نمایه ای، نمایه ها و اهمیت نمایهسازی را در هر دو گروه نویسندگان و توجه هیئت تحریریه های مجلات را میطلبد تا با ارزشگذاری کیفی بیشتر روی همه ابعاد مقالات بهویژه کلیدواژه ها میزان دسترسی به مقالات و درنتیجه استناد به آنها را افزایش دهند.کلید واژگان: Mesh, Pub Med, کلیدواژه, مقاله مجله, دندانپزشکیIntroductionSelection of index keywords through MeSH (Medical subject Headings) is one of the requirements set by international standards, in writing articles for medical journals. Therefore, the study has been performed with the aim of specifying and comparing level of compliance through MeSH-2014, between those keywords extracted from the abstracts of those articles published in Iranian and American dental journals, which have been indexed in PubMed.
Material andMethodsThe study was an applied-descriptive one. In total, 1191 keywords extracted from 290 articles from amongst four selected Iranian journals, and 1207 keywords extracted from 203 articles from amongst 2 selected American journals have been compared with MeSH, and divided into three exact match, relative match, and no match groups. Data were analyzed, applying descriptive and inferential statistics (frequency percentage, and Chi-square).ResultsThere was no significant difference between ratios of the keywords with exact match, relative match, and no match, in selected Iranian and American journals. Most of the keywords in those articles published in Iranian journals were stemmed jointly from the title and abstract; however, in American journals, these keywords were mostly stemmed from the text, references, or authors mentalities. The superior journal from amongst reviewed journals was J Dent (Tehran), in terms of quality of the keywords.ConclusionAs far as the authors knowledge for selection of keywords in both groups, and in terms of recognizing preferred terms existing in MeSH is concerned, both groups are far from desirable level. The issue requires more attention to be paid to the value of index words, indices, and the importance of indexing, by both groups of authors. Moreover, the matter should be considered by editorial boards of journals; so that, through more qualitative valuation of all aspects of the articles especially keywords, increase would be made in level of accessibility to the articles, and also citing them as an evidence.Keywords: MeSH, PubMed, Keyword, Journal Article, Dentistry -
استخراج کلیدواژه یکی از مهمترین قدم های فرآیند نمایه سازی مستندات است. کلیدواژه ها توصیفگرهای مفهومی هستند که می توانند در جستجو و بازیابی اطلاعات و نیز اشاعه آنها بکارگرفته شوند. در پایگاه های دربردارنده اسناد علمی مانند پایگاه علمی گنج پژوهشگاه علوم و فناوری اطلاعات ایران، کلیدواژه ها نقش مهمتری دارند و تخصیص کلیدواژه های تخصصی چالش برانگیزتر است چرا که این پایگاه ها دربرگیرنده اسناد تخصصی با حوزه های علمی مختلفی هستند. فرآیند نمایه-سازی دستی بسیار زمان بر است و با توجه به افزایش حجم تولید و ثبت مستندات علمی، نیاز است که این فرایند با سرعت بیشتری صورت گیرد. لذا استفاده از روش های ماشینی هوشمند برای پیشنهاد و تخصیص کلیدواژه ضروری است. تحلیل آماری و معنایی اسناد و استفاده از روش های یادگیری ماشین از جمله روش های پرکاربرد در بسیاری از پایگاه های اطلاعات علمی دنیا است. بر همین اساس، در این پژوهش روشی برای پیشنهاد کلیدواژه به مستندات علمی فارسی بر مبنای روش های هوشمند پردازش متن و یادگیری ماشین ارایه شده است. این روش بر مبنای سیستم های پیشنهاددهنده و استدلال نمونه محور است که براساس آن، مجموعه ای از کلیدواژه های مرتبط با یک سند به نمایه ساز پیشنهاد می شود تا او سریعتر بتواند کلیدواژه های مناسب را انتخاب کند. به بیانی دیگر، ابتدا اسناد مشابه با سند جدید براساس روش های TFIDFو روش های بازنمایی کلمه-به-بردار، بازیابی شده و سپس کلیدواژه های کاندید از بین اسناد مشابه براساس یک تابع رتبه بندی انتخاب می شوند. روش پیشنهادی بر مجموعه ای از اسناد پایگاه گنج در سه حوزه فنی و مهندسی، هنر و ادبیات، و علوم انسانی، پیاده سازی و نتایج آن با معیارهایی نظیر دقت، فراخوانی و نظرات متخصصین ارزیابی شده است.کلید واژگان: سیستم های پیشنهاددهنده, استدلال نمونه محور, روش بازنمایی کلمه-به-بردار, بازیابی اطلاعات, یادگیری ماشین, نمایه سازیKeyword extraction is a key step in document indexing. Keywords are semantic and content-based descriptors of a document, which can be used in document retrieval and representation. In databases containing scientific documents, such as Ganj in Irannian Research Institue for Information Science and Technology (IranDoc), it is even more critical to assign meaningful keywords for documents, since the documents are from different academic disciplines and contain technical terms.As the number of scientific documents grows exponentially, having an automatic and intelligent keyword extraction technique is getting more critical. There are various keyword extraction techniques that are either based on statistical features of the text or machine learning approaches, and sometimes a combination of both. In this research, we propose a new keyword extraction method for Persian scientific documents based on recommender systems and case-based reasoning. The proposed method is designed based on case-based reasoning in which the main assumption is that similar documents share similar keywords. There are two main steps in the proposed approach: first, similar documents to a given new document are retrieved based on TFIDF and word2vec model, second, the candidate keywords are extracted from retrieved documents and ranked based on a new scoring scheme, and a set of keyword are selected from the candidate keywords based on their score. The proposed method is tested and avaluated on a set of documents of Ganj database in three different subject areas (Art, Humanities and Engineering), based on precision, recall and expert panelKeywords: Keyword Extraction, Recommender systems, Case-Based Reasoning, Word2Vec Word Embedding, information retrieval, Machin Learning, Indexing
-
برای نظریه تعاریف گوناگونی در متون ارائه شده است که با رویکرد کتاب شناختی و تحلیل محتوا قابل دسترسی هستند. این گوناگونی در کلیدواژه هایی که در تعاریف وجود دارند قابل مشاهده است. در این مقاله تعاریف موجود از نظریه در متون استخراج شد و با استفاده از روش تحلیل محتوای آن تعاریف، واژگان اصلی و مترادف و بسامد هر کدام محاسبه شد. تحلیل محتوای 125 تعریف منجر به شناسایی 9 واژه ی اصلی و 67 واژه ی مترادف شد. واژگان اصلی یافت شده در این تحلیل محتوا عبارتند از: مفهوم، تبیین، رابطه، پدیده، مجموعه، فرضیه، نظام مند، پیش بینی، و روش. در نهایت، با رویکرد کتاب شناختی تعریف بازنگری شده ای از نظریه ارائه شد که نمایانگر مفهوم آن و واژگان اصلی دربرگیرنده ی این مفهوم در متون است. به طور کلی در تعریفی که در این پژوهش از نظریه ارائه شده است به رویکرد کتابشناختی و تجربی گرایانه توجه شده است و به وجوه توصیف، تبیین، پیش بینی و کنترل به صورت فرایندی و در یک حالت سطح بندی در تعریف نظریه با استفاده از واژگان کلیدی توجه شده است.کلید واژگان: نظریه, تبیین, رابطه, پدیده, فرضیهAbstract Abstract various definitions has represented for the theory that are accessible through bibliographic approach and content analysis. This difference is visible in the keywords of the definitions. In this paper, the definitions of the theory were extracted from the literature and main keywords, synonyms, and frequency of them were calculated by using content analysis. Content analysis of 125 definitions were identified 9 main keywords and 67 synonyms of keywords. The main keywords found in this content analysis such as concept, explanation, relation, phenomenon, series, hypothesis, systematic, prediction, and method. Finally, a revise definition of theory was represented, that illustrates its concept and the main keywords in the literature. In general, in the definition given in this paper, the theory is presented, the bibliographic and empirical approach is considered, and it refers to the aspects of description, explanation, prediction and control in a process and in a state of leveling in the definition of the theory with the use of vocabulary The key is attention.Keywords: : theory, explanation, relation, phenomenon, hypothesis
-
از آنجا که گزینه «جستجوی دقیق» غیرفعال است همه کلمات به تنهایی جستجو و سپس با الگوهای استاندارد، رتبهای بر حسب کلمات مورد نظر شما به هر نتیجه اختصاص داده شدهاست.
- نتایج بر اساس میزان ارتباط مرتب شدهاند و انتظار میرود نتایج اولیه به موضوع مورد نظر شما بیشتر نزدیک باشند. تغییر ترتیب نمایش به تاریخ در جستجوی چندکلمه چندان کاربردی نیست!
- جستجوی عادی ابزار سادهای است تا با درج هر کلمه یا عبارت، مرتبط ترین مطلب به شما نمایش دادهشود. اگر هر شرطی برای جستجوی خود در نظر دارید لازم است از جستجوی پیشرفته استفاده کنید. برای نمونه اگر به دنبال نوشتههای نویسنده خاصی هستید، یا میخواهید کلمات فقط در عنوان مطلب جستجو شود یا دوره زمانی خاصی مدنظر شماست حتما از جستجوی پیشرفته استفاده کنید تا نتایج مطلوب را ببینید.
* ممکن است برخی از فیلترهای زیر دربردارنده هیچ نتیجهای نباشند.
-
معتبرحذف فیلتر