به جمع مشترکان مگیران بپیوندید!

تنها با پرداخت 70 هزارتومان حق اشتراک سالانه به متن مقالات دسترسی داشته باشید و 100 مقاله را بدون هزینه دیگری دریافت کنید.

برای پرداخت حق اشتراک اگر عضو هستید وارد شوید در غیر این صورت حساب کاربری جدید ایجاد کنید

عضویت

جستجوی مقالات مرتبط با کلیدواژه "clustering" در نشریات گروه "کتابداری و مدیریت اطلاعات"

تکرار جستجوی کلیدواژه «clustering» در نشریات گروه «علوم انسانی»
  • رجب کیانی شاهوندی، احمد شعبانی*، عاصفه عاصمی، مرتضی محمدی استانی

    ارتباط علمی از انواع و گونه های ارتباطات است که از طریق به کارگیری روش ‏ها و ابزارهای ارتباطی و با هدف تبادل دانش و اطلاعات علمی انجام می‏ شود. به منظور احراز دیدگاهی جامع درباره ارتباطات علمی و پژوهشی و تقویت آن باید اصطلاحات و مفاهیم آن شناسایی گردد. از این رو، هدف اصلی پژوهش حاضر، شناسایی و خوشه بندی مفهومی اصطلاحات و مفاهیم کلیدی در حوزه ارتباطات علمی با استفاده از تکنیک های متن ‎کاوی است. روش پژوهش حاضر از لحاظ رویکرد، کمی و از لحاظ هدف، کاربردی است. همچنین برای شناسایی و خوشه بندی اصطلاحات کلیدی در حوزه ارتباطات علمی از تکنیک های مختلف متن ‎کاوی استفاده گردید. جامعه آماری پژوهش حاضر، مشتمل بر چکیده مقالات مرتبط با حوزه ارتباطات علمی مستخرج از پایگاه های اطلاعاتی وب آوساینس و اسکوپوس به تعداد 558 مقاله و روش نمونه گیری، سرشماری بود. ابتدا تمامی اصطلاحات و عبارات اسمی با استفاده از کتابخانه های موجود با کدنویسی به زبان پایتون مورد استخراج و فراوانی واژگان محاسبه گردید. سپس هر عبارت مرکب به واژگان تشکیل دهنده آن تجزیه شده و بر مبنای واژه ‎نامه گلاو و با محاسبه میانگین بردارهای آن کلمات، یک بردار عددی تخصیص یافت. برای اصطلاحات ناشناخته نیز- که در واژه نامه گلاو وجود نداشت- یک عبارت معادل با استفاده از واژگان موجود جهت توصیف آن، جایگزین و بردار عددی عبارت، ساخته شد و خوشه ‎بندی (به روش کا-مینز) بر روی آن واژگان انجام شد. یافته ها نشان داد که از 17930 کلیدواژه مستخرج، تعداد 13651 واژه، عبارت اسمی بود. همچنین 16 درصد از اصطلاحات حوزه ارتباطات علمی، تک واژه ای و 84 درصد آن مرکب بودند. پس از ایجاد بردارهای اصطلاحات مرکب و انجام خوشه بندی، از 792 عبارت یا اصطلاح در حوزه ارتباطات علمی، تعداد 40 خوشه مفهومی ایجاد گردید. پس از تعدیل و حذف خوشه های ضعیف در نهایت تعداد 22 خوشه در حوزه ارتباطات علمی شناسایی گردید. شناسایی مفاهیم اصلی در ارتباطات علمی در قالب خوشه های مفهومی و عناصر آن از نتایج پژوهش حاضر قلمداد می شود. از مهمترین یافته های دیگر پژوهش، تخصیص بردارهای عددی به عبارات ترکیبی از روی بردار واژگان تشکیل دهنده آنها و سپس استفاده از این بردارها برای خوشه بندی و دسته بندی عبارات و همچنین قابلیت بهبود و تصحیح بعضی از خوشه ها بود. این روش در خوشه بندی و دسته بندی مفاهیم امکان توجه به جنبه های معناشناسی و یادگیری را مورد توجه قرار می دهد و به تحلیل دقیق اصطلاحات و عبارات کلیدی در حوزه های مختلف کمک خواهد کرد.

    کلید واژگان: ارتباطات علمی, متن کاوی, خوشه بندی, عبارت اسمی, واژه ‎نامه گلاو, رویکردهای معنایی
    Rajab Kiani Shahvandy, Ahmad Shabani *, Asefe Asemi, Morteza Mohammadi Ostani

    Scientific communication encompasses various types and forms of communication conducted through the use of communication methods and tools, aiming to exchange scientific knowledge and information. To gain a comprehensive understanding of scientific and research communications and enhance them, it is crucial to identify the terms and concepts. Therefore, the main objective of this research is to identify and conceptually cluster key terms in the field of scientific communication using text mining techniques. The present research method is quantitative in terms of approach and practical in terms of purpose and utilized various text mining techniques for identifying and clustering key terms in the field of scientific communication. The research population consist of abstracts of articles related to scientific communication, extracted from databases such as Web of Science and Scopus, totaling 558 articles. The sampling method was census. Initially, all nominal phrases were extracted using available libraries. Each compound phrase was decomposed into its constituent words, and based on GloVe dictionary, the average vectors of those words were calculated, assigning a numerical vector to each compound phrase. The researchers created an equivalent expression using existing vocabulary to describe unknown terms that did not exist in the GloVe dictionary. The clustering (using the K-means method) was performed on these vectors. The findings revealed that out of 17,930 extracted keywords, 13,651 terms were noun phrases. Also, 16% of terms in the field of scientific communication were single words and 84% of them were compound. After creating vectors of compound terms and performing clustering, 40 conceptual clusters were created from 792 phrases or terms in the field of scientific communication. After adjusting and removing weak clusters, researchers finally identified 22 clusters in the field of scientific communication. Identifying the concepts and components in scientific communication in the form of conceptual clusters and its elements is attributed to the results of this research. One of the most significant findings was the assignment of numerical vectors to composite phrases based on the vectors of their constituent words. These vectors were then used for clustering and categorizing phrases, as well as improving and correcting some clusters. This method pays attention to the semantics aspects and learning in the clustering and categorization of concepts and, will aid to precise analysis of key terms and phrases in various fields.

    Keywords: Scientific Communication, Text Mining, Clustering, Nominal Phrase, Glove Dictionary, Semantic Approaches
  • Narges Neshat *, Anahita Kermani
    patents are a significant competitive strategy to categorize commercial value based on the source information of technology; researchers use patent analysis as a practical tool to infer various types of information. This shows how important it is to retrieve and access them.  Clustering is a method used in different fields to group similar natures. Citations are commonly used to cluster documents, and two methods are widely used for this purpose. The first method uses bibliographic coupling, and the second method identifies the words in the citation titles, also called co-citation. However, it is necessary to investigate which methods provide better patent clustering and retrieval results. This study examines citation contents instead of citations in building relevant groups of patents. Experimental research was done on a set of US patents. The analysis is divided into three phases. The first is appropriate databases to conduct patent searches according to the subject and objective of this study. The basic inventions and the experimental set were selected. Phase II, for developing a patent clustering system based on patent similarities and assisting the relationships among categories, we used fuzzy c-means (FCM) clustering because it can handle overlapping clusters similar to k-means. As fuzzy clustering is a kind of overlapping clustering, extended B Cubed precision and recall - measures for evaluating overlapping clustering - were used. Since patents can belong to multiple technology domains, in phase III, a Perl program was written to manage the matching process. The study involved creating two patent clusters using bibliographic coupling and citation title words, respectively. The results indicated that the bibliographic coupling method produced better clustering performance than the citation title words. Moreover, the cluster structure was more extensive in terms of exhaustivity than the citation title words.  It's interesting to note that the use of cited patent title words resulted in a reduction of nearly 40% of the number of attributes. Additionally, when compared to the use of bibliographic coupling, the cited title words method had a nearly equal recall of clustering by cited patents in high exhaustivity. As a result, it appears that using cited title words may be preferable when the high exhaustivity approach is selected for patent clustering and retrieval.
    Keywords: Clustering, US Patent Classification, citation, Recall, precision, Fuzzy C-means evaluation, Patent citation, bibliographic coupling
  • مسلم رضایی، سید حسن حاتمی نسب*، شهناز نایب زاده
    هدف

    هدف از این پژوهش، ترسیم نقشه علمی حوزه جایگاه سازی برند و شناسایی ارزشمندترین موضوعات این حوزه است.

    روش شناسی: 

    پژوهش حاضر بر پایه هدف، از نوع پژوهش های کاربردی و توصیفی، با تکنیک های علم سنجی انجام شده است. جامعه آماری پژوهش، تمام پژوهش های علمی و تخصصی حوزه جایگاه سازی برند، که در بازه زمانی 1975 تا 2023 میلادی، در پایگاه استنادی اسکوپوس، نمایه شده است. در این پژوهش، از نرم افزارهای VOSviewer و Gephi به منظور ترسیم و تحلیل نقشه های علمی 577 سند علمی استفاده شد.

    یافته ها

    بر پایه یافته های پژوهش، اصلی ترین موضوعات زمینه جایگاه سازی برند: برندسازی، عملکرد برند، مسئولیت اجتماعی برند، برندسازی مقصد و منشا برند هستند. براساس نقشه های ترسیم شده و با به کارگیری شاخص مرکزیت نزدیکی، برندسازی، رقابت، بازاریابی، تصویر برند، طراحی محصول و مدیریت برند، مهم ترین مولفه ها در انتقال اطلاعات در شبکه جایگاه سازی برند (رویکرد میان رشته ای) هستند.

    نتیجه گیری

    این تحلیل را می توان به عنوان نقشه راه پژوهش های آتی حوزه جایگاه سازی برند، مورد استفاده قرار داد. با توجه به خوشه اصلی حوزه جایگاه سازی برند، می توان نتیجه گرفت که برندسازی و عملکرد برند در مفهوم جایگاه سازی از اهمیت ویژه ای برخوردار هستند.

    کلید واژگان: جایگاه سازی برند, نقشه علمی, تحلیل هم واژگانی, خوشه بندی, علم سنجی
    Moslem Rezai, Seyyed Hassan Hataminasab *, Shahnaz Nayebzadeh
    Purpose

    Considering the importance of brand positioning for any business and the growing trend of research in this field, the necessity of conducting scientific studies is fully felt. A review of the subject literature and domestic and international research shows that no comprehensive study has been done on this issue. Considering the extent and influence of the field of brand positioning in most business research, the need for clarification is evident to reveal the current situation and future trends based on scientific techniques. To fill this existing deficiency, the present research seeks to answer the question: What is the scientific map of published studies in the field of brand positioning in the Scopus database? Based on this mapping, the study aims to analyze the network of concepts in this field and identify the most valuable areas. It addresses the topics within this field and assists researchers in brand positioning to explain the study process and policy-making in this field based on the identified influential areas.

    Methodology

    The present research is a quantitative, applied, descriptive, and scientometric study based on the objective. The research employed co-word analysis and network analysis techniques. The statistical population comprised all scientific and specialized articles on brand positioning indexed in the Scopus citation database from 1975 to 2023. Initially, the term "brand positioning" was searched in the titles, abstracts, and keywords of the Scopus database. Subsequently, the search was refined to include only articles and reviews, followed by a selection of English language articles. Finally, 577 scientific and specialized articles on brand positioning were chosen for analysis. VOSviewer and Gephi software were utilized for visualizing and analyzing scientific maps of the 577 selected documents. The Scopus database was chosen due to its vast collection of 70 million reviewed research articles from over 5000 international publishers, ensuring relative uniformity.

    Findings

    The research findings reveal that marketing, branding, brand image, brand management, and consumer behavior are the most common topics and keywords in the realm of brand positioning. According to the generated maps and utilizing the closeness centrality index, branding, competition, marketing, brand image, product design, and brand management emerge as the most crucial topics in information dissemination within the network. In essence, they represent categories with an interdisciplinary perspective in the domain of brand positioning.

    Conclusion

    The present study is the first systematic quantitative analysis of brand positioning research in the Scopus citation database, which uses co-word analysis to map the scientific landscape of this field. This study addresses the gap in scientometric research in the literature, aiming to enhance the understanding of brand positioning research from its inception to the present. Research questions were formulated for this purpose and will be addressed in this article. This analysis can serve as a guide for future research in brand positioning. The results indicate an increasing trend in research over the years. The main topics identified in brand positioning research include branding, brand performance, brand social responsibility, destination branding, brand positioning, and brand origin. Through co-citation analysis, key authors in the brand positioning research community were identified, such as Keller, Aaker, Diamantopoulos, and Hayer. Given the significance of green branding (a primary keyword in the corporate social responsibility cluster), the rise in environmental risks, and the impact of green branding on brand sustainability, companies in our country should prioritize this area when establishing and implementing their brand.

    Keywords: Brand Positioning, Scientific Map, Co-Word Analysis, Clustering, Scientometrics
  • Maryam Azimian, Nusrat Riahi Nia *, Ali Azimi Vaghar, Keyvan Borna
    Purpose
    The main purpose of this study is to design and evaluate a book recommender system in digital and public libraries. The solution has been provided by receiving and reviewing the preferences and experiences of users and profile information and studying the background of each user, as well as considering groups of features recorded in the recommendation process.
    Method
    This research is applied in terms of purpose and survey method. The statistical population studied in this research consists of 263 questionnaires of users and 30 questionnaires of librarian experts. In order to find similarity between users and books, clustering and grouping have been used.
    Findings
    There are two criteria for grouping: users grouping that can be used on the three indicators of age, gender, educational level, and thematic classification of books can be based on scope, branch, and sub-category. In analyzing the data in the descriptive statistics section, Excel software is used and in the analytical section, SPSS software. Findings indicate that the accuracy criterion has been improved by calculating MAE and RSME in the proposed method compared to the basic method in this field. The results also showed that classification can have a significant impact on the forecast and performance of book forecasting systems.
    Conclusion
    The evaluation of the conceptual design showed that by focusing on user characteristics and obtaining real feedback of Iranian libraries, the recommender can serve as a key and effective element in the service of the Iranian readership community and play a good role as a virtual reference librarian.
    Keywords: book recommender system, Clustering, item-based Collaborative Filtering, Recommender Systems
  • آزاده فخرزاده*، محمدجواد ارشادی، محمدمهدی ارشادی

    پایگاه های اطلاعات علمی و موتورهای جستجو از ابزارهای اصلی کار پژوهشگران است. برای بازیابی دقیق و صحیح اطلاعات از این پایگاه ها نیاز است که اطلاعات با کیفیت مناسب وبا کمترین خطا ذخیره شوند. کنترل دستی اطلاعات زمانبر و پر هزینه است، در این مقاله، روش های داده کاوی برای کنترل کیفیت یک پایگاه اطلاعات پژوهشی معرفی می شود. برای این منظور ابتدا باید اطلاعاتی از خطاهای مرسوم را در کنار سایر اطلاعات هر رکورد جمع آوری کرد. سپس با استفاده از روش های داده کاوی الگوهای پنهان و روابط بین خطاها را کشف کرد و بر این اساس راه های بهبود کیفیت داده را ارایه داد. در این مقاله پایگاه اطلاعات علمی ایران (گنج)، به عنوان مطالعه موردی در نظر گرفته شد. 59 کد خطا توسط خبرگان تعریف شد.  سپس اطلاعات فراداده هر رکورد مثل نام دانشگاه، نام رشته،گرایش و حوزه تخصصی مدرک به همراه کدهای خطای آن در یک مجموعه داده  ذخیره شد. این مجموعه داده شامل 41021  رکورد  در حوزه های مختلف است. با استفاده از روش های آماری و قوانین انجمنی رابطه بین خطاها و الگوی تکرار آنها را درهرحوزه بررسی شد. نتایج نشان داد  به طور میانگین با در نظر گرفتن 25 درصد از خطاها در هر حوزه، می توان تا 80 درصد از خطاهای همه رکوردهای یک حوزه را کاهش داد. این خطاها شامل خطاهای پر تکرار در هر حوزه و همچنین خطاهایی است که با آن ها رابطه قوی دارند. با استفاده از روش خو شه بندی k-means رکوردها خوشه بندی شدند. نتایج نشان داد اگر چه شباهت هایی بین رکوردها از حوزه های مختلف وجود دارد، اما رابطه معناداری بین حوزه رکوردها و الگوی تکرار خطاها وجود ندارد.

    کلید واژگان: کیفیت داده, کیفیت اطلاعات پژوهشی, کنترل کیفیت, داده کاوی
    Azadeh Fakhrzdaeh *, Mohammad Javad Ershadi, Mohammad Mahdi Ershadi

    Research information databases and search engines are one of the main resources used by researchers every day. To accurately retrieve information from these databases, data need to be stored correctly. Manual controlling of data quality is costly and time-consuming. Here we suggest data mining methods for controlling the quality of a research database. To this end, common errors that are seen in a database should be collected. Metadata of every record in addition to its error codes is saved in a dataset. Statistics and data mining methods are applied to this dataset and patterns of errors and their relationships are discovered. Here we considered Iran's scientific information database (Ganj) as a case study. Experts defined 59 errors. Intimate features of every record, such as its subject, authors' names and name of the university, with its error codes were saved in a dataset. The dataset containing 41021 records was formed.  Statistics methods and association rules were applied to the dataset and the relationship between errors and their pattern of repetition was discovered. Based on our results, in average by considering 25 % of errors in every subject, up to 80%  of errors of all the records in a subject are covered. All the records were also clustered using K-means clustering. Although there was some similarity between records of different subjects, there was not seen any evident relationship between the pattern of repetition of the errors and the subject of records.

    Keywords: Data quality, Research information quality, quality control, Clustering
  • ایمان ظهوریان نادعلی، فاطمه سلیمانی روزبهانی*، حامد اجاقی
    هدف

    هدف این مطالعه ترسیم نقشه  تولیدات علمی پژوهشگران ایرانی نمایه شده در پایگاه اسکوپوس، در حوزه "هوش مصنوعی" است.

    روش شناسی:

     پژوهش حاضر مطالعه ای کاربردی بوده که در آن از تکنیک های  تحلیل هم واژگانی و تحلیل شبکه استفاده شده است. جامعه پژوهش، مستندات حوزه هوش مصنوعی پژوهشگران ایرانی منتشرشده در پایگاه استنادی اسکوپوس از سال های 1978 تا ژانویه 2022 است. از نرم افزارهای Excel، VOSviewer و Gephi جهت تحلیل داده ها و استخراج نقشه ها استفاده شده است.

    یافته ها

    یافته ها نشان می دهد ایران در حوزه هوش مصنوعی در رتبه 31ام و در خاورمیانه در جایگاه سوم قرار دارد. نویسندگان آمریکایی بالاترین همکاری را با نویسندگان ایرانی داشته اند. شاخه علوم کامپیوتر بالاترین و دندانپزشکی کمترین مستندات مرتبط با هوش مصنوعی را دارا هستند. دانشگاه تهران بیشترین تعداد مستندات را منتشر کرده است. مقالات مجله ای بیشترین نوع مستندات منتشرشده بوده و بالاترین تعداد ارجاعات 825 مورد است. نسبت مقالات مجله ای ایران در مقایسه با مقالات کنفرانسی بسیار بیشتر از نسبت جهانی است. استانداردهای ارایه اطلاعات وابستگی سازمانی در مستندات تولیدشده توسط پژوهشگران ایرانی به درستی رعایت نمی شود که حاصل آن عدم دقت در نتایج جستجوهای مربوط به این مستندات است.

    نتیجه گیری

    این بررسی می تواند نقشه راهی برای پژوهش های آتی و سرمایه گذاری بخش های اجرایی در حوزه هوش مصنوعی باشد. نتایج نشان می دهد روند تولیدات علمی پژوهشگران ایرانی به طور کلی صعودی بوده است، بااین حال این سرعت رشد در مقایسه با سایر کشورها کمتر است. محققان ایرانی در انتخاب موضوعات پژوهشی با مسیر کلی این حوزه در اکثر سال ها همراه و همگام بوده اند و در برخی سال ها با یک گام تاخیر پیش رفته اند.

    کلید واژگان: هوش مصنوعی, علم سنجی, نقشه علمی, نویسندگان ایرانی, خوشه بندی, اسکوپوس
    Iman Zohoorian Nadali, Fatemeh Soleimani Roozbahani *, Hamed Ojaghi
    Purpose

    Due to the importance of artificial intelligence, the increasing growth, and the high penetration rate of this technology in other sciences, the necessity of conducting scientometric studies is fully felt. The literature review on the research topic shows that very few studies have been conducted in this case or with not enough comprehensiveness. Considering rapid and significant progress in this field, it needs to be clarified to reveal the current situation and future trends based on scientometric techniques.To fill this existing gap, the present study seeks to answer the question that how is the scientific map of the published studies in the field of artificial intelligence by Iranian researchers in the Scopus database, and based on this map, what are the noteworthy fields of researchers?

    Methodology

    The current research is a quantitative and practical study using scientific methods, including co-word analysis and social network analysis. The research population includes all documents in the field of artificial intelligence with at least one author who is affiliated with an Iranian organization and indexed in the Scopus database from the beginning to January 2022. VOSviewer and Gephi are the software used to analyze data and extract maps. The reason for choosing the Scopus database is that this database contains 70 million research articles reviewed by more than 5000 international publishers (Zhang et. al, 2021), and also the database has relative uniformity in all fields (Batooli et al. 2019).

    Findings

    The results of the analysis show that Iranian researchers have published the most documents in 2021, and also the best position of Iran in the field of artificial intelligence was the 20th rank, which was achieved in 2021. Overall, Iran ranks 31 in thisdatabase and third among Middle Eastern countries after Israel and Turkey.Among the types of published documents, articles with number of 3124 are in the first place and notes are in the last place with a number of two published items.19.9% of the published documents of Iranian papers have not received any citations. The greatest number of published documents have between 1 and 5 citations. The highest number of citations belongs to an article with 824 citations.Also, findings show the most frequent keywords are "artificial intelligence", "algorithm" and "optimization".The network structure of high-frequency keywords with a repetition threshold of at least 15, consists of five clusters. In the first cluster, the keyword"neural network" has the highest link weight. In the next "artificial intelligence", "machine learning" and "learning systems" have the highest link weights and the only word in the fifth cluster is "mathematical model" and keywords are placed in five clusters: “inference and prediction”, “intelligent algorithms”, “diagnosis and learning”, “data analysis”, and “mathematical models”.In the coauthor network of 80 countries collaborating with Iranian writers, the most collaboration is between Iranian and American researchers. This network has classified collaborating countries into eight clusters based on direct relations.

    Conclusion

    The findings showed that the most frequent keywords are artificial intelligence, algorithm, optimization, and neural network. Optimizing is common between this study and GhaviDel, Nezamdost, & Riahinia's (2020). Also, the neural network is common between the present study and the study of Feng & Law (2021) and the study of Darko et al. (2020).The comparison of the most frequent keywords in Iranian and non-Iranian documents shows that Iranian researchers in choosing their research topics were aligned to the general trend of scientific development in most years, and in some years, they have progressed with a step delay.The results of the cluster analysis show that the studies were divided into five thematic clusters. This is even though the study of GhaviDel, Nezamdost, & Riahinia (2020) identified 12 clusters. Also, the difference between the results of the clustering of the present study and the study of Taherian & Assareh (2012) is that in the present study, clustering was done on the documents published by Iranian researchers, but in that study, the clustering was done on all the published documents in the field of artificial intelligence.According to the findings of the research, at the beginning of 2022, Iran was in the 31st rank.Meanwhile, Iran's rank in the study of FarzinYazdi and RezaeiSharifabadi (2017) in the same Scopus database was 17.Iranian researchers do not observe standard affiliations of education institutes and it leads to inaccuracy in the search results.Also, the results show that the process of Iranian documents has been generally upward. However, this growth rate is lower compared to other countries. In the following research topics, Iranian researchers have been in line with the general direction for most of the years, and in some years they have been one step behind.

    Keywords: Artificial intelligence, Scientometrics, Scientific map, Iranian authors, Clustering, Scopus
  • رضا قائمی*، یعقوب آراد، فرشته حاج قاضی
    امروزه تولید داده از طریق تجهیزات هوشمند، ازجمله تلفن های همراه، با رشد چشم گیری روبه رو بوده و خوشه بندی یکی از تکنیک های پرکاربرد کشف دانش در کلان داده ها است. خوشه بندی مبتنی بر چگالی (DBSCAN)، از الگوریتم های خوشه بندی کارا در داده کاوی بوده و با وجود داشتن مزایا، دارای مشکلاتی ازجمله سختی در تعیین پارامترهای ورودی و همچنین، نداشتن توانایی در کشف خوشه هایی با چگالی متفاوت نیز هست. در الگوریتم پیشنهادی این مقاله، از الگوریتم K-DBSCAN در گروه بندی داده های حجیم با هدف کاهش زمان اجرای خوشه بندی الهام گرفته شده است. به علاوه، با استفاده از الگوریتم های K-Means و H-DBSCAN، چگالی های مختلف مجموعه داده تشخیص داده می شود، برای هر چگالی یک شعاع Eps تعیین شده و سپس، الگوریتم پیشنهادی خوشه بندی مبتنی بر چگالی توسعه یافته با پارامترهای منطبق روی داده ها اعمال می شود. در واقع، نوآوری این مقاله استفاده از خوشه بندی K-Means و تخمین چگالی های مختلف در روش خوشه بندی DBSCAN است. الگوریتم پیشنهادی روی چهار مجموعه داده استاندارد Image segmentation، Pendigit، Letters و Shuttle control با الگوریتم خوشه بندی DBSCAN ساده و دو الگوریتم توسعه یافته K-DBSCAN و H-DBSCAN مقایسه شده است. نتایج نشان می دهد که الگوریتم پیشنهادی در زمانی که هر دو معیار زمان و دقت در خوشه بندی ملاک باشند، در مقایسه با الگوریتم های دیگر، الگوریتم برتری است.
    کلید واژگان: کلان داده ها, خوشه بندی, DBSCAN, K-DBSCAN, H-DBSCAN, k-means
    Reza Ghaemi *, Yaghoob Arad, Fereshteh Hajghazi
    Today, data generation through smart equipment, including mobile phones, has faced a significant growth, and clustering is one of the most widely used knowledge discovery techniques in big data. Density-based clustering (DBSCAN) is one of the most efficient clustering algorithms in data mining, and despite having advantages, it also has problems, such as the difficulty in determining the input parameters, as well as not being able to detect clusters. with different densities. In the proposed algorithm of this article, it is inspired by the K-DBSCAN algorithm in grouping large data with the aim of reducing the clustering execution time.In addition, by using K-Means and H-DBSCAN algorithms, different densities of the data set were identified and an Eps radius was determined for each density, and then, the proposed density-based clustering algorithm was developed with parameters The matching is applied to the data, and in fact, the innovation of this article is the use of K Means clustering and the estimation of different densities in the DBSCAN clustering method. The proposed algorithm has been compared with the simple DBSCAN clustering algorithm and two developed K-DBSCAN and H-DBSCAN algorithms on four standard data sets: Image segmentation, Pendigit, Letters and Shuttle control. The results show that the proposed algorithm is superior to other algorithms when both time and accuracy are criteria in clustering.
    Keywords: Big Data, Clustering, DBSCAN, K-DBSCAN, H-DBSCAN, k-means
  • امید بشردوست، عزت الله اصغری زاده*، محمد علی افشار کاظمی

    انباشت اطلاعاتی و ایجاد پایگاه های داده ای باعث شده است تا شرکت هایی که قصد دارند به مشتریان خود خدمات مناسب تری را ارایه کنند به سوی بهره مندی از ابزارهای نوین ارتباط با مشتری حرکت نمایندکه یکی از این ابزارها و روش ها، تکنیک های داده کاوی است که می تواند نقش مهم وکلیدی در مدیریت ارتباط با مشتری ایفا کند. هدف این پژوهش تحلیل ارزش مشتریان با رویکرد ترکیبی داده کاوی بر اساس مدل  WRFM است  بر این اساس 64858 نمونه از پایگاه داده مشتریان در دوره 1398- 1399 با روش نمونه گیری هدفمند در دسترس انتخاب شده است. وزن شاخص های مدل WRFM با نظرسنجی از 3 کارشناس خبره شرکت به کمک فرآیند تحلیل سلسله مراتبی تعیین شده است. بر اساس متغیرهای اولیه پژوهش و متغیرهای بدست آمده از شاخص های مدل WRFM، ارزش خرید مشتریان تجزیه و تحلیل شده است. برای تجزیه وتحلیل داد ه ها از نرم افزار SPSS Modeler و SPSS استفاده شد. نتایج نشان می دهد که روش خوشه بندی K-Means نسبت به روش های خوشه بندی دو مرحله ای و شبکه عصبی کوهنن عملکرد بهتری دربخش بندی مشتریان داشته است در نهایت براساس معیارهای درصد خلوص، تکرار، میزان خطا و شاخص اطلاعات متقابل نرمال شده (NMI) از خوشه بندی های مختلف K-Means، شش خوشه با امتیاز NMI (0/631) انتخاب شده است. این پژوهش مدل WRFM را برای تجزیه و تحلیل ارزش مشتری معرفی کرده است که وزن شاخص های این مدل با نظرسنجی از کارشناسان و با استفاده از فرآیند تحلیل سلسله مراتبی و بر اساس میزان ناسازگاری (0/052) که از روش تحلیل سلسله مراتبی بدست آمده است به ترتیب  (0/15)، (0/29) و (0/56) تعیین شده است که این مقادیر نشان دهنده اهمیت بیشتر شاخص ارزش پولی نسبت به دو شاخص دیگر  بوده است. در نهایت این شش خوشه با استفاده از شیوه نامگذاری بخش های بازار در پژوهش های (چانگ و تسای  2004؛ باباییان و سرفرازی 2019) در 4 دسته کلی: مشتریان کلیدی و ویژه، مشتریان بالقوه طلایی، مشتریان نامطمین ازدست رفته و مشتریان نامطمین جدید قرارگرفتند. بر طبق مدل پژوهش، شرکت باید بیشتر بر مشتریان خاص وکلیدی خود یعنی مشتریانی که در خوشه های اول، سوم و پنجم قرارگرفته اند تمرکز داشته باشد یعنی مشتریانی وفاداری که ضمن تداوم خرید خود دارای مقادیر بالاتر از میانگین در دو شاخص ارزش پولی و دفعات خرید بوده و به تازگی نیز خریدهای با ارزش ریالی بالا داشته اند که شرکت باید با توجه به منابع محدود خود استراتژی های بازاریابی کارآمدی برای این دسته از مشتریان درنظرگیرد تا ضمن حفظ مدیرت ارتباط با مشتری به سودآوری بیشتر برای شرکت منجر شود.

    کلید واژگان: تجزیه و تحلیل ارزش مشتری, تشخیص مغایرت, خوشه بندی, داده کاوی, مدل WRFM
    Omid Bashardoust, Ezattollah Asgharizadeh*, Mohammadali Afsharkazemi

    The accumulated volume of customer information due to the growth and development of information technology and the creation of databases has led companies that want to provide better services to their customers to benefit from new tools for customer relationship. One of these tools and methods is data mining techniques that can play an important and key role in customer relationship management. The purpose of this study is to analyze customer value with a combined data mining approach based on the WRFM model.  So 64858 samples from customer database in the period 2019-2020 have been selected by available purposive sampling method. The weight of WRFM attributes has been determined by surveying 3 experts of the company using a hierarchical analysis process. Based on the initial variables of the research and the variables obtained from the attributes of the WRFM model, the purchase value of customers has been analyzed. SPSS Modeller and SPSS software were used to analyze the data.The results show that the K-Means clustering method has a better performance in customer segmentation than the TwoStep clustering and the Cohonen neural network methods. Finally, based on the criteria of purity percentage, repetition, error rate and Normalized Mutual Information (NMI (index, six clusters with NMI (0.631) were selected from different K-Means clustering.This study introduces the WRFM model for customer value analysis.The weight of the attributes of this model is based on a survey of experts and using a hierarchical analysis process based on the degree of incompatibility (0.052) obtained from the hierarchical analysis method (0.15), (0.29) and (0.56), respectively, have been determined that these values ​​indicate the greater importance of the monetary value index than the other two indices; Finally, these six clusters were divided into 4 general categories using naming market segments methods in research (Chang and Tsai 2004; Babaian and Sarfarazi 2019): key and special customers, golden potential customers, missing uncertain customers and new uncertain customers. According to the research model, the company should focus more on its specific and key customers, ie customers who are in the first, third and fifth clusters, ie loyal customers who have higher than average values in the two attributes of monetary value and frequency and recently they have had purchases with a high value of Rials that the company should consider effective marketing strategies for this group of customers due to its limited resources in order to lead to more profitability for the company while maintaining customer relationship management.

    Keywords: Clustering, Cohonen Neural Net, Customer Relationship Management, Customer Value Analysis, Data Mining, WRFM Model
  • هدیه مهدوی، جلال رضایی نور*، محمد امینی

    رشد و پیشرفت دانشجویان، به عنوان سرمایه های آینده این کشور، همواره مورد اهمیت و توجه نظام آموزش و پرورش بوده است. چه بسیار دانشجویانی هستند که خلاقیت و استعدادشان شکوفا شده است و در عوض، ما سالیانه با تعداد کثیری از دانشجو مواجه هستیم که استعدادهایشان تلف شده و از موفقیت دور شده اند. امروزه، با افزایش دانشجویان در مقاطع مختلف دانشگاهی و تنوع رشته های تحصیلی، لزوم هدایت صحیح دانشجویان بیش تر از قبل احساس می شود. بدین منظور داده کاوی آموزشی در سال های اخیر موردتوجه ویژه مسیولان نظام آموزش و پرورش قرارگرفته است. تاکنون روش ها و تکنیک های دسته بندی متنوعی در حوزه داده کاوی و یادگیری ماشین به منظور دسته بندی و پیش بینی عملکرد دانشجویان به کار گرفته شده اند. اما این دسته بندهای تکی برای پیش بینی عملکرد در فرآیند آموزش محدودیت هایی از قبیل پیچیدگی و عدم ثبات دارند. برای مقابله با این مشکل دسته بندهای جمعی به عنوان روش های نوین و کارآمد مطرح می شوند. سیستم های دسته بند جمعی نتایج چندین دسته بند تکی را ترکیب می کنند و مدلی با عملکرد بهتر ارایه می دهند. در این پژوهش یک دسته بند جمعی جدید با استفاده از شبکه های عصبی چندلایه و خوشه بندی SOM به منظور تخمین و دسته بندی معدل دانشجویان دوره کارشناسی ارایه شده است. همچنین از روش ترکیبی میانگین گیری و رای اکثریت برای ترکیب نتایج دسته بندهای تکی استفاده شده است. نتایج ارزیابی بر روی داده های واقعی دانشگاه نشان می دهد که مدل پیشنهادی ارایه شده در این پژوهش دقت و کارایی بیشتری نسبت به روش های دسته بندی منفرد مشهور و پرکاربرد دارد. همچنین مدل پیشنهادی در مقایسه با روش های جمعی معروف، عملکرد بهتری در دسته بندی معدل دانشجویان داشته است.

    کلید واژگان: خوشه بندی, داده کاوی آموزشی, دسته بندهای جمعی, شبکه های عصبی
    Hadiyeh Mahdavi, Jalal Rezaei Noor*, Mohammad Amini

    Students’ growth and development have always been considered important by the education system as they are the future assets of their country. Although many students can flourish their talents and creativity, we are faced with a large number of students each year whose talents are squandered leading them to a position far from success. Today, with the more students entering in different academic levels and the variety of study disciplines, the necessity to properly guide students is felt more than ever. For this purpose, educational data mining has received special attention from the educational system’s officials in recent years. So far, various classification methods and techniques in data mining and machine learning have been used to predict student performance. However, these individual classifiers have limitations such as complexity and instability for predicting performance in the education process. To tackle this problem, ensemble classification has been proposed as a new and efficient method. Ensemble classification systems combine the results of several individual classifiers to provide a model with better performance. In this paper, a new Ensemble classification system is presented using multilayer neural networks and SOM clustering in order to estimate and classify the grade point average of undergraduate students. In addition, we used averaging and majority voting as combination methods for aggregating the results of individual classifiers. Evaluation results on real university data show that our proposed ensemble system provides better accuracy and performance compared to prevalent individual classification methods. Also, the proposed ensemble system obviously outperforms other popular ensemble methods in classifying students’ GPA.

    Keywords: Clustering, Educational Data Mining, Ensemble Classification, Neural Networks
  • وحید نصرتی*، محسن رحمانی
    یکی از راه های تشخیص هرزنامه، دسته بندی ایمیل ها به دو دسته هرزنامه و غیرهرزنامه است. کارایی بالای روش های یادگیری ماشین در مسایل گوناگون، باعث توسعه وسیع آنها در دسته بندی متون شده است. استفاده از یک سازوکار کاهش ویژگی کارآمد در الگوریتم های یادگیری ماشین مبتنی بر محتوا به‎‏منظور استخراج یک بردار ویژگی کارآمد از میان تعداد بسیار زیادی ایمیل نقش مهمی دارد. برخلاف روش های پیشین که فقط ویژگی های برتر را انتخاب کرده و باقی ویژگی ها را نادیده می گیرند، در روش پیشنهادی در این مقاله سعی شده است از ویژگی های انتخاب نشده نیز استفاده شود. روش کار به این صورت است که ابتدا یک انتخاب ویژگی اولیه اعمال شده و تعدادی ویژگی انتخاب می شود. سپس، ویژگی های انتخاب‎نشده خوشه بندی شده و هر خوشه به یک ویژگی جدید نگاشت می شود و بردار ویژگی نهایی شامل ویژگی های انتخاب‎شده و ویژگی های نگاشت‎شده از هر خوشه خواهد بود. در پژوهش حاضر، با اعمال دو روش انتخاب ویژگی اولیه و همچنین دو تابع نگاشت ویژگی های خوشه، در مجموع، چهار روش ارایه شد و نتایج با استفاده از دو پایگاه داده PU2 و PU3 تجزیه و تحلیل شدند. نتایج حاصل از تجزیه و تحلیل انجام‎شده نشان داد که روش مبتنی بر انتخاب ویژگی اولیه DF و تابع نگاشت پیشرفته، در بین کلیه روش های پیشنهادی، دارای بالاترین کارایی است. همچنین، روش‏های پیشنهادی در مقایسه با انتخاب ویژگی اولیه (بدون خوشه بندی) دارای کارایی بهتری هستند.
    کلید واژگان: انتخاب ویژگی, ایمیل, خوشه بندی, دسته بندی, کاهش ویژگی, هرزنامه
    Vahid Nosrati *, Mohsen Rahmani
    One of the ways to detect spam is classifying emails into two categories: spam and non-spam. The high efficiency of machine learning methods in various fields has developed them in text clasification problems. The mechanism of machine learning-based classifiers that classify emails according to their content is based on a set of features, where due to the high volume of emails, using an efficient feature reduction algorithm plays an important role. Unlike the previous methods which select only the superior features and ignore the rest of the unselected features, in the proposed method of this article we try to use unselected features as well. The method is that after applying an initial feature selection, the unselected features are clustered and then each cluster is mapped to a new feature and the final feature vector forms from the selected ones and those mapped from the clusters. In this study, by applying two methods of selecting the initial feature and also two mapping functions, four methods were presented and analyzed using two datasets PU2 and PU3. The results of the analysis showed that the method based on feature selection DF and the advanced mapping function has the highest efficiency among all the proposed methods. Also, the proposed methods are more efficient than base feature selection methods (without clustering).
    Keywords: Classification, Clustering, Email, Feature reduction, Feature selection, Spam
  • محمد مرادی، مجتبی مازوچی*
    هدف

    هدف پژوهش حاضر، ارایه یک روش ارزیابی داده های دولتی باز با در نظر گرفتن ابعاد و شاخص های جامع و کامل، محاسبه وزن و اهمیت هر شاخص، بررسی وضعیت کشور در این حوزه، خوشه بندی سازمان ها و ارایه یک مدل طبقه بندی به منظور پیش بینی وضعیت سازمان ها در ارایه داده های دولتی بصورت باز است.

    روش پژوهش

    این پژوهش بر مبنای هدف، از نوع کاربردی است. از مطالعات کتابخانه ای به منظور استخراج ابعاد و شاخص های ارزیابی استفاده شده است. جامعه آماری شامل کلیه مقالات مرتبط با شاخص های ارزیابی داده های دولتی باز است. از روش نمونه گیری احتمالی از نوع نمونه های تصادفی ساده استفاده شده است و 10 مقاله در این حوزه مورد بررسی قرار گرفته است. روش میدانی و استفاده از تکنیک های تصمیم گیری چندشاخصه به منظور محاسبه وزن و اهمیت هر شاخص به کار گرفته شده است. پس از استخراج داده های سازمان ها از دو سامانه کاتالوگ ملی و مجموعه داده های باز و کاربردی و سامانه انتشار و دسترسی آزاد به اطلاعات، از تکنیک های داده کاوی به منظور خوشه بندی و ایجاد یک مدل طبقه بندی استفاده شده است.

    یافته ها

    بر اساس مطالعات و بررسی مقالات، 15 شاخص ارزیابی داده های دولتی باز شامل «اصالت داده ها»، «باز بودن مجوز»، «بروز بودن»، «میزان دسترسی به داده»، «کامل بودن فراداده»، «تعداد مجموعه داده»، «باز بودن قالب»، «تبعیض آمیز نبودن»، «قابل فهم بودن»، «تعداد دسته های داده»، «رایگان بودن»، «عدم وجود داده های از دست رفته»، «امکان درخواست داده»، «تجسمی بودن» و «بازخوردپذیری» استخراج شدند. با استفاده از تکنیک تحلیل سلسله مراتبی، وزن شاخص ها محاسبه شد که پس از نرمال سازی، مجموع وزن 15 شاخص استخراج شده برابر با یک بود. شاخص های «اصالت داده ها» با وزن 0.165، «باز بودن مجوز» با وزن 0.124 و «بروز بودن» با وزن 0.109 به ترتیب رتبه های اول تا سوم را در بین 15 شاخص ارزیابی کسب کردند. همچنین بر اساس وزن شاخص های ارزیابی بدست آمده و استخراج داده های 358 سازمان مطابق با 15 شاخص ارزیابی استخراج شده از دو سامانه کاتالوگ ملی و مجموعه داده های باز و کاربردی و سامانه انتشار و دسترسی آزاد به اطلاعات به محاسبه وزن سازمان ها پرداخته شد که پس از نرمال سازی، مجموع وزن ها برابر با یک بود. «سازمان جهاد کشاورزی آذربایجان شرقی» با وزن 0.088، «مرکز آمار ایران» با وزن 0.062 و «سازمان زمین شناسی» با وزن 0.058 به ترتیب رتبه های اول تا سوم در بین 358 سازمان و موسسه دولتی بررسی شده بر اساس ترکیب شاخص ها و وزن شاخص ها بودند.

    نتیجه گیری

    نتایج این پژوهش شامل استخراج جامع شاخص های ارزیابی، محاسبه وزن و اهمیت هر شاخص، بررسی وضعیت موجود سازمان ها و موسسات دولتی داخل کشور و مدل طبقه بندی ایجاد شده می تواند به مدیران در شناخت وضع موجود و بهبود آن و در نتیجه افزایش تعامل شهروندان با داده های دولتی باز به عنوان نوعی از تعامل انسان و اطلاعات کمک نماید

    کلید واژگان: داده دولتی باز, شاخص ارزیابی, خوشه بندی, طبقه بندی
    Mohammad Moradi, Mojtaba Mazoochi*
    Purpose

    The purpose is to present an open government data evaluation method by considering comprehensive and complete dimensions and criteria - calculating the weight and importance of each criterion, examining the country in this area, clustering organizations and presenting a classification model to predict the situation.

    Methodology

    Library studies was used to extract the dimensions and criteria of evaluation. Population includes articles related to open government data evaluation criteria. Ten articles were reviewed by simple random sampling method. Multiple attribute decision making techniques was used to calculate the weight and importance of each criterion. Data mining techniques was incorporated to cluster and create a classification model.

    Findings

    By reviewing the articles 15 criteria of open government data evaluation including:  Data originality, license openness, up-to-datedness, data access rate, metadata completeness, number of data sets, format openness, non-discriminatory, comprehensible, number of data fields, free, no missing data, data request ability, visual and feedback, were extracted. Using AHP technique, the weights of the criteria were calculated, which after normalization, the total weight of the 15 extracted criteria was equal to one. "Data originality" with a weight of 0.165, " license openness " with a weight of 0.124 and " up-to-datedness" with a weight of 0.109 were ranked first to third among 15 evaluation criteria, respectively. Weight of evaluation criteria obtained and data extraction of 358 organizations in harmony with 15 evaluation criteria, the weight of organizations was calculated. The sum of the weights was equal to one. "East Azerbaijan Agricultural Jihad Organization" with a weight of 0.088, "Statistics Center of Iran" with a weight of 0.062 and "Geological Survey" with a weight of 0.058 were the first to third ranks among 358 organizations and government institutions, respectively, based on the combination of criteria and the weight of criteria.

    Conclusion

    Evaluation criteria obtained, calculating the weight and importance of each criterion, examining the current situation of government organizations and institutions in the country and the classification model created can help managers to understand the current situation and improve it and thus increase citizens' interaction with open government data as a kind of human information interaction.

    Keywords: Open Government Data, Evaluation Criteria, Clustering, Classification
  • Sedigheh Mohammadesmaeil*
    Introduction

    The aim of this study was to determine the information retrieval and information therapy behavior of Asthma and allergy specialists in the country, based on cohonen self-organized neural network model.

    Methods

    The methodology of the present study, which is an applied study in terms of purpose, has been done by descriptive-survey method using neural network technique. The tool of this research is a researcher-made questionnaire that was distributed among a sample of people in the community (149 people). After collecting the data, the neural network was selected for data clustering and using MATLAB software version 14, Asthma and allergy specialists were clustered based on the main components of the research. Then, by removing each of the main sub-components of the research, the most effective and least effective option in their information-seeking behavior in working with information resources in this specialized field was determined.

    Results

    The most effective component in clustering information barriers, was "lack of time due to workload" and the least was "distance of libraries and information centers". About information retrieval skills, the most effective component is "I know what keywords to use when searching the Internet, and I am familiar with synonyms and terms related to the information I need."

    Conclusion

    By studying the clustering of information behaviors resulting from the information needs of Asthma and allergy specialists, their needs are met, and this is one of the measures that provides the basis for effective research, appropriate findings and, consequently, informational decision-making for those involved in this field.

    Keywords: Clustering, clinical information-seeking behavior, cohenon selforganized neural network, Asthma & Allergy Research Institute (IAARI), Iran
  • شایسته شجاعی کاریزکی، سودابه شاپوری*، هاجر زارعی
    هدف

    هدف این پژوهش تجزیه و تحلیل داده های وب سایت شهرداری تهران و ارایه راهکارهای داده کاوی برای تصمیم گیری مدیران است.

    روش شناسی

    پژوهش حاضر بنیادی بوده و از لحاظ ماهیت تحلیلی است. روش گردآوری داده ها به صورت میدانی بوده و جامعه آماری از 220 دامنه شهرداری تهران انتخاب شده و برای تجزیه و تحلیل داده ها از تکنیک های داده کاوی برای کشف الگوی مناسب تصمیم گیری مدیران شهری استفاده گردید و منبع گردآوری داده ها وب سنجی و ابزار مورد استفاده گوگل آنالیتیکس است.

    یافته ها

    میزان دقت شبکه عصبی عمیق ال.اس.تی.ام برابر با 84/99%، است. صحت شبکه برابر با 90/99%، فراخوانی برابر با 63/99%، خطای برابر با 16/0%، معیار ام.اس.ای ام برابر با 003/0% است. دقت روش دی.بی.اسکن با سایر روش های پایه جهت تجزیه و تحلیل داده های وب سایت های شهرداری تهران برابر با 84/99%، روش یادگیری عمیق برابر با 25/99%، روش نزدیک ترین همسایه برابر با 81/99% و روش درخت تصمیم برابر با 8/99% است. با این تفاسیر میزان بهبود دقت روش دی.بی.اسکن در مقایسه با روش های یادگیری عمیق برابر با 59/0% است.

    نتیجه گیری

    با شبیه سازی روش دی.بی.اسکن جهت شناسایی و تجزیه و تحلیل داده های وب سایت های شهرداری تهران و ارایه راه کارهای داده کاوی برای تصمیم گیری مدیران مشاهده گردید که روش مطرح شده، پیشنهادهایی را به مدیران ارایه می کند که در جهت بهبود بازدید از سایت و عملکرد شهرداری به میزان قابل توجهی موثر است.

    کلید واژگان: شهرداری تهران, داده کاوی, شبکه عصبی عمیق ال.اس.تی.ام, خوشه بندی, دی.بی.اسکن, مدیران, وب سایت
    Shayesteh Shojaei Karizaki, Soodabeh Shapoori *, Hajar Zarei
    Purpose

    The main purpose of this article is to analyze the data of the Tehran Municipality websites and provide data mining solutions for managers' decisions.

    Methodology

    This research is fundamental and in terms of nature, it can be considered analytical. The data collection method was the field. The statistical population was selected from 220 domains of Tehran Municipality and for analysis, data mining techniques were used to discover the appropriate decision model of city managers. The source of data collection was web analytics and tools used by Google Analytics.

    Findings

    The accuracy of the LSTM deep neural network is 99.84%. Network accuracy is 99.90%, the call is equal to 99.63%, the error is equal to 0.16%, MSM standard is equal to 0.003. The accuracy of the DBScan method with other basic methods for analyzing the data of Tehran Municipality websites is 99.84%, the deep learning method is 99.25%, the nearest neighbor method is 99.81% and the decision tree method is equal to 99.8%.With these interpretations, the rate of improvement of the accuracy of the DBScan method in comparison with the deep learning methods is equal to 0.59%.

    Conclusion

    Finally, by simulating the DBScan method to identify and analyze the data of Tehran Municipality websites and provide data mining solutions for managers' decisions, it was observed that the proposed method provides suggestions to managers to improve site visits and The performance of the municipality is significantly effective.

    Keywords: Tehran municipality, Data Mining, LSTM deep nervous network, Clustering, DBScan
  • مژگان جواهری، حسین وکیلی مفرد، محمدرضا امیری*، علی اکبر خاصه
    هدف

    این پژوهش سعی دارد با استفاده از فنون تحلیل هم رخدادی واژگان، نقشه دانش در پژوهش های حوزه زنان و زایمان را با استفاده از رویکردهای تحلیل شبکه و دیداری سازی علم مورد مطالعه قرار دهد.

    روش شناسی: 

    این پژوهش کاربردی با استفاده از تحلیل هم رخدادی واژگان انجام شده است. جامعه پژوهش را تعداد 57769 رکورد تشکیل می دهد که در حوزه زنان و زایمان در بازه زمانی 2014 تا 2018 در پایگاه اطلاعاتی وب آو ساینس نمایه شده اند.

    یافته ها: 

    از نظر فراوانی، کلیدواژه «بارداری» و از نظر هم رخدادی دو کلیدواژه «بارداری-پره اکلامپسی» بیشترین فراوانی را داشته اند. یافته های مربوط به خوشه بندی سلسله مراتبی نیز منجر به شکل گیری هفت خوشه گردید. خوشه های «سزارین»، «پره اکلامپسی» و «سرطان های زنان» جزء خوشه های بالغ به حساب می آیند. خوشه «ناباروری» محوری نبوده، و جزء خوشه های در حال توسعه می باشد. خوشه های «غربالگری قبل از تولد»، «یایسگی» و «عوارض بارداری» از خوشه های نابالغ و توسعه نیافته می باشند.

    نتیجه گیری:

     بررسی ساختار دانش حوزه زنان و زایمان وضعیت پژوهش های این حوزه را مشخص نمود که می تواند نقشه راهی برای پژوهش های آتی پژوهشگران باشد. در حوزه زنان و زایمان، موضوعات پیرامون ناباروری و مشکلات روانی آن نیاز به توجه بیشتر پژوهشگران دارد.

    کلید واژگان: زنان و زایمان, علم سنجی, نقشه دانش, خوشه بندی, تحلیل شبکه
    Mozhgan Javaheri, Hossein Vakilimofrad, Mohammadreza Amiri *, AliAkbar Khasseh
    Purpose

    This study aimed to investigate the knowledge map in obstetrics and gynecology research using network analysis and visualization approaches through co-word analysis.

    Methodology

    This applied research has been conducted with a scientometrics approach using the co-word analysis. The study population consisted of 57769 records on obstetrics and gynecology indexed in the Web of Science Database during 2014-2018.

    Findings

    The keywords "Pregnancy" and "Pregnancy-Preeclampsia" have been shown to have the highest rate of frequency and co-occurrence frequency in obstetrics and gynecology research, respectively. Hierarchical clustering leads to the formation of seven clusters, Clusters of "Caesarean", "Preeclampsia" and "Women's Cancer" are considered as adult clusters and "infertility" cluster is not a central cluster, but it is developed. It was also found that the clusters of "pre-natal screening", "menopause" and "pregnancy complications" are among the emerging or declining clusters.

    Conclustion: 

    The knowledge structure of obstetrics and gynecology revealed the status of research in this field which could be a guide for future researches. In the field of obstetrics and gynecology, issues related to infertility and its psychological problems need more attention from researchers.

    Keywords: Obstetrics, Gynecology, Scientometrics, Knowledge map, Clustering, Network analysis
  • سمیه فتاحی*، محمد ربیعی

    پایگاه اطلاعاتی گنج پژوهشگاه علوم و فناوری اطلاعات با برخورداری از نزدیک به یک میلیون رکورد علمی، امکان جستجو در پایان نامه ها، نشریات علمی داخلی، مقالات، همایش ها، طرح های پژوهشی وگزارش های دولتی را فراهم می کند. روزانه تعداد زیادی از پژوهشگران نیازهای منابع علمی و پژوهشی خود را از پایگاه گنج تامین می کنند. نیازها و رفتارهای کاربران مختلف این پایگاه متنوع بوده و شناخت دقیق تر آن موجب خواهد شد تا مدیران این پایگاه بتوانند استراتژی های متناسب با هر یک از گروه های کاربران را به منظور مدیریت بهتر پایگاه و ارایه خدمات کاراتر اتخاذ نمایند. یکی از راه های شناخت کاربران، خوشه بندی آن ها و شناخت ویژگی های هر خوشه است. هدف این پژوهش، خوشه بندی کاربران براساس تحلیل رفتار جستجوی آن ها با استفاده از مدل LRFM است. در این پژوهش، داده های لاگ جستجوی کاربران پایگاه گنج به مدت سه ماه جمع آوری و مورد استفاده قرار گرفت. با استفاده از داده های لاگ رفتار جستجوی کاربران، شاخص های مدل LRFM، محاسبه شد و سپس الگوریتم K-means بر روی آن ها اعمال شد. تعداد خوشه بهینه بر اساس معیارهای مختلف محاسبه شد. نتایج بدست آمده از خوشه بندی براساس ماتریس ارزش مشتری، کاربران را در چهار گروه بهره مند، مشکوک، نامطمین و متناوب قرار می دهد و بر اساس ماتریس وفاداری، کاربران در چهار گروه وفادار، بالقوه، نامطمین و تازه وارده ارزیابی می شوند.

    کلید واژگان: خوشهبندی, مدل LRFM, ماتریس ارزش مشتری مارکوس, تحلیل رفتار کاربران, سامانه گنج
    Somayeh Fatahi*, Mohammad Rabiei

    Iran scientific information database (Ganj) which includes almost one million scientific records provides the search opportunity in dissertations, domestic scientific journals, articles, conferences, research projects, and governmental reports. A large number of researchers meet the needs of their scientific and research resources from the Ganj database daily. Users’ needs and behaviors are variant and understanding it helps system administrators to use different strategies to manage the better databases and provide efficient services to users. One way to understand users’ needs is to cluster them based on their behavior and identify the features of each cluster. This study aims to cluster the users based on the analysis of their search behavior using the LRFM model. In this study, the search log data of Ganj users were collected for three months. In this research, the LRFM attributes were calculated, and then the K-means algorithm was applied to them. The optimal number of clusters was calculated based on different criteria. Based on customer value matrix, the results of customer clustering users in four groups are efficient, suspicious, unreliable, and intermittent and base on customer loyalty Marcus users categorizes in loyal, potential, insecure and newcomers.

    Keywords: Clustering, LRFM model, Marcus customer value matrix, User behavior analysis, Ganj Database
  • سید احسان ملیحی*، بنفشه خراسانچی

    چگونگی اجرای فرایندهای کسب‌وکار در بسیاری از سازمان‌ها، به‌خصوص سازمان‌‌های دولتی، از طریق مستنداتی در قالب رویه‌ها، دستورالعمل‌ها و بخش‌نامه‌ها تبیین می‌شود. علی‌رغم اهمیت کیفیت مستندات در عملکرد فرایندهای کسب‌وکار، مدل‌های معدودی برای تعیین سطح مطلوب شاخص‌های کیفیت اطلاعات مستندات در اختیار طراحان این مستندات قرار داشته و ادبیات موضوع بیشتر بر تبیین شاخص‌های کیفیت اطلاعات تمرکز دارد. در پاسخ به این نیاز در نظام اداری دولتی، در این مقاله مدلی به‌منظور تعیین سطح کیفیت مطلوب شاخص‌های کیفیت اطلاعات مستندات در فرایندهای کسب‌وکار متناسب با ویژگی‎های فرایندی ارایه شده است. این مدل، بر اساس داده‌های جمع‌آوری‌شده از 51 فرایند جاری در سازمان‌های دولتی کشور که دارای مستندات با کیفیت مناسب بوده‌اند، ارایه شده است. ابتدا با استفاده از روش ناپارامتری ضریب هم‌بستگی اسپیرمن الگوی وابستگی بین «شاخص‌های کیفیت اطلاعات مستندات» با «ویژگی‌های فرایندی» بررسی شد. با توجه مشاهده نشدن وابستگی معنادار در این مرحله، داده‌های جمع‌آوری‌شده با استفاده از خوشه‌بندی به پنج گروه همگن فرایندی تقسیم شدند. سپس، با شناسایی الگوی موجود در «شاخص‌های کیفیت اطلاعات مستندات» در هر گروه فرایندی، مدل رابطه سطح کیفیت مطلوب شاخص‌های کیفیت اطلاعات مستندات در فرایندهای کسب‌وکار متناسب با ویژگی‎ های فرایندی اریه شده است. نتایج پژوهش نشان می‌دهند، در فرایندهای از نوع پاسخ‌گویی، سازگاری می‌بایست بالاترین سطح را داشته باشد. در فرایندهای صدور مجوز، مستندات باید از از دیدگاه ثبات، سازگاری، وضوح، اختصار و کاربردی بودن، در سطح بالا طراحی و تدوین شوند. در فرایندهای مالی، غیر از شاخص وضوح و اختصار، لازم است باقی شاخص‌های کیفیت مستندات در سطح بالا در نظر گرفته شوند. در فرایندهای از نوع کنترل، باید هم‌سو با افزایش تعداد فعالیت‌های فرایند، بیشتر شاخص‌های کیفیت مستندات افزایش یابند و شاخص سازگاری در مستندات، همواره در تمام انواع فرایندهای شناسایی‌شده، در سطح بالا باشد.

    کلید واژگان: فرایندهای کسب وکار, کیفیت اطلاعات, مستندات فرایند, خوشه بندی, قواعد کسب وکار
    Seyed Ehsan Malihi *, Banafsheh Khorasanchi

    How to implement business process in many organizations, especially government agencies, is described through documentation in the form of announcements, guidelines and circulars. Increasing the quality of process documentation makes it possible to avoid individual intentions, confusion and deliberate or unwanted inappropriate errors, and thus result in a better business process performance. Despite the importance of document quality in business process performance, very few models are available to determine the desirable level of documentation quality indicators and literature focuses more on defining information quality indicators. In response to this need in the public administration, in this paper, a model is proposed to determine the level of desirable quality of information indicators of documentation in business processes in accordance with process characteristics. This model is based on data collected from fifty-one processes in government agencies that have appropriate qualitative documentation. Collected data was clustered into five groups of homogeneous processes using one-time clustering based on “process characteristics” and one-time based on “process characteristics” and “information quality indicators of each process's documentation” together. Then the pattern in the “information quality indicators of process's documentation” is identified in each group.

    Keywords: Business Process, Quality of information, Process documentation, Clustering
  • مسعود قیومی*

    واژه کوچکترین واحد زبان است که دارای «صورت» و «معنا» است. واژه ممکن است بیش از یک معنا داشته باشد که باتوجه به کاربرد واژه در بافت زبانی، معنی دقیق آن مشخص می شود. گردآوری تمام معانی یک واژه به صورت دستی کار بسیار پرزحمت و زمان بر است. افزون بر آن، ممکن است معانی واژه با گذشت زمان دچار تغییر شود به این صورت که معانی موجود واژه کم کاربرد شود یا معانی جدید به آن اضافه شود. یکی از روش هایی که می توان برای تعیین معنای واژه استفاده کرد به کارگیری روش های رایانشی برای تعیین معنای واژه باتوجه به بافت زبانی است.در پژوهش حاضر تلاش می شود با ارائه یک الگوریتم محاسباتی، معانی واژه های هم‎نگاره فارسی باتوجه‏به بافت زبانی به صورت خودکار و بدون نیاز به ناظر انسانی تعیین شود. برای رسیدن به این هدف، از روش تعبیه معنای واژه در یک مدل فضای برداری استفاده می گردد. برای ساخت بردار واژه، از یک رویکرد مبتنی بر شبکه عصبی استفاده می شود تا اطلاعات بافت جمله به خوبی در بردار واژه گنجانده شود. در گام بعدی مدل پیشنهادی، برای ساخت بردار متن و تعیین معنای واژه، دو حالت جمله بنیان و بافت بنیان معرفی می شود. در حالت جمله بنیان، تمام واژه های جمله ای که واژه هدف در آن وجود دارد در ساخت بردار نقش دارد؛ ولی در حالت بافت بنیان فقط تعداد محدودی از واژه های اطراف واژه هدف برای ساخت بردار در نظر گرفته می شود. دو نوع شیوه ارزیابی درونی و برونی برای ارزیابی کارایی الگوریتم خوشه بندی به کار گرفته می شود. معیار ارزیابی درونی که محاسبه مقدار تراکم داده در هر خوشه است برای دو حالت جمله بنیان و بافت بنیان محاسبه می گردد. ارزیابی برونی به داده استاندارد طلایی نیاز دارد که برای این هدف، یک مجموعه داده شامل 20 واژه هدف فارسی و تعداد 100 جمله نشانه گذاری شده برای هر یک از این واژه ها تهیه شده است. براساس نتایج به دست آمده از ارزیابی درونی، تراکم خوشه ای حالت جمله بنیان با تفاوت معناداری بالاتر از حالت بافت بنیان است. با درنظرگرفتن دو شاخص V و F در ارزیابی برونی، مدل بافت بنیان به‎صورت معنادار کارایی بالاتری را نسبت به جمله ‏بنیان و مدل‏های پایه به دست آورده است.

    کلید واژگان: تعبیه معنایی واژه, خوشه بندی, یادگیری ماشین بی نظارت, فضای برداری, پردازش زبان طبیعی, بازنمایی معنایی واژه, زبان فارسی
    Masood Ghayoomi*

    A word is the smallest unit in the language that has 'form' and 'meaning'. The word might have more than one meaning in which its exact meaning is determined according to the context it is appeared. Collecting all words’ senses manually is a tedious and time consuming task. Moreover, it is possible that the words’ meanings change over time such that the meaning of an existing word will become unusable or a new meaning will be added to the word. Computational methods is one of the approaches used for identifying words’ senses with respect to the linguistic contexts.In this paper, we put an effort to propose an algorithm to identify senses of Persian words automatically without a human supervision. To reach this goal, we utilize the word embedding method in a vector space model. To build words’ vectors, we use an algorithm based on the neural network approach to gather the context information of the words in the vectors. In the proposed model of this research, the divisive clustering algorithm as one of hierarchical clustering algorithms fits with the requirements of our research question. In the proposed model, two modes, namely the Sentence-based and the Context-based, are introduced to identify words’ senses. In the Sentence-based mode, all of the words in a sentence that contain the target word are involved to build the sentence vector; while in the Context-based mode, only a limited number of surrounding words of the target word is involved to build the sentence vector. Two evaluation methods, namely internal and external, are required to evaluate the performance of the clustering algorithm. The silhouette score for each cluster is computed as the internal evaluation metric for both modes of the proposed model. The external evaluation requires a gold standard data for which a data set containing 20 ambiguous words and 100 sentences for each target word is developed.According to the obtained results of the internal evaluation, the Sentence-based mode has higher density of clusters than the Context-based mode, and the difference between them is statistically significant. According to the V- and F-measure evaluation metrics in the external evaluation, the Context-based mode has obtained higher performance against the baselines with statistically significant difference.

    Keywords: word embedding, clustering, unsupervised machine learning, vector space, natural language processing, word sense representation, Persian
  • عصمت مومنی*، سعید اسدی، سیروان باباآغایی
    این پژوهش با هدف کشف ساختار درونی مطالعات روانشناسی مثبت صورت گرفته است. رویکرد پژوهش پیش رو، در بخش ادبیات نظری و پیشینه های پژوهش، مطالعه ی کتابخانهای و از لحاظ ماهیت، کاربردی و در تجزیه و تحلیل یافته ها، تحلیلی است و از روش همرخدادی واژگان و نهایتا خوشهبندی متن که از روش های متنکاویاند برای کشف ساختار درونی و روابط موضوعی مطالعات روان شناسی مثبت استفاده شده است. جامعه این پژوهش، مقالات حوزه روان شناسی مثبت نمایه شده در پایگاه اسکوپوس است. تعداد کل این مقالات که محدود به بازه زمانی 2000 تا 2012 است برابر 1086 مقاله می باشد. پس از استخراج واژه های مرتبط موضوعی از ناحیه عنوان، چکیده و کلیدواژه های همه مقالات و اعمال روش های متن کاوی و ریشه یابی واژه ها، یک ماتریس هم رخدادی با ابعاد 43 × 43 ایجاد شد. برای تفسیر روابط موضوع های اصلی و جزئی ماتریس مذکور استاندارد شده و براساس شباهت وارد نرم افزار ایکس.ال.استد شد. مفاهیم در 7 خوشه بهینه قرارگرفت. برای گام های بعدی تجزیه و تحلیل داده ها از نرم افزار متلب و از نرم افزار پاژک برای نمایش شبکه هم رخدادی واژگان استفاده شده است. نتایج این پژوهش نشان می دهد که خوشه 2 با 10 واژه و خوشه 4 با 9 واژه، به عنوان خوشه های اصلی شناخته می شوند. خوشه 5 بیشترین تعداد موضوع های اصلی از بین مفاهیم منتخب را داراست و خوشه های 2 و 1 کمترین فاصله را دارند، که نشان می دهد ارتباط بین موضوع های اصلی و جزئی در این خوشه ها بیشتر است.
    کلید واژگان: ساختار درونی علم, روانشناسی مثبت, متن کاوی, خوشه بندی, نمایه سالتون
    Esmat Momeni *, Saeid Asadihsjh, Sirvan Baba Aghaii
    This study has been done to explore the Intellectual Structure of the Positive Psychology studies. Library Studding is the approach of present research, in theoretical literature, and application in terms of the nature, and analytical in analysis of findings, and method and finally clustering have used, those are text mining techniques to explore the Intellectual Structure and relationships the topics of positive psychology studies. The populations studied in this research are the 1086 papers that are published in positive psychology topics around the world, since 2000 to 2012, and are indexed in the Scopus database. After extraction of related terms from the titles, abstracts and keywords of articles and applying text mining techniques and words stemming, a co-word matrix was created with dimensions of 43 × 43. For the interpretation of relationship major and minor categories, this matrix was standard and based on the similarity was interred to XL.STAT Software. The terms were optimized in 7 clusters. For the next steps of analysis has been used from MATHLAB software, and for display coword network from Pajak software. The results of this research show that Cluster 2 by 10, and Cluster 4 by 9 terms, are known as the principal clusters. The Cluster 5 has the most of selective terms from the major categories and Cluster 2 & 1 have minimum distance that it shows the relationship between the major and minor topics in these clusters is higher.
    Keywords: Intellectual structure of science, positive psychology, Text Mining, Clustering, Salton index
  • سید محمد نوروزیان امیری، علی خلخالی*، زهره شکیبایی
    هدف

    پژوهش حاضر به بررسی و نمایان کردن ساختار علمی و نقشه دانشی پژوهش های «حکمت» پرداخته است.

    روش شناسی

    این پژوهش از نوع علم سنجی بوده که به روش کتابخانه ای انجام شده و برای تحلیل داده ها از روش تحلیل هم واژگانی و تحلیل شبکه استفاده شده است. منبع گردآوری اطلاعات و همچنین مبنای انجام پژوهش، اطلاعات موجود در پایگاه الکترونیکی اسکاپوس بوده است. در این پژوهش اطلاعات و کلیدواژه های 2295 سند علمی از پایگاه علمی اسکاپوس استخراج و پس از پالایش و استانداردسازی توسط متخصصان، به تحلیل هم واژگانی آن ها پرداخته شد. برای هریک از حوزه های موضوعی و کلیدواژه ها، نمودار ستونی شکل گرفت و سپس گراف های همسایگی و هم اشتراکی به کمک ماتریس هم رخدادی در نرم افزارهای R و Excel انجام و دندروگرام سلسله مراتبی آن ترسیم شد.

    یافته ها

    یافته های حاصل از ترسیم نقشه هم واژگانی مقالات مستخرج نشان داد که حوزه های علوم اجتماعی، علوم کامپیوتر، کسب وکار، مدیریت و حسابداری، اقتصاد، اقتصادسنجی و مالی، علوم محیطی، علوم مهندسی، ریاضی و علوم تصمیم گیری، بیشترین کار پژوهشی را در دنیا در حوزه حکمت انجام داده اند و بیشترین کلیدواژه های همکار با حکمت، «دانش»، «اخلاق»، «آموزش»، «رهبری»، «تکنولوژی»، «شخصیت» و «کسب وکار» بوده است. همچنین برای تدوین نقشه دانش مربوط به پژوهش های حکمت، سازه های زیربنایی «رهبری حکیمانه»، «زیست فرهنگ جهانی»، «آموزش حکمت عملی» و «خلاقیت حکمت بنیان» پیشنهادشده است.

    نتیجه گیری

    نتایج نشان دادند که مفهوم حکمت با توجه به ظرفیت های گران سنگ آن، به ویژه در ایران، آن گونه که باید در نسبت با نیازهای اساسی جامعه موردتوجه قرار نگرفته و نیازمند توجهی مضاعف به مفهوم حکمت در ساحت نظر و عمل است.

    کلید واژگان: حکمت, علم سنجی, تحلیل شبکه ای, خوشه بندی, هم واژگانی, نقشه دانش
    Seyed Mohammad Norozian Amiri, Ali Khalkhali *, Zohreh Shakibaei

    urpose: This research has investigated and demonstrated the scientific structure and knowledge map of the researches of wisdom.

    Methodology

    the study used scientometrics approach. The statistical population of this research consisted from all scientific documents registered at the Scopus. In this research, scientific documents were extracted from Scopus and their co-word analysis was done after standardization. For each subject area and the keywords, a column diagram was formed, and then neighboring and co-neighboring graphs were performed.

    Findings

    The findings showed that the fields of social sciences, computer science, business, management and accounting, economics, econometrics and finance, environmental sciences, engineering sciences, mathematics and decision-making sciences have done the most research work related to the study of wisdom. The most common words were wisdom, knowledge, ethics, education, leadership, technology, personality, and business. It is also proposed to develop the knowledge map of wisdom research, the main structures of "wise leadership," "living with universal culture," "teaching Practical wisdom" and "wisdom-based creativity ".

    Conclustion

    The results showed that the concept of wisdom with regard to large capacities, especially in Iran, was not considered for the basic needs of society.

    Keywords: Wisdom, Scientometrics, Network analysis, Clustering, Knowledge map
  • عادل سلیمانی نژاد*، مژده سلاجقه، الهام طیبی
    با رشد روز افزون منابع و مقالات در سطح وب، بکارگیری روش هایی سریع و ارزان برای دسترسی به متون مورد نظر از میان مجموعه وسیع این مستندات، اهمیت بیشتری می یابد. برای رسیدن به این هدف، به کارگیری تکنیک های متن کاوی، گامی ارزشمند در جهت کشف دانش از مستندات متنی به شمار می رود. هدف اصلی این پژوهش خوشه بندی پایگاه پژوهشگاه علوم و فناوری اطلاعات ایران(ایرانداک) براساس فنون متن کاوی می باشد. تا مقالات موجود به چند خوشه تقسیم شوند بطوریکه مقالات خوشه های مختلف حداکثر تفاوت ممکن و مقالات موجود در هر خوشه بیشترین شباهت را با هم داشته باشند. مقالات حوزه های مرتبط با فن آوری اطلاعات انتخاب شدند. بدین منظور ابتدا تمام کلید واژه های حوزه های فن آوری اطلاعات بر اساس دفعات بسامد آنها در مقالات پایگاه انتخاب و سپس مقالات هر کلیدواژه از پایگاه ایران داک استخراج گردید. سپس با استفاده از نرم افزار notepad++ مجموعه داده موردنظر ایجاد گردید. در این پژوهش برای انجام خوشه بندی از الگوریتم k_means و از معیار تابع فاصله اقلیدسی[1] برای اندازه گیری تشابه خوشه ها استفاده گردید. سپس نتایج حاصل از خوشه بندی مورد تجزیه و تحلیل قرار گرفت تا میزان شباهت و الگوی مناسب میان مقالات کشف شد. الگوی مورد نظر نشان داد که بیشترین میزان مشابهت میان مقالات دو خوشه داده کاوی و شبکه عصبی با فاصله اقلیدسی 365/1 وجود دارد و کمترین میزان شباهت میان مقالات دو خوشه بهینه سازی و پردازش تصویر با فاصله 387/1 گزارش شده است. دانش حاصل از پژوهش، خوشه بندی مقالات مرتبط با بیشترین وکمترین میزان مشابهت با یکدیگر، یافتن الگوی جدید جهت دسترسی سریع و آسان به مقالات مشابه و کشف ارتباط پنهان میان موضوعات مختلف می باشند.این دانش به پژوهشگران کمک می کند تا بتوانند مقالات موضوعی مرتبط با تخصص خود و مشابه با موضوع مورد مطالعه را به نحوی مطلوب تر شناسایی کنند. [1] -Euclidean distance
    کلید واژگان: متن کاوی, خوشه بندی, الگوریتم k-means, معیار تابع فاصله اقلیدسی, پایگاه ایران داک
    Adel Soleimani Nezhad*, Mozhdeh Salajegheh, Elham Tayyebi Nia
    With the increasing growth of Web-based resources and articles, the use of quick and inexpensive ways to access the texts is important from the vast collection of these documents. The main objective of this research is to cluster the base of Iranian Research Institute for information Science and Technology (IranDoc) based on text mining techniques. So that the articles are ivided into several clusters so that the articles of the different clusters have the maximum possible difference and the articles in each cluster have the most similarity. Articles on information technology related fields were selected. For this purpose, first all the keywords of information technology fields were selected based on their frequencies in base articles and then the articles of each keyword were extracted from the Iran Doc database. Then, using the notepad ++ software, the dataset was created. In this research, clustering of k_means algorithm and Euclidean distance function criterion were used to measure the similarity of clusters. Then the results of the clustering were analyzed to find the similarity and pattern among the papers. The pattern showed that the greatest similarity is found between articles in the two data mining clusters and the neural network with an Euclidean distance of 1.365, and the least similarity between the two cluster articles is optimization and image processing with a distance of 1.387. Research knowledge, clustering of articles related to the highest and the least degree of similarity with each other, finding a new pattern for quick and easy access to similar articles, and discovering hidden relationships among different subjects. This knowledge helps researchers to access topic-related articles related to specialization Identify themselves and the subject of the study in a more desirable way.
    Keywords: text mining, clustering, k-means algorithm, Euclidean distance function criterion, Iran doc database
نکته
  • نتایج بر اساس تاریخ انتشار مرتب شده‌اند.
  • کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شده‌است. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
  • در صورتی که می‌خواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.
درخواست پشتیبانی - گزارش اشکال