فهرست مطالب شکوفه بستان

انتخاب همه

بهبود رتبه بندی با استفاده از BERT

شکوفه بستان *، علی محمد زارع بیدکی، محمدرضا پژوهان

نشریه مهندسی برق و مهندسی کامپیوتر ایران، سال بیست و پنجم شماره 1 (پیاپی 85، بهار 1403)، صص 21 -29

رتبه بندی کارآمد اسناد در عصر اطلاعات امروز، نقش مهمی در سیستم های بازیابی اطلاعات ایفا می کند. این مقاله یک رویکرد جدید برای رتبه بندی اسناد با استفاده از مدل های درون سازی با تمرکز بر مدل زبانی BERT برای بهبود نتایج رتبه بندی ارائه می کند. رویکرد پیشنهادی از روش های درون سازی واژگان برای به تصویرکشیدن نمایش های معنایی پرس وجوهای کاربر و محتوای سند استفاده می کند. با تبدیل داده های متنی به بردارهای معنایی، ارتباط و شباهت بین پرس و جوها و اسناد تحت روابط رتبه بندی پیشنهادی با هزینه کمتر مورد ارزیابی قرار می گیرد. روابط رتبه بندی پیشنهادی عوامل مختلفی را برای بهبود دقت در نظر می گیرند که این عوامل شامل بردارهای درون سازی واژگان، مکان واژگان کلیدی و تاثیر واژگان باارزش در رتبه بندی بر مبنای بردارهای معنایی است. آزمایش ها و تحلیل های مقایسه ای برای ارزیابی اثربخشی روابط پیشنهادی اعمال گردیده است. نتایج تجربی، اثربخشی رویکرد پیشنهادی را با دستیابی به دقت بالاتر در مقایسه با روش های رتبه بندی رایج نشان می دهند. این نتایج بیانگر آن مسئله است که استفاده از مدل های درون سازی و ترکیب آن در روابط رتبه بندی پیشنهادی به طور قابل توجهی دقت رتبه بندی را تا 87/0 در بهترین حالت بهبود می بخشد. این بررسی به بهبود رتبه بندی اسناد کمک می کند و پتانسیل مدل درون سازی BERT را در بهبود عملکرد رتبه بندی نشان می دهد.

کلید واژگان: بردار معنایی, درون سازی واژه, رتبه بندی, یادگیری عمیق}

چکیده مشاهده متن مقاله پژوهشی/اصیل زبان: فارسی

Ranking Improvement Using BERT

Shekoofe Bostan*, Ali-Mohammad Zare-Bidoki, Mohammadreza Pajoohan

Iranian Journal of Electrical and Computer Engineering, Volume:25 Issue: 1, 2024, PP 21 -29

In today's information age, efficient document ranking plays a crucial role in information retrieval systems. This article proposes a new approach to document ranking using embedding models, with a focus on the BERT language model to improve ranking results. The proposed approach uses vocabulary embedding methods to represent the semantic representations of user queries and document content. By converting textual data into semantic vectors, the relationships and similarities between queries and documents are evaluated under the proposed ranking relationships with lower cost. The proposed ranking relationships consider various factors to improve accuracy, including vocabulary embedding vectors, keyword location, and the impact of valuable words on ranking based on semantic vectors. Comparative experiments and analyses were conducted to evaluate the effectiveness of the proposed relationships. The empirical results demonstrate the effectiveness of the proposed approach in achieving higher accuracy compared to common ranking methods. These results indicate that the use of embedding models and their combination in proposed ranking relationships significantly improves ranking accuracy up to 0.87 in the best case. This study helps improve document ranking and demonstrates the potential of the BERT embedding model in improving ranking performance.

Keywords: Word Embedding, BERT, Semantic Vector, Query, Ranking}

Abstract View Paper Research/Original Article Original: Persian
درون سازی معنایی واژه ها با استفاده از BERT روی وب فارسی

شکوفه بستان، علی محمد زارع بیدکی، محمدرضا پژوهان

نشریه مهندسی برق و مهندسی کامپیوتر ایران، سال بیست و یکم شماره 2 (پیاپی 79، تابستان 1402)، صص 89 -100

استفاده از بافت و ترتیب واژگان در یک عبارت از مواردی است که می تواند به فهم بهتر آن عبارت منجر گردد. در سال های اخیر، مدل های زبانی از پیش آموزش یافته، پیشرفت شگرفی در زمینه پردازش زبان طبیعی به وجود آوده اند. در این راستا مدل های مبتنی بر ترنسفورمر مانند الگوریتم BERT از محبوبیت فزاینده ای برخوردار گردیده اند. این مسیله در زبان فارسی کمتر مورد بررسی قرار گرفته و به عنوان یک چالش در حوزه وب فارسی مطرح می گردد. بنابراین در این مقاله، درون سازی واژگان فارسی با استفاده از این الگوریتم مورد بررسی قرار می گیرد که به درک معنایی هر واژه بر مبنای بافت متن می پردازد. در رویکرد پیشنهادی، مدل ایجادشده بر روی مجموعه دادگان وب فارسی مورد پیش آموزش قرار می گیرد و پس از طی دو مرحله تنظیم دقیق با معماری های متفاوت، مدل نهایی تولید می شود. در نهایت ویژگی های مدل استخراج می گردد و در رتبه بندی اسناد وب فارسی مورد ارزیابی قرار می گیرد. نتایج حاصل از این مدل، بهبود خوبی نسبت به سایر مدل های مورد بررسی دارد و دقت را نسبت به مدل برت چندزبانه تا حداقل یک درصد افزایش می دهد. همچنین اعمال فرایند تنظیم دقیق با ساختار پیشنهادی بر روی سایر مدل های موجود توانسته به بهبود مدل و دقت درون سازی بعد از هر فرایند تنظیم دقیق منجر گردد. نتایج رتبه بندی بر مبنای مدل های نهایی، بیانگر بهبود دقت رتبه بندی وب فارسی نسبت به مدل های پایه مورد ارزیابی با افزایش حدود 5 درصدی دقت در بهترین حالت است.

کلید واژگان: بردار معنایی, درون سازی واژه, رتبه بندی, یادگیری عمیق}

چکیده مشاهده متن مقاله پژوهشی/اصیل زبان: فارسی

Semantic Word Embedding Using BERT on the Persian Web

shekoofe bostan, Ali-Mohammad Zare-Bidoki, mohamadreza pajohan

Iranian Journal of Electrical and Computer Engineering, Volume:21 Issue: 2, 2023, PP 89 -100

Using the context and order of words in sentence can lead to its better understanding and comprehension. Pre-trained language models have recently achieved great success in natural language processing. Among these models, The BERT algorithm has been increasingly popular. This problem has not been investigated in Persian language and considered as a challenge in Persian web domain. In this article, the embedding of Persian words forming a sentence was investigated using the BERT algorithm. In the proposed approach, a model was trained based on the Persian web dataset, and the final model was produced with two stages of fine-tuning the model with different architectures. Finally, the features of the model were extracted and evaluated in document ranking. The results obtained from this model are improved compared to results obtained from other investigated models in terms of accuracy compared to the multilingual BERT model by at least one percent. Also, applying the fine-tuning process with our proposed structure on other existing models has resulted in the improvement of the model and embedding accuracy after each fine-tuning process. This process will improve result in around 5% accuracy of the Persian web ranking.

Keywords: : Semantic vector, word embedding, ranking, deep learning}

Abstract View Paper Research/Original Article Original: Persian
ارائه مدلی بهینه جهت یافتن کوتاهترین مسیرهای تخمینی با پوشش کامل گراف

شکوفه بستان، علی محمد زارع بیدکی*

مجله رایانش نرم و فناوری اطلاعات، سال نهم شماره 3 (پاییز 1399)، صص 244 -255

با توجه به افزایش حجم اطلاعات در شبکه های اجتماعی و فضای وب، نیاز به الگوریتم های سریع برای آنالیز محتوای گراف بیش از پیش احساس می شود. یکی از مهمترین عملیات ها در گراف، یافتن کوتاهترین مسیر بین دو گره است که می تواند کاربردهای مختلفی در مسیریابی و ارتباطات داشته باشد. الگوریتم های کلاسیک برای حل این مسئله بسیار کند و استفاده از آن ها عملا غیرممکن است، بنابراین می توان ازالگوریتم های تخمینی استفاده کرد که اغلب مبتنی بر لندمارک هستند. در این مقاله چهار مدل تخمینی مبتنی بر لندمارک معرفی می گردد که با استفاده از روش های ابتکاری، گره های لندمارک به صورت برون خط انتخاب می گردند. همچنین از یک الگوریتم ابتکاری برای خوشه بندی گره ها استفاده شده و سپس کوتاهترین مسیرها در هر خوشه محاسبه می گردد، همچنین از داده ساختار هش استفاده می شود تا دسترسی به گره ها به صورت مستقیم صورت پذیرد و در زمان اجرای پرس وجو به صورت برخط، با سرعت و دقت بالا مورد استفاده قرار گیرد. روش های پیشنهادی با هدف پوشش کل گراف می تواند خطای قابل محاسبه را به 0/0016 کاهش دهد.

کلید واژگان: کوتاهترین مسیر, لندمارک, خطای تقریبی, گراف, خوشه}

چکیده مشاهده متن مقاله پژوهشی/اصیل زبان: فارسی

Provide an Optimal Model for Finding the Shortest Estimated Paths with Full Graph Coverage

Shekoofe Bostan, Ali Mohammad Zare Bidoki *

Journal of Soft Computing and Information Technology, Volume:9 Issue: 3, 2020, PP 244 -255

Due to the increasing volume of information in social networks and the web, the need for efficient and fast algorithms for analyzing graph content is felt more than ever. One of the most important operations in a graph is to find the shortest path between two nodes, which can have different applications in routing and communication. Classic algorithms are very slow and computationally expensive, nearly impossible, so algorithms using approximation approaches are often used based on Landmark nodes. In this study, four landmark models are introduced. Using innovative methods, landmark nodes are selected for each nodes cluster, the shortest paths are pre-computed and the results are Hashing for direct access. Hence, a fast, efficient and precise result retrieval is possible when an online query is executed. The proposed methods cover the entire graph can reduce the error rate by 0.0016.

Keywords: shortest path, Landmark, Approximate Error, Graph, Cluster}

Abstract View Paper Research/Original Article Original: Persian

بدانید!

در این صفحه نام مورد نظر در اسامی نویسندگان مقالات جستجو می‌شود. ممکن است نتایج شامل مطالب نویسندگان هم نام و حتی در رشته‌های مختلف باشد.
همه مقالات ترجمه فارسی یا انگلیسی ندارند پس ممکن است مقالاتی باشند که نام نویسنده مورد نظر شما به صورت معادل فارسی یا انگلیسی آن درج شده باشد. در صفحه جستجوی پیشرفته می‌توانید همزمان نام فارسی و انگلیسی نویسنده را درج نمایید.
در صورتی که می‌خواهید جستجو را با شرایط متفاوت تکرار کنید به صفحه جستجوی پیشرفته مطالب نشریات مراجعه کنید.

به جمع مشترکان مگیران بپیوندید!

فهرست مطالب شکوفه بستان