فهرست مطالب نویسنده:

mohammad reza hasani ahnagar

انتخاب همه

بهبود کارآمدی سامانه های پرسش و پاسخ دامنه باز برای پاسخ دهی به پرسش های چندگامی در زبان فارسی

آرش غفوری، مبینا تاجی، حسن نادری*، بهروز مینایی بیدگلی، محمدرضا حسنی آهنگر

مجله رایانش نرم و فناوری اطلاعات، سال سیزدهم شماره 1 (بهار 1403)، صص 1 -10

امروزه یکی از محبوب ترین و چالش برانگیزترین وظایف در پردازش زبان طبیعی پاسخ دهی به پرسش های پیچیده کاربران است. سامانه های پرسش و پاسخ به عنوان نسل جدید موتورهای جستجو پرسش های کاربران را به زبان طبیعی و بدون محدودیت معنایی دریافت می کنند و پاسخ را به صورت دقیق بر می گردانند. در سال های اخیر اکثر پژوهش های انجام شده در حوزه سامانه های پرسش و پاسخ بر روی زبان انگلیسی متمرکز بوده و در زبان های با منابع محدود از جمله فارسی تلاش چندانی صورت نگرفته است. این امر سبب می شود این سامانه ها در پشتیبانی از زبان های با منابع محدود همچون فارسی نتوانند کارآمدی خوبی را در مواجه با یک پرسش از خود ارائه دهند. در همین راستا در این مقاله جهت افزایش کارآمدی سامانه های پرسش و پاسخ در زبان فارسی نسبت به تولید و توسعه یک مجموعه داده برای پاسخ دهی به پرسش های پیچیده چندگامی یا به اختصار چندگامی اقدام گردید. پرسش های چندگامی، نیازمند حداقل دو گام استدلال برای دستیابی به پاسخ هستند. این مجموعه داده یا PersianMHQA به عنوان اولین مجموعه داده پرسش و پاسخ دامنه باز شامل 7000 پرسش چندگامی بوده و در سازوکاری مشخص با استفاده از متن دانش نامه ویکی پدیا فارسی تولید شده است. به منظور ارزیابی و محک زنی این مجموعه داده روی جدیدترین مدل های زبانی پیش آموزش دیده که از زبان فارسی پشیبانی می کنند تنظیم دقیق شده است. بهترین نتایج دست آمده مبتنی بر دو معیار اف وان و تطابق دقیق روی این مجموعه داده به ترتیب 92/75 و 73/71 است. نتایج بدست آمده نشانگر این حقیقت است که این مجموعه داده شروعی قدرتمند برای بهبود پرسش و پاسخ پیچیده چندگامی برای سامانه های پرسش و پاسخ فارسی است.

کلید واژگان: پرسش و پاسخ دامنه باز, پرسش چندگامی, مجموعه داده, زبان فارسی, دانش نامه ویکی پدیا فارسی

چکیده مشاهده متن مقاله پژوهشی/اصیل زبان: فارسی

Improving the Effectiveness of Open-Domain Question-Answering Systems for Answering Multi-hop Questions in Persian Language

Aarsh Ghafouri, Mobina Taji, Hassan Naderi *, Behrouz Minaei Bidgoli, Mohammad Reza Hasani Ahnagar

Journal of Soft Computing and Information Technology, Volume:13 Issue: 1, 2024, PP 1 -10

Today, one of the most popular and challenging tasks in natural language processing is answering complex user questions. Question-answering systems, as a new generation of search engines, receive user questions in natural language without semantic limitations and provide precise answers. In recent years, most research in the field of question-answering systems has been focused on the English language, and not much effort has been made in languages with limited resources, such as Persian. This limitation prevents these systems from efficiently handling questions in languages like Persian.In this regard, this article aims to enhance the efficiency of question-answering systems in the Persian language by creating a dataset for answering complex multi-turn questions. Multi-hop questions, require at least two steps of reasoning to reach an answer. This dataset, called PersianMHQA, is the first open-domain question-answering dataset in Persian and includes 7,000 multi-hop questions. It was generated using the Persian Wikipedia as a knowledge source. To evaluate and benchmark this dataset, it has been fine-tuned on the latest pre-trained language models that support the Persian language.The best results obtained based on F1 score and exact match on this dataset are 75.92% and 71.73%, respectively. These results indicate that this dataset is a powerful starting point for improving multi-hop complex question-answering for Persian language systems.In this regard, this article aims to enhance the efficiency of question-answering systems in the Persian language by creating a dataset for answering complex multi-turn questions. Multi-hop questions, require at least two steps of reasoning to reach an answer. This dataset, called PersianMHQA, is the first open-domain question-answering dataset in Persian and includes 7,000 multi-hop questions. It was generated using the Persian Wikipedia as a knowledge source. To evaluate and benchmark this dataset, it has been fine-tuned on the latest pre-trained language models that support the Persian language.The best results obtained based on F1 score and exact match on this dataset are 75.92% and 71.73%, respectively. These results indicate that this dataset is a powerful starting point for improving multi-hop complex question-answering for Persian language systems.

Keywords: Open Domain Question Answering, Multi-Hop Question, Dataset, Persian Languages, Persian Wikipedia Encyclopedia

Abstract View Paper Research/Original Article Original: Persian

بدانید!

در این صفحه نام مورد نظر در اسامی نویسندگان مقالات جستجو می‌شود. ممکن است نتایج شامل مطالب نویسندگان هم نام و حتی در رشته‌های مختلف باشد.
همه مقالات ترجمه فارسی یا انگلیسی ندارند پس ممکن است مقالاتی باشند که نام نویسنده مورد نظر شما به صورت معادل فارسی یا انگلیسی آن درج شده باشد. در صفحه جستجوی پیشرفته می‌توانید همزمان نام فارسی و انگلیسی نویسنده را درج نمایید.
در صورتی که می‌خواهید جستجو را با شرایط متفاوت تکرار کنید به صفحه جستجوی پیشرفته مطالب نشریات مراجعه کنید.

به جمع مشترکان مگیران بپیوندید!

mohammad reza hasani ahnagar