درون سازی معنایی واژه ها با استفاده از BERT روی وب فارسی

نویسنده:

شکوفه بستان ، علی محمد زارع بیدکی ، محمدرضا پژوهان

پیام:

نوع مقاله:

مقاله پژوهشی/اصیل (دارای رتبه معتبر)

چکیده:

استفاده از بافت و ترتیب واژگان در یک عبارت از مواردی است که می تواند به فهم بهتر آن عبارت منجر گردد. در سال های اخیر، مدل های زبانی از پیش آموزش یافته، پیشرفت شگرفی در زمینه پردازش زبان طبیعی به وجود آوده اند. در این راستا مدل های مبتنی بر ترنسفورمر مانند الگوریتم BERT از محبوبیت فزاینده ای برخوردار گردیده اند. این مسیله در زبان فارسی کمتر مورد بررسی قرار گرفته و به عنوان یک چالش در حوزه وب فارسی مطرح می گردد. بنابراین در این مقاله، درون سازی واژگان فارسی با استفاده از این الگوریتم مورد بررسی قرار می گیرد که به درک معنایی هر واژه بر مبنای بافت متن می پردازد. در رویکرد پیشنهادی، مدل ایجادشده بر روی مجموعه دادگان وب فارسی مورد پیش آموزش قرار می گیرد و پس از طی دو مرحله تنظیم دقیق با معماری های متفاوت، مدل نهایی تولید می شود. در نهایت ویژگی های مدل استخراج می گردد و در رتبه بندی اسناد وب فارسی مورد ارزیابی قرار می گیرد. نتایج حاصل از این مدل، بهبود خوبی نسبت به سایر مدل های مورد بررسی دارد و دقت را نسبت به مدل برت چندزبانه تا حداقل یک درصد افزایش می دهد. همچنین اعمال فرایند تنظیم دقیق با ساختار پیشنهادی بر روی سایر مدل های موجود توانسته به بهبود مدل و دقت درون سازی بعد از هر فرایند تنظیم دقیق منجر گردد. نتایج رتبه بندی بر مبنای مدل های نهایی، بیانگر بهبود دقت رتبه بندی وب فارسی نسبت به مدل های پایه مورد ارزیابی با افزایش حدود 5 درصدی دقت در بهترین حالت است.

کلیدواژگان:

بردار معنایی ، درون سازی واژه ، رتبه بندی ، یادگیری عمیق

زبان:

فارسی

انتشار در:

نشریه مهندسی برق و مهندسی کامپیوتر ایران، سال بیست و یکم شماره 2 (پیاپی 79، تابستان 1402)

صفحات:

89 تا 100

لینک کوتاه:

https://www.magiran.com/p2634268

دانلود و مطالعه متن این مقاله با یکی از روشهای زیر امکان پذیر است:

اشتراک شخصی

با ثبت ایمیلتان و پرداخت حق اشتراک سالانه به مبلغ 1,390,000ريال، بلافاصله متن این مقاله را دریافت کنید.اعتبار دانلود 70 مقاله نیز در حساب کاربری شما لحاظ خواهد شد.

پرداخت حق اشتراک به معنای پذیرش "شرایط خدمات" پایگاه مگیران از سوی شماست.

اگر مقاله ای از شما در مگیران نمایه شده، برای استفاده از اعتبار اهدایی سامانه نویسندگان با ایمیل منتشرشده ثبت نام کنید. ثبت نام

اشتراک سازمانی

به کتابخانه دانشگاه یا محل کار خود پیشنهاد کنید تا اشتراک سازمانی این پایگاه را برای دسترسی نامحدود همه کاربران به متن مطالب تهیه نمایند!

اطلاعات بیشتر ثبت نام با ایمیل دانشگاهی/سازمانی

توجه!

حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران می‌شود.
پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانه‌های چاپی و دیجیتال را به کاربر نمی‌دهد.

In order to view content subscription is required

Personal subscription

Subscribe magiran.com for 70 € euros via PayPal and download 70 articles during a year.

Organization subscription

Please contact us to subscribe your university or library for unlimited access!

More information

علمی مصوب