درون سازی معنایی واژه ها با استفاده از BERT روی وب فارسی
استفاده از بافت و ترتیب واژگان در یک عبارت از مواردی است که می تواند به فهم بهتر آن عبارت منجر گردد. در سال های اخیر، مدل های زبانی از پیش آموزش یافته، پیشرفت شگرفی در زمینه پردازش زبان طبیعی به وجود آوده اند. در این راستا مدل های مبتنی بر ترنسفورمر مانند الگوریتم BERT از محبوبیت فزاینده ای برخوردار گردیده اند. این مسیله در زبان فارسی کمتر مورد بررسی قرار گرفته و به عنوان یک چالش در حوزه وب فارسی مطرح می گردد. بنابراین در این مقاله، درون سازی واژگان فارسی با استفاده از این الگوریتم مورد بررسی قرار می گیرد که به درک معنایی هر واژه بر مبنای بافت متن می پردازد. در رویکرد پیشنهادی، مدل ایجادشده بر روی مجموعه دادگان وب فارسی مورد پیش آموزش قرار می گیرد و پس از طی دو مرحله تنظیم دقیق با معماری های متفاوت، مدل نهایی تولید می شود. در نهایت ویژگی های مدل استخراج می گردد و در رتبه بندی اسناد وب فارسی مورد ارزیابی قرار می گیرد. نتایج حاصل از این مدل، بهبود خوبی نسبت به سایر مدل های مورد بررسی دارد و دقت را نسبت به مدل برت چندزبانه تا حداقل یک درصد افزایش می دهد. همچنین اعمال فرایند تنظیم دقیق با ساختار پیشنهادی بر روی سایر مدل های موجود توانسته به بهبود مدل و دقت درون سازی بعد از هر فرایند تنظیم دقیق منجر گردد. نتایج رتبه بندی بر مبنای مدل های نهایی، بیانگر بهبود دقت رتبه بندی وب فارسی نسبت به مدل های پایه مورد ارزیابی با افزایش حدود 5 درصدی دقت در بهترین حالت است.
پرداخت حق اشتراک به معنای پذیرش "شرایط خدمات" پایگاه مگیران از سوی شماست.
اگر عضو مگیران هستید:
اگر مقاله ای از شما در مگیران نمایه شده، برای استفاده از اعتبار اهدایی سامانه نویسندگان با ایمیل منتشرشده ثبت نام کنید. ثبت نام
- حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران میشود.
- پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانههای چاپی و دیجیتال را به کاربر نمیدهد.