بهبود دقت واژگان کلیدی استخراج شده از متن فارسی با استفاده از الگوریتم Word2Vec
واژگان کلیدی لغات مهمی از سند هستند که بیان گر توصیفی از متن هستند و نقش بسیار مهمی در فهم دقیق و سریع از محتوا دارند. شناسایی واژگان کلیدی از متن با روش های معمول کاری زمان بر و پرهزینه است. در این مقاله ابتدا با استفاده از شبکه عصبی پیشرو و از طریق الگوریتم Word2Vec ماتریس همبستگی واژگان را به ازای یک سند محاسبه و سپس با استفاده از ماتریس همبستگی و یک فهرست اولیه محدود از واژگان کلیدی، نزدیک ترین واژگان را از نظر شباهت در قالب فهرست نزدیک ترین همسایگی ها استخراج می کنیم. فهرست به دست آمده را به صورت نزولی مرتب و از ابتدای فهرست، درصدهای مختلفی از واژگان را انتخاب و به ازای هر درصد، ده مرتبه فرایند آموزش شبکه عصبی و ساخت ماتریس همبستگی و استخراج فهرست نزدیک ترین همسایگی ها را تکرار و در نهایت میانگین دقت، فراخوانی و معیارF را محاسبه می کنیم. این کار را تا جایی ادامه می دهیم که به بهترین نتایج در ارزیابی دست یابیم؛ نتایج نشان می دهند که به ازای انتخاب حداکثر چهل درصد واژگان از ابتدای فهرست نزدیک ترین همسایگی ها، نتایج مورد قبولی به دست می آید. الگوریتم بر روی پیکره ای با هشتصد خبر که به صورت دستی واژگان کلیدی آن ها را استخراج کرده ایم، آزمایش شده است و نتایج آزمایش ها نشان می دهد که دقت روش پیشنهادی 78 درصد خواهد بود.
- حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران میشود.
- پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانههای چاپی و دیجیتال را به کاربر نمیدهد.