ارائه روشی برای استخراج خودکار عبارات کلیدی از اخبار وب پارسی
نویسنده:
چکیده:
دادگان متنی و از آن جمله متون خبری از حوزه های مهم بازیابی اطلاعات به شمار می رود و استخراج اطلاعات از آن ها ضروری است. این امر با استخراج عبارات کلیدی اسناد که دربردارنده محتوای اصلی متن است، صورت می گیرد. در این پژوهش، راهکاری سه مرحله ای جهت استخراج عبارات کلیدی از صفحات خبری وب پارسی، با ترکیب شیوه های زبان شناختی، یادگیری با ناظر، ابتکاری و تعداد نسبتا جامعی از شیوه های آماری ارائه می شود. همچنین، یک مجموعه داده خبری و لیستی از عبارات توقفی خبری ایجاد می گردد. در پژوهش حاضر، با توجه به ویژگی های دادگان، از دسته بند جنگل تصادفی استفاده و عملکرد خوب آن به کمک نتایج آزمایش ها ثابت می شود. به علاوه، استفاده از امتیاز تعلق گرفته به عبارات توسط دسته بند، جهت ایجاد لیستی مرتب از عبارات برای دسته بندی، به جای استفاده ازخروجی دسته بند، پیشنهاد می شود. نتایج، نشان دهنده دقت قابل قبول سیستم ارائه شده است.
کلیدواژگان:
زبان:
فارسی
صفحات:
857 تا 866
لینک کوتاه:
magiran.com/p1734396
دانلود و مطالعه متن این مقاله با یکی از روشهای زیر امکان پذیر است:
اشتراک شخصی
با عضویت و پرداخت آنلاین حق اشتراک یکساله به مبلغ 1,390,000ريال میتوانید 70 عنوان مطلب دانلود کنید!
اشتراک سازمانی
به کتابخانه دانشگاه یا محل کار خود پیشنهاد کنید تا اشتراک سازمانی این پایگاه را برای دسترسی نامحدود همه کاربران به متن مطالب تهیه نمایند!
توجه!
- حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران میشود.
- پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانههای چاپی و دیجیتال را به کاربر نمیدهد.
دسترسی سراسری کاربران دانشگاه پیام نور!
اعضای هیئت علمی و دانشجویان دانشگاه پیام نور در سراسر کشور، در صورت ثبت نام با ایمیل دانشگاهی، تا پایان فروردین ماه 1403 به مقالات سایت دسترسی خواهند داشت!
In order to view content subscription is required
Personal subscription
Subscribe magiran.com for 70 € euros via PayPal and download 70 articles during a year.
Organization subscription
Please contact us to subscribe your university or library for unlimited access!