ارائه روش ترکیبی مبتنی بر یادگیری ماشین برای دسته بندی خودکار متون اینترنتی

پیام:
نوع مقاله:
مقاله پژوهشی/اصیل (دارای رتبه معتبر)
چکیده:

با افزایش حجم اطلاعات در دسترس بر روی اینترنت و پایگاه های داده، نیاز به ابزارهایی که بتوانند در جستجو، پالایش و مدیریت منابع کمک کنند، ضروری است. برای رسیدن به این منظور در این پژوهش، از دسته بندی متون با استفاده از الگوریتم های یادگیری ماشین استفاده شده است. دسته بندی یا رده بندی متون، به اختصاص یک سند متنی به یک طبقه مناسب از پیش تعیین شده گفته می شود. چالش اصلی دسته بندی متون، بزرگی فضای ویژگی ها در این گونه مسایل است. در بسیاری از الگوریتم های موجود چنین فضای بزرگی منجر به کند شدن بسیار زیاد دسته بند و ناکارآمدی آن خواهد شد. علاوه بر این ویژگی هایی وجود دارند که نه تنها باعث دسته بندی بهتر متون نمی شوند بلکه دقت دسته بندی را نیز کاهش می دهند. در این پژوهش جهت دست یافتن به کارایی مناسب ابتدا آماده سازی متون یا مجموعه داده انجام شده است. برای این منظور ابتدا اسناد متنی را به شکل یکسان (حروف کوچک) تبدیل کرده و سپس نتایج در دو حالت، بدون حذف کلمات متوقف کننده و با حذف کلمات متوقف کننده به دست آمده است. این سیستم شامل دو مرحله، پردازش متن و دسته بندی متن می باشد. در مرحله اول برای استخراج ویژگی ها از معیارهای شاخص گذاری مختلفی نظیر bigram، trigram و quadgram استفاده شده، سپس در مرحله دوم برای آموزش سیستم از الگوریتم یادگیری ماشین W-SMO استفاده شده است. به منظور ارزیابی و مقایسه نتایج دو معیار دقت و بازخوانی،Macro-F1 و Micro-F1 برای روش های مختلف شاخص گذاری محاسبه شده اند. نتایج آزمایش ها که بر روی 7676 سند متنی استاندارد خبرگزاری رویترز انجام گرفت، نشان داد که روش پیشنهادی بهترین کارایی را نسبت به الگوریتم های W-j48، Naïve Bayes، K-NNو W-LADTREE دارد. بررسی نتایج نشان می دهد که روش پیشنهادی باعث بهبود دقت میکرو تا 95.17% در دسته بندی متون می گردد.

زبان:
فارسی
در صفحه:
5
لینک کوتاه:
magiran.com/p2107953 
دانلود و مطالعه متن این مقاله با یکی از روشهای زیر امکان پذیر است:
اشتراک شخصی
با عضویت و پرداخت آنلاین حق اشتراک یک‌ساله به مبلغ 1,390,000ريال می‌توانید 70 عنوان مطلب دانلود کنید!
اشتراک سازمانی
به کتابخانه دانشگاه یا محل کار خود پیشنهاد کنید تا اشتراک سازمانی این پایگاه را برای دسترسی نامحدود همه کاربران به متن مطالب تهیه نمایند!
توجه!
  • حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران می‌شود.
  • پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانه‌های چاپی و دیجیتال را به کاربر نمی‌دهد.
In order to view content subscription is required

Personal subscription
Subscribe magiran.com for 70 € euros via PayPal and download 70 articles during a year.
Organization subscription
Please contact us to subscribe your university or library for unlimited access!