ارائه روش ترکیبی مبتنی بر یادگیری ماشین برای دسته بندی خودکار متون اینترنتی

نویسنده:

محمد رستمی * ، حسین ابراهیم پور کومله

پیام:

نوع مقاله:

مقاله پژوهشی/اصیل (دارای رتبه معتبر)

چکیده:

با افزایش حجم اطلاعات در دسترس بر روی اینترنت و پایگاه های داده، نیاز به ابزارهایی که بتوانند در جستجو، پالایش و مدیریت منابع کمک کنند، ضروری است. برای رسیدن به این منظور در این پژوهش، از دسته بندی متون با استفاده از الگوریتم های یادگیری ماشین استفاده شده است. دسته بندی یا رده بندی متون، به اختصاص یک سند متنی به یک طبقه مناسب از پیش تعیین شده گفته می شود. چالش اصلی دسته بندی متون، بزرگی فضای ویژگی ها در این گونه مسایل است. در بسیاری از الگوریتم های موجود چنین فضای بزرگی منجر به کند شدن بسیار زیاد دسته بند و ناکارآمدی آن خواهد شد. علاوه بر این ویژگی هایی وجود دارند که نه تنها باعث دسته بندی بهتر متون نمی شوند بلکه دقت دسته بندی را نیز کاهش می دهند. در این پژوهش جهت دست یافتن به کارایی مناسب ابتدا آماده سازی متون یا مجموعه داده انجام شده است. برای این منظور ابتدا اسناد متنی را به شکل یکسان (حروف کوچک) تبدیل کرده و سپس نتایج در دو حالت، بدون حذف کلمات متوقف کننده و با حذف کلمات متوقف کننده به دست آمده است. این سیستم شامل دو مرحله، پردازش متن و دسته بندی متن می باشد. در مرحله اول برای استخراج ویژگی ها از معیارهای شاخص گذاری مختلفی نظیر bigram، trigram و quadgram استفاده شده، سپس در مرحله دوم برای آموزش سیستم از الگوریتم یادگیری ماشین W-SMO استفاده شده است. به منظور ارزیابی و مقایسه نتایج دو معیار دقت و بازخوانی،Macro-F1 و Micro-F1 برای روش های مختلف شاخص گذاری محاسبه شده اند. نتایج آزمایش ها که بر روی 7676 سند متنی استاندارد خبرگزاری رویترز انجام گرفت، نشان داد که روش پیشنهادی بهترین کارایی را نسبت به الگوریتم های W-j48، Naïve Bayes، K-NNو W-LADTREE دارد. بررسی نتایج نشان می دهد که روش پیشنهادی باعث بهبود دقت میکرو تا 95.17% در دسته بندی متون می گردد.

کلیدواژگان:

دسته بندی متون ، یادگیری ماشین ، N-gram ، W-SMO

زبان:

فارسی

انتشار در:

نشریه علوم رایانشی، سال چهارم شماره 4 (پیاپی 15، زمستان 1398)

در صفحه:

لینک کوتاه:

magiran.com/p2107953

دانلود و مطالعه متن این مقاله با یکی از روشهای زیر امکان پذیر است:

اشتراک شخصی

با عضویت و پرداخت آنلاین حق اشتراک یک‌ساله به مبلغ 1,390,000ريال می‌توانید 70 عنوان مطلب دانلود کنید!

اشتراک سازمانی

به کتابخانه دانشگاه یا محل کار خود پیشنهاد کنید تا اشتراک سازمانی این پایگاه را برای دسترسی نامحدود همه کاربران به متن مطالب تهیه نمایند!

اطلاعات بیشتر

توجه!

حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران می‌شود.
پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانه‌های چاپی و دیجیتال را به کاربر نمی‌دهد.

In order to view content subscription is required

Personal subscription

Subscribe magiran.com for 70 € euros via PayPal and download 70 articles during a year.

Organization subscription

Please contact us to subscribe your university or library for unlimited access!

More information

علمی مصوب

نشریه علوم رایانشی

Computing Science Journal

فصلنامه فنی مهندسی

آخرین شماره | آرشیو

ISSN: 2538-161X

صاحب امتیاز:

انجمن انفورماتیک ایران

مدیر مسئول:

مهندس ابراهیم نقیب زاده مشایخ

سردبیر:

دکتر عباس نوذری دالینی

تلفن نشریه: ۰۲۱-۶۶۴۱۲۹۷۶

اطلاعات بیشتر نشریه

درباره نشریه پیام به نشریه سایت اختصاصی نشریه پذیرش الکترونیکی مقاله

به جمع مشترکان مگیران بپیوندید!

ارائه روش ترکیبی مبتنی بر یادگیری ماشین برای دسته بندی خودکار متون اینترنتی

محمد رستمی * ، حسین ابراهیم پور کومله

دسته بندی متون ، یادگیری ماشین ، N-gram ، W-SMO

نشریه علوم رایانشی

Computing Science Journal