انتخاب ویژگی برای شناسایی نویسنده در متون کوتاه برخط فارسی

نویسنده:

سمیه عارفی ، محمداحسان بصیری* ، امید روزمند

پیام:

نوع مقاله:

مقاله پژوهشی/اصیل (دارای رتبه معتبر)

چکیده:

رشد فزاینده‏ی استفاده از رسانه‌های اجتماعی و ارتباطات برخط به‌منظور بیان نظرات، تبادل عقاید و همچنین گسترش استفاده‏ی کاربران فارسی زبان از این ابزارها باعث افزایش متون فارسی در وب شده است. این رشد چشمگیر در کنار سوءاستفاده‏های ناشی از ناشناس بودن نویسنده‏ی نوشته ‏ها نیاز به سامانه‏ ی خودکار شناسایی نویسنده در این زبان را بیش از پیش آشکار می‌سازد. هدف از این پژوهش، بررسی ویژگی‌های موثر در شناسایی نویسندگان نظرات فارسی تولید شده توسط خریداران گوشی و همچنین ارزیابی روش‌های نظارتی و غیرنظارتی می‌باشد. عواملی که در این پژوهش بررسی می‏شود شامل ویژگی‌های لغوی، نگارشی، معنایی، ساختاری، دستوری، مختص متن و مختص شبکه‌های اجتماعی است. پس از استخراج ویژگی‌های مذکور، انتخاب ویژگی‌های برتر توسط چهار الگوریتم همبستگی ویژگی، نسبت بهره، OneR و تحلیل اجزای اصلی آزمایش می‏شود. در ادامه از الگوریتم‏های K-means، EM و خوشه ‏بندی مبتنی بر چگالی برای خوشه‌بندی و الگوریتم‏ های شبکه‏ ی بیز، جنگل تصادفی و Bagging برای دسته‏بندی استفاده خواهد شد. ارزیابی الگوریتم‌های فوق بر روی نظرات فارسی مربوط به خریداران گوشی‌های سامسونگ نشان می‏دهد که بهترین تشخیص در بین الگوریتم‏های خوشه‏بندی با دقت 16/59% مربوط به الگوریتم EM روی 15 ویژگی‌ برتر انتخابی توسطOneR است درحالی‌که الگوریتم جنگل تصادفی به‌همراه نسبت بهره برای 90 ویژگی با دقت 57/79% بهترین کارایی را در بین الگوریتم‏های دسته‏بندی دارد. همچنین مقایسه‌ی ویژگی‌ها نشان داد که ویژگی‌های نگارشی بیشترین تاثیر را در شناسایی نویسنده‏ی متون کوتاه داشته و پس از آن‌ به‌ترتیب ویژگی‌های لغوی ، مختص متن، مختص شبکه‌های اجتماعی، ساختاری، دستوری و معنایی قرار گرفتند.

کلیدواژگان:

تحلیل متن ، تحلیل سبک ، استخراج ویژگی ، انتخاب ویژگی و شناسایی نویسنده

زبان:

فارسی

انتشار در:

نشریه فناوری اطلاعات و ارتباطات ایران، سال سیزدهم شماره 47 (بهار و تابستان 1400)

صفحات:

35 تا 56

لینک کوتاه:

magiran.com/p2325787

دانلود و مطالعه متن این مقاله با یکی از روشهای زیر امکان پذیر است:

اشتراک شخصی

با عضویت و پرداخت آنلاین حق اشتراک یک‌ساله به مبلغ 1,390,000ريال می‌توانید 70 عنوان مطلب دانلود کنید!

اشتراک سازمانی

به کتابخانه دانشگاه یا محل کار خود پیشنهاد کنید تا اشتراک سازمانی این پایگاه را برای دسترسی نامحدود همه کاربران به متن مطالب تهیه نمایند!

اطلاعات بیشتر

توجه!

حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران می‌شود.
پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانه‌های چاپی و دیجیتال را به کاربر نمی‌دهد.

In order to view content subscription is required

Personal subscription

Subscribe magiran.com for 70 € euros via PayPal and download 70 articles during a year.

Organization subscription

Please contact us to subscribe your university or library for unlimited access!

More information

علمی مصوب

نشریه فناوری اطلاعات و ارتباطات ایران

Journal of Information and Communication Technology

دوفصلنامه فنی مهندسی

آخرین شماره | آرشیو

صاحب امتیاز:

انجمن فناوری اطلاعات و ارتباطات ایران

مدیر مسئول:

دکتر مسعود شفیعی

سردبیر:

دکتر محمدشهرام معین

تلفن نشریه: ۰۲۱-۶۶۴۸۵۸۵۶

اطلاعات بیشتر نشریه

درباره نشریه پیام به نشریه سایت اختصاصی نشریه پذیرش الکترونیکی مقاله راهنمای نویسندگان

به جمع مشترکان مگیران بپیوندید!

انتخاب ویژگی برای شناسایی نویسنده در متون کوتاه برخط فارسی

سمیه عارفی ، محمداحسان بصیری* ، امید روزمند

تحلیل متن ، تحلیل سبک ، استخراج ویژگی ، انتخاب ویژگی و شناسایی نویسنده

نشریه فناوری اطلاعات و ارتباطات ایران

Journal of Information and Communication Technology