انتخاب ویژگی برای شناسایی نویسنده در متون کوتاه برخط فارسی
رشد فزایندهی استفاده از رسانههای اجتماعی و ارتباطات برخط بهمنظور بیان نظرات، تبادل عقاید و همچنین گسترش استفادهی کاربران فارسی زبان از این ابزارها باعث افزایش متون فارسی در وب شده است. این رشد چشمگیر در کنار سوءاستفادههای ناشی از ناشناس بودن نویسندهی نوشته ها نیاز به سامانه ی خودکار شناسایی نویسنده در این زبان را بیش از پیش آشکار میسازد. هدف از این پژوهش، بررسی ویژگیهای موثر در شناسایی نویسندگان نظرات فارسی تولید شده توسط خریداران گوشی و همچنین ارزیابی روشهای نظارتی و غیرنظارتی میباشد. عواملی که در این پژوهش بررسی میشود شامل ویژگیهای لغوی، نگارشی، معنایی، ساختاری، دستوری، مختص متن و مختص شبکههای اجتماعی است. پس از استخراج ویژگیهای مذکور، انتخاب ویژگیهای برتر توسط چهار الگوریتم همبستگی ویژگی، نسبت بهره، OneR و تحلیل اجزای اصلی آزمایش میشود. در ادامه از الگوریتمهای K-means، EM و خوشه بندی مبتنی بر چگالی برای خوشهبندی و الگوریتم های شبکه ی بیز، جنگل تصادفی و Bagging برای دستهبندی استفاده خواهد شد. ارزیابی الگوریتمهای فوق بر روی نظرات فارسی مربوط به خریداران گوشیهای سامسونگ نشان میدهد که بهترین تشخیص در بین الگوریتمهای خوشهبندی با دقت 16/59% مربوط به الگوریتم EM روی 15 ویژگی برتر انتخابی توسطOneR است درحالیکه الگوریتم جنگل تصادفی بههمراه نسبت بهره برای 90 ویژگی با دقت 57/79% بهترین کارایی را در بین الگوریتمهای دستهبندی دارد. همچنین مقایسهی ویژگیها نشان داد که ویژگیهای نگارشی بیشترین تاثیر را در شناسایی نویسندهی متون کوتاه داشته و پس از آن بهترتیب ویژگیهای لغوی ، مختص متن، مختص شبکههای اجتماعی، ساختاری، دستوری و معنایی قرار گرفتند.
- حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران میشود.
- پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانههای چاپی و دیجیتال را به کاربر نمیدهد.