طراحی و تولید مجموعه دادگان اخبار فارسی IHU-PersianNewsDataSet-Javadzade-et-al دانشگاه جامع امام حسین (ع)
اگر چه کمبود داده برای تحقیقات در حوزه پردازش زبان طبیعی یکی از چالشها مهم است لیکن این چالش در خصوص زبان فارسی حادتر جلوه میکند، برای همین یافتن مجموعه دادگان باکیفیت و جامع در زبان فارسی کار دشواری است. علاوه بر آن دارا بودن برخی مشکلات از قبیل قابلیت دستهبندی و عدم رعایت استاندارد ذخیرهسازی از نمونه مشکلات مجموعه دادگان موجود میباشد که هرکدام از این موارد میتواند بر میزان یادگیری مدل، نتایج و میزان خطا در آزمایشها تاثیر بگذارد. به همین منظور تمامی این دلایل سبب شد که به دنبال جمعآوری و تهیه مجموعه دادگانی باشیم که تمام اینگونه مشکلات را پوشش و میزان خطا هنگام بهکارگیری دادهها در مدلهای مختلف را کاهش دهد. ما در این پژوهش خزشگری را در جهت جمعآوری دادگان متنی طراحی و استفاده نمودهایم که با خزش بر روی یکی از پایگاه های خبری توانسته است مجموعهای از دادگان را در پنج ستون عنوان، خلاصه، متن، برچسب و تاریخ انتشار خبر جمعآوری نماید. داده های متنی به کمک یکی از کتابخانههای مخصوص زبان فارسی در زبان برنامهنویسی پایتون، نرمالسازی شده و در دو فرمت csv و xml ذخیرهسازی شده و در اختیار پژوهشگران همکار قرار گرفته است. برچسبها در این مجموعه داده شامل 13 برچسب اصلی ورزشی، هنر و رسانه، فرهنگ، علم و پیشرفت، سیاسی، سیاست خارجی، زندگی، خانواده، جامعه، تعلیم و تربیت، بینالملل، اقتصادی و استانها میباشد. از جمله کارهایی که بر روی این مجموعه داده قابل انجام است میتوان به دستهبندی متن، استخراج متن، خلاصهسازی متن و تشخیص عنوان اشاره کرد. همچنین از ویژگیهای بارز این مجموعه داده میتوان به جامعیت، تعداد دادههای مناسب، وجود ویژگیهای مفید، دارا بودن ویژگیهای منحصربهفرد و همچنین ذخیرهسازی در قالب استاندارد اشاره کرد. این مجموعه داده محصول گروه پردازش زبان دانشگاه جامع امام حسین (ع) میباشد و از طریق لینک مذکور در پانویس صفحه بعد و با رعایت حق کپیرایت قابل دریافت و استفاده میباشد.
پرداخت حق اشتراک به معنای پذیرش "شرایط خدمات" پایگاه مگیران از سوی شماست.
اگر عضو مگیران هستید:
اگر مقاله ای از شما در مگیران نمایه شده، برای استفاده از اعتبار اهدایی سامانه نویسندگان با ایمیل منتشرشده ثبت نام کنید. ثبت نام
- حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران میشود.
- پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانههای چاپی و دیجیتال را به کاربر نمیدهد.