به جمع مشترکان مگیران بپیوندید!

تنها با پرداخت 70 هزارتومان حق اشتراک سالانه به متن مقالات دسترسی داشته باشید و 100 مقاله را بدون هزینه دیگری دریافت کنید.

برای پرداخت حق اشتراک اگر عضو هستید وارد شوید در غیر این صورت حساب کاربری جدید ایجاد کنید

عضویت

جستجوی مقالات مرتبط با کلیدواژه "persian news dataset" در نشریات گروه "برق"

تکرار جستجوی کلیدواژه «persian news dataset» در نشریات گروه «فنی و مهندسی»
جستجوی persian news dataset در مقالات مجلات علمی
  • حمیدرضا لطفی *، محمدعلی جوادزاده

    با توجه به افزایش روزافزون داده، حجم داده های متنی نیز با سرعت بالایی در حال رشد است. استخراج اطلاعات از این داده های متنی یکی از ضرورت های دنیای مبتنی بر اطلاعات امروزی است. دسته بندی متن یکی روش های دست یابی به اطلاعات این داده های حجیم است. در این تحقیق با استفاده از یک مجموعه داده استاندارد اخبار فارسی که شامل پنج ویژگی در بیش از 86هزار خبر بود به بررسی عملکرد الگوریتم رگرسیون لجستیک در دسته بندی متن فارسی و همچنین مقایسه آن با سایر کارهای مشابه پرداختیم. با توجه مراحل ساخت یک دسته بند متن،روش مورد استفاده در بخش بردارسازی را توضیح داده و همچنین اهمیت بخش پیش پردازش و مخصوصا روش مورد استفاده در برچسب گذاری و تبدیل برچسب های فرعی به اصلی را بیان کردیم. در ارزیابی نهایی، با استفاده از تغییر پارامترهای الگوریتم و همچنین اصلاح برچسب های اخبار، به نتیجه مطلوب 95% در معیار دقت برای دسته بندی متن مجموعه داده اخبار فارسی رسیدیم.

    کلید واژگان: دسته بندی متن, رگرسیون لجستیک, پیش پردازش متن, مجموعه داده اخبار فارسی
    Hamidreza Lotfi, Mohammadali Javadzadeh

    Due to the ever-increasing amount of data, the amount of textual data is also growing at a high speed. Extracting information from these textual data is one of the necessities of today's information-based world. Text classification is one of the methods of obtaining information from this massive data. In this research, using a standard dataset of Persian news, which included five features in more than 86 thousand news, we investigated the performance of the logistic regression algorithm in the classification of Persian text and also compared it with other similar works. Considering the steps of creating a text category, we have explained the method used in the vectorization section and also stated the importance of the pre-processing section, especially the method used in tagging and converting sub-tags to main ones. In the final evaluation, by changing the algorithm's parameters and modifying the news tags, we reached the desired result of 95% in the accuracy criterion for the text classification of the Persian news dataset.

    Keywords: Text classification, Logistic regression, Text preprocessing, Persian news dataset
  • حسین حسینی *، محمد قلعه نوئی، محمدمهدی مختاری، محمدعلی جوادزاده

    اگر چه کمبود داده برای تحقیقات در حوزه پردازش زبان طبیعی یکی از چالشها مهم است لیکن این چالش در خصوص زبان فارسی حادتر جلوه می‌کند، برای همین یافتن مجموعه دادگان باکیفیت و جامع در زبان فارسی کار دشواری است. علاوه بر آن دارا بودن برخی مشکلات از قبیل قابلیت دسته‌بندی و عدم رعایت استاندارد ذخیره‌سازی از نمونه مشکلات مجموعه دادگان موجود می‌باشد که هر‌کدام از این موارد می‌تواند بر میزان یادگیری مدل، نتایج و میزان خطا در آزمایش‌ها تاثیر بگذارد. به همین منظور تمامی این دلایل سبب شد که به دنبال جمع‌آوری و تهیه مجموعه دادگانی باشیم که تمام این‌گونه مشکلات را پوشش و میزان خطا هنگام به‌کارگیری داده‌ها در مدل‌های مختلف را کاهش دهد. ما در این پژوهش خزشگری را در جهت جمعآوری دادگان متنی طراحی و استفاده نمودهایم که با خزش بر روی یکی از پایگاه های خبری توانسته است مجموعهای از دادگان را در پنج ستون عنوان، خلاصه، متن، برچسب و تاریخ انتشار خبر جمعآوری نماید. داده های متنی به کمک یکی از کتابخانه‌های مخصوص زبان فارسی در زبان برنامه‌نویسی پایتون، نرمال‌سازی شده و در دو فرمت csv و xml ذخیره‌سازی شده و در اختیار پژوهشگران همکار قرار گرفته است. برچسب‌ها در این مجموعه داده شامل 13 برچسب اصلی ورزشی، هنر و رسانه، فرهنگ، علم و پیشرفت، سیاسی، سیاست خارجی، زندگی، خانواده، جامعه، تعلیم و تربیت، بین‌الملل، اقتصادی و استان‌ها میباشد. از جمله کارهایی که بر روی این مجموعه داده قابل انجام است می‌توان به دسته‌بندی متن، استخراج متن، خلاصه‌سازی متن و تشخیص عنوان اشاره کرد. همچنین از ویژگی‌های بارز این مجموعه داده می‌توان به جامعیت، تعداد داده‌های مناسب، وجود ویژگی‌های مفید، دارا بودن ویژگی‌های منحصربه‌فرد و همچنین ذخیره‌سازی در قالب استاندارد اشاره کرد. این مجموعه داده محصول گروه پردازش زبان دانشگاه جامع امام حسین (ع) می‌باشد و از طریق لینک مذکور در پانویس صفحه بعد و با رعایت حق کپی‌رایت قابل دریافت و استفاده می‌باشد.

    کلید واژگان: مجموعه داده, اخبار فارسی, پردازش زبان طبیعی, مجموعه داده اخبار فارسی, یادگیری ماشین, دسته بندی متن, استخراج متن, خلاصه سازی متن, تشخیص عنوان
    Hossein Hosseini, Mohammad Ghalenoei, MohammadMahdi Mokhtari, MohammadAliJavadzade

    Although the lack of data is one of the important challenges for research in the field of natural language processing, but this challenge is more acute in the Persian language, so finding a high-quality and comprehensive dataset in the Persian language is a difficult task. In addition to that, having some problems such as the ability to categorize and not complying with the storage standard are among the problems of the existing datasets, each of which can affect the learning rate of the model, the results, and the error rate in the experiments. For this reason, all these reasons made us seek to collect and prepare a dataset that covers all such problems and reduces the amount of error when using data in different models. In this research, we have designed and used a crawler to collect textual data. By crawling on one of the news bases, it has been able to collect data sets in five columns: title, summary, text, tag, and publication date. The textual data has been normalized with the help of one of the Persian language libraries in the Python programming language and stored in csv and xml formats and made available to fellow researchers. The tags in this dataset include 13 main tags of sports, art and media, culture, science and progress, political, foreign policy, life, family, society, education and training, international, economic and provinces. Among the tasks that can be done on this data set are text classification, text extraction, text summarization and title recognition. Also, one of the prominent features of this data set is its comprehensiveness, the amount of suitable data, the existence of useful features, having unique features, as well as storage in a standard format. This dataset is a product of the Language Processing Department of Imam Hossein Comprehensive University and can be downloaded and used through the link mentioned in the footnote of the next page and with respect to copyright.

    Keywords: dataset, Persian news, natural language processing, Persian news dataset, machinelearning, text classification, text extraction, text summarization, title recognition
نکته
  • نتایج بر اساس تاریخ انتشار مرتب شده‌اند.
  • کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شده‌است. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
  • در صورتی که می‌خواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.
درخواست پشتیبانی - گزارش اشکال