جستجوی مقالات مرتبط با کلیدواژه "machinelearning" در نشریات گروه "برق"
تکرار جستجوی کلیدواژه «machinelearning» در نشریات گروه «فنی و مهندسی»-
اگر چه کمبود داده برای تحقیقات در حوزه پردازش زبان طبیعی یکی از چالشها مهم است لیکن این چالش در خصوص زبان فارسی حادتر جلوه میکند، برای همین یافتن مجموعه دادگان باکیفیت و جامع در زبان فارسی کار دشواری است. علاوه بر آن دارا بودن برخی مشکلات از قبیل قابلیت دستهبندی و عدم رعایت استاندارد ذخیرهسازی از نمونه مشکلات مجموعه دادگان موجود میباشد که هرکدام از این موارد میتواند بر میزان یادگیری مدل، نتایج و میزان خطا در آزمایشها تاثیر بگذارد. به همین منظور تمامی این دلایل سبب شد که به دنبال جمعآوری و تهیه مجموعه دادگانی باشیم که تمام اینگونه مشکلات را پوشش و میزان خطا هنگام بهکارگیری دادهها در مدلهای مختلف را کاهش دهد. ما در این پژوهش خزشگری را در جهت جمعآوری دادگان متنی طراحی و استفاده نمودهایم که با خزش بر روی یکی از پایگاه های خبری توانسته است مجموعهای از دادگان را در پنج ستون عنوان، خلاصه، متن، برچسب و تاریخ انتشار خبر جمعآوری نماید. داده های متنی به کمک یکی از کتابخانههای مخصوص زبان فارسی در زبان برنامهنویسی پایتون، نرمالسازی شده و در دو فرمت csv و xml ذخیرهسازی شده و در اختیار پژوهشگران همکار قرار گرفته است. برچسبها در این مجموعه داده شامل 13 برچسب اصلی ورزشی، هنر و رسانه، فرهنگ، علم و پیشرفت، سیاسی، سیاست خارجی، زندگی، خانواده، جامعه، تعلیم و تربیت، بینالملل، اقتصادی و استانها میباشد. از جمله کارهایی که بر روی این مجموعه داده قابل انجام است میتوان به دستهبندی متن، استخراج متن، خلاصهسازی متن و تشخیص عنوان اشاره کرد. همچنین از ویژگیهای بارز این مجموعه داده میتوان به جامعیت، تعداد دادههای مناسب، وجود ویژگیهای مفید، دارا بودن ویژگیهای منحصربهفرد و همچنین ذخیرهسازی در قالب استاندارد اشاره کرد. این مجموعه داده محصول گروه پردازش زبان دانشگاه جامع امام حسین (ع) میباشد و از طریق لینک مذکور در پانویس صفحه بعد و با رعایت حق کپیرایت قابل دریافت و استفاده میباشد.
کلید واژگان: مجموعه داده, اخبار فارسی, پردازش زبان طبیعی, مجموعه داده اخبار فارسی, یادگیری ماشین, دسته بندی متن, استخراج متن, خلاصه سازی متن, تشخیص عنوانJournal of New Achievements in Electrical, Computer and Technology, Volume:2 Issue: 3, 2022, PP 103 -121Although the lack of data is one of the important challenges for research in the field of natural language processing, but this challenge is more acute in the Persian language, so finding a high-quality and comprehensive dataset in the Persian language is a difficult task. In addition to that, having some problems such as the ability to categorize and not complying with the storage standard are among the problems of the existing datasets, each of which can affect the learning rate of the model, the results, and the error rate in the experiments. For this reason, all these reasons made us seek to collect and prepare a dataset that covers all such problems and reduces the amount of error when using data in different models. In this research, we have designed and used a crawler to collect textual data. By crawling on one of the news bases, it has been able to collect data sets in five columns: title, summary, text, tag, and publication date. The textual data has been normalized with the help of one of the Persian language libraries in the Python programming language and stored in csv and xml formats and made available to fellow researchers. The tags in this dataset include 13 main tags of sports, art and media, culture, science and progress, political, foreign policy, life, family, society, education and training, international, economic and provinces. Among the tasks that can be done on this data set are text classification, text extraction, text summarization and title recognition. Also, one of the prominent features of this data set is its comprehensiveness, the amount of suitable data, the existence of useful features, having unique features, as well as storage in a standard format. This dataset is a product of the Language Processing Department of Imam Hossein Comprehensive University and can be downloaded and used through the link mentioned in the footnote of the next page and with respect to copyright.
Keywords: dataset, Persian news, natural language processing, Persian news dataset, machinelearning, text classification, text extraction, text summarization, title recognition
- نتایج بر اساس تاریخ انتشار مرتب شدهاند.
- کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شدهاست. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
- در صورتی که میخواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.