معرفی یک مجموعه داده برای کاربردهای درک و ناحیه بندی تصاویر اسناد فارسی

نویسنده:

امین فرجی ، مسعود سعید* ، حسین نظام آبادی پور

پیام:

نوع مقاله:

مقاله پژوهشی/اصیل (دارای رتبه معتبر)

چکیده:

وجود مجموعه داده های تصویری نقش اساسی در زمینه تشخیص نویسه خوان نوری (OCR) و بازیابی اسناد دارد. علی رغم اینکه تا به امروز مجموعه داده ‏های تصویری زیادی با اشیا متفاوت در حوزه درک و ناحیه بندی اسناد غیرفارسی منتشر شده است، رسم الخط فارسی از این پیشرفت عقب مانده است و تاکنون در زمینه درک و ناحیه بندی اسناد فارسی، مجموعه دادگانی با دسترسی عمومی ارایه نشده است. از سوی دیگر، اگرچه زبان های فارسی و عربی شباهت های زیادی‏ دارند، اما تفاوت بین ساختار این دو زبان باعث می شود که سیستم های آموزش ‏دیده OCR با مجموعه داده عربی، دقت مناسبی روی تصاویر اسناد فارسی نداشته باشند. در این مقاله، یک مجموعه داده‏ برای تصاویر اسناد فارسی معرفی می‏گردد که مشتمل بر 5598 تصویر است. تصاویر تهیه شده متعلق به روزنامه ها، کتاب های درسی، مقالات علمی، فایل‏های PDF فارسی، پایان‏نامه ‏ها، انواع لوگو ایرانی، کتب دست‏نوشته‏ قدیمی و جزوات تایپ شده و دست‏نویس ریاضی هستند. در مجموعه داده معرفی شده، اشیا درون تصاویر به 6 گروه پاراگراف (متن)، شکل، جدول، لوگو، رابطه ریاضی و سرصفحه دسته بندی و برچسب گذاری شده اند. برای ارزیابی کارایی مجموعه تصویر پیشنهادی، سه روش شناخته ‏شده مبتنی بر یادگیری عمیق پیاده سازی و نتایج بر مبنای معیارهای مختلف گزارش شده است.

کلیدواژگان:

پردازش تصویر ، اسناد متن فارسی ، ناحیه بندی سند ، درک سند ، مجموعه داده

زبان:

فارسی

انتشار در:

نشریه ماشین بینایی و پردازش تصویر، سال دهم شماره 2 (تابستان 1402)

صفحات:

31 تا 46

لینک کوتاه:

magiran.com/p2549454

دانلود و مطالعه متن این مقاله با یکی از روشهای زیر امکان پذیر است:

اشتراک شخصی

با عضویت و پرداخت آنلاین حق اشتراک یک‌ساله به مبلغ 1,390,000ريال می‌توانید 70 عنوان مطلب دانلود کنید!

اشتراک سازمانی

به کتابخانه دانشگاه یا محل کار خود پیشنهاد کنید تا اشتراک سازمانی این پایگاه را برای دسترسی نامحدود همه کاربران به متن مطالب تهیه نمایند!

اطلاعات بیشتر

توجه!

حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران می‌شود.
پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانه‌های چاپی و دیجیتال را به کاربر نمی‌دهد.

In order to view content subscription is required

Personal subscription

Subscribe magiran.com for 70 € euros via PayPal and download 70 articles during a year.

Organization subscription

Please contact us to subscribe your university or library for unlimited access!

More information

علمی مصوب