خوشه یابی تصویر زیر کلمات در متون قدیمی و حجیم چاپی با استفاده از معیار مقایسه تصویری

پیام:
چکیده:
حجم زیاد تصاویر متنی روز به روز مسئله دیجیتالی شدن متن تصاویر و همچنین مسئله جستجو در این منابع را اهمیت می بخشد. در بازشناسی متن های حجیم می توان از ویژگی هایی مانند محدودبودن تعداد و اندازه قلم، یکسان بودن صفحه آرایی در کل صفحه ها، محدودبودن مجموعه واژه ها و حوزه معنایی آنها و یکسان بودن سبک نگارشی در کل متن استفاده کرد. در این مقاله الگوریتمی ارائه شده که از یکسان بودن نوع و اندازه قلم برای خوشه یابی زیرکلمات یک کتاب قدیمی با کیفیت پایین چاپ استفاده شده است. این کتاب 233 صفحه دارد و کل زیرکلمات آن که در حدود 111000 زیرکلمه است جداسازی و برچسب زنی شده است. در این تحقیق از یک روش ساده افزایشی برای خوشه یابی زیرکلمات استفاده شده است. ابتدا برای هر زیرکلمه چهار ویژگی ساده استخراج می شود، در صورتی که تفاوت این ویژگی ها از ویژگی های نماینده یک خوشه کمتر از مقدار آستانه باشد، مقایسه تصویری بین آن دو انجام می شود. به علت زیادبودن تعداد زیرکلمات سعی شده تا از ساده ترین روش های ممکن استفاده شود تا سرعت اجرا افزایش یابد. نتایج آزمایش ها نشان می دهد می توان زیرکلمات را با دقتی در حدود 7/99 درصد خوشه یابی کرد. نتایج این خوشه یابی در مرحله بازشناسی زیرکلمات کمک بسیار زیادی خواهد کرد.
زبان:
فارسی
در صفحه:
85
لینک کوتاه:
magiran.com/p1255746 
دانلود و مطالعه متن این مقاله با یکی از روشهای زیر امکان پذیر است:
اشتراک شخصی
با عضویت و پرداخت آنلاین حق اشتراک یک‌ساله به مبلغ 1,390,000ريال می‌توانید 70 عنوان مطلب دانلود کنید!
اشتراک سازمانی
به کتابخانه دانشگاه یا محل کار خود پیشنهاد کنید تا اشتراک سازمانی این پایگاه را برای دسترسی نامحدود همه کاربران به متن مطالب تهیه نمایند!
توجه!
  • حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران می‌شود.
  • پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانه‌های چاپی و دیجیتال را به کاربر نمی‌دهد.
In order to view content subscription is required

Personal subscription
Subscribe magiran.com for 70 € euros via PayPal and download 70 articles during a year.
Organization subscription
Please contact us to subscribe your university or library for unlimited access!