استخراج جملات موازی از دادگان وب

نویسنده:

نسرین براتعلی پور* ، هشام فیلی ، آزاده شاکری

پیام:

نوع مقاله:

مقاله پژوهشی/اصیل (بدون رتبه معتبر)

چکیده:

پیکره‌های موازی یکی از منابع با ارزش در بسیاری از کاربردهای پردازش زبان طبیعی و همچنین بازیابی هوشمند اطلاعات بین‌زبانی است. لازمه استفاده از این پیکره‌ها هم‌ترازی آنها در سطح جمله است، اما جمع‌آوری و یا تولید این پیکره‌ها و همچنین هم‌ترازی آنها بسیار پرهزینه است. با توجه به گستردگی و قابلیت دسترسی رایگان صفحات وب دوزبانه، جمع‌آوری پیکره‌های موازی از وب و هم‌ترازی آنها به صورت خودکار بسیار مطلوب است. در این مقاله برای تولید جملات موازی، ابتدا صفحات وب حاوی جملات موازی انتخاب، سپس ویژگی های هر زوج جمله فارسی-انگلیسی در این صفحات محاسبه و در نهایت به کمک طبقه‌بند بیشترین پراکندگی جملات موازی استخراج می‌شود. یکی از ویژگی‌های جملات استخراج شده، وابسته نبودن به دامنه و امکان پوشش حوزه‌‌های متفاوت معنایی است.

کلیدواژگان:

پیکره موازی ، هم ترازی متون ، داده کاوی وب

زبان:

فارسی

انتشار در:

فصلنامه پازند، پیاپی 30 (پاییز 1391)

در صفحه:

لینک کوتاه:

magiran.com/p1160599

دانلود و مطالعه متن این مقاله با یکی از روشهای زیر امکان پذیر است:

اشتراک شخصی

با عضویت و پرداخت آنلاین حق اشتراک یک‌ساله به مبلغ 1,390,000ريال می‌توانید 70 عنوان مطلب دانلود کنید!

اشتراک سازمانی

به کتابخانه دانشگاه یا محل کار خود پیشنهاد کنید تا اشتراک سازمانی این پایگاه را برای دسترسی نامحدود همه کاربران به متن مطالب تهیه نمایند!

اطلاعات بیشتر

توجه!

حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران می‌شود.
پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانه‌های چاپی و دیجیتال را به کاربر نمی‌دهد.

In order to view content subscription is required

Personal subscription

Subscribe magiran.com for 70 € euros via PayPal and download 70 articles during a year.

Organization subscription

Please contact us to subscribe your university or library for unlimited access!

More information

فصلنامه پازند

Journal of Pazand

فصلنامه پژوهشی, آموزشی, اطلاع رسانی در زمینه علم زبان

آخرین شماره | آرشیو

ISSN: 1735-2290 eISSN: 2717-073X

از آنجا که این نشریه تمایلی به همکاری با مگیران ندارد، شماره‌های جدید آن در سایت نمایه نمی‌شود.

صاحب امتیاز و مدیرمسئول:

دکتر فاطمه نعیمی حشکوایی

سردبیر:

دکتر سید مصطفی عاصی

تلفن نشریه: ۰۲۱-۸۸۳۰۹۱۳۹

اطلاعات بیشتر نشریه

درباره نشریه پیام به نشریه سایت اختصاصی نشریه پذیرش الکترونیکی مقاله راهنمای نویسندگان

به جمع مشترکان مگیران بپیوندید!

استخراج جملات موازی از دادگان وب

نسرین براتعلی پور* ، هشام فیلی ، آزاده شاکری

پیکره موازی ، هم ترازی متون ، داده کاوی وب

فصلنامه پازند

Journal of Pazand