استخراج جملات موازی از دادگان وب
پیکرههای موازی یکی از منابع با ارزش در بسیاری از کاربردهای پردازش زبان طبیعی و همچنین بازیابی هوشمند اطلاعات بینزبانی است. لازمه استفاده از این پیکرهها همترازی آنها در سطح جمله است، اما جمعآوری و یا تولید این پیکرهها و همچنین همترازی آنها بسیار پرهزینه است. با توجه به گستردگی و قابلیت دسترسی رایگان صفحات وب دوزبانه، جمعآوری پیکرههای موازی از وب و همترازی آنها به صورت خودکار بسیار مطلوب است. در این مقاله برای تولید جملات موازی، ابتدا صفحات وب حاوی جملات موازی انتخاب، سپس ویژگی های هر زوج جمله فارسی-انگلیسی در این صفحات محاسبه و در نهایت به کمک طبقهبند بیشترین پراکندگی جملات موازی استخراج میشود. یکی از ویژگیهای جملات استخراج شده، وابسته نبودن به دامنه و امکان پوشش حوزههای متفاوت معنایی است.
- حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران میشود.
- پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانههای چاپی و دیجیتال را به کاربر نمیدهد.