تشخیص عبارت های گفتاری برای اخبار فارسی صداوسیمای جمهوری اسلامی ایران
هدف از تشخیص عبارت های گفتاری یا جستجوی کلیدواژه، تشخیص و جستجوی مجموعه ای از کلیدواژه ها در مجموعه ای از اسناد گفتاری (مانند سخنرانی ها، جلسه ها) است. در این پژوهش تشخیص عبارت های گفتاری فارسی برپایه سامانه های بازشناسی گفتار با کاربرد در بازیابی اطلاعات در بایگانی های گفتاری و ویدیویی سازمان صدا و سیما طراحی و پیاده سازی شده است. برای این کار، ابتدا اسناد گفتاری به متن، بازشناسی، سپس بر روی این متون جستجو انجام می شود. برای آموزش سامانه بازشناسی گفتار فارسی، دادگان فارس دات بزرگ به کار رفته است. این سامانه به نرخ خطای واژه 71/2 درصد بر روی همین دادگان و 23/28 درصد بر روی دادگان اخبار فارسی با استفاده از مدل زیر فضای مخلوط گوسی (SGMM) رسید. برای تشخیص عبارت های گفتاری از روش پایه واژگان نماینده استفاده شده و با استفاده از شبکه حافظه کوتاه-مدت ماندگار و دسته بندی زمانی پیوندگرا (LSTM-CTC) روشی برای بهبود تشخیص واژگان خارج از واژگان (OOV) پیشنهاد شده است. کارایی سامانه تشخیص عبارات با روش واژه های نماینده بر روی دادگان فارس دات بزرگ بر طبق معیار ارزش وزنی واقعی عبارت (ATWV) برابر با 9206/0 برای کلیدواژه های داخل واژگان و برابر با 2/0 برای کلیدواژه های خارج از واژگان رسید که این نرخ برای واژگان OOV با استفاده از روش LSTM-CTC با حدود پنجاه درصد بهبود به مقدار 3058/0 رسید؛ همچنین، در تشخیص عبارت های گفتاری بر روی دادگان اخبار فارسی، ATWV برابر 8008/0 حاصل شد.
پرداخت حق اشتراک به معنای پذیرش "شرایط خدمات" پایگاه مگیران از سوی شماست.
اگر عضو مگیران هستید:
اگر مقاله ای از شما در مگیران نمایه شده، برای استفاده از اعتبار اهدایی سامانه نویسندگان با ایمیل منتشرشده ثبت نام کنید. ثبت نام
- حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران میشود.
- پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانههای چاپی و دیجیتال را به کاربر نمیدهد.