بازشناسی احساسات از روی گفتار بر پایه بهره گیری از شبکه های عصبی پیچشی و تکنیک افزایش دادگان
بازشناسی احساس از روی گفتار برای محققان در دهه گذشته یک مساله چالش برانگیز بوده است. اما با پیشرفت در حوزه هوش مصنوعی این چالش ها کم رنگ تر شدند. هدف از این پژوهش، استفاده از روش های یادگیری عمیق در جهت بهتر کردن کارایی این سیستم ها است. کار انجام شده از چندین مرحله تشکیل شده است. در مرحله اول از شبکه های عصبی پیچشی سه بعدی برای یادگیری ویژگی های طیفی زمانی گفتار استفاده شده است. در مرحله دوم برای قدرتمند کردن مدل پیشنهادی از ساختار هرمی جدید شبکه های عصبی پیچشی سه بعدی اتصال داده شده؛ که یک معماری چند مقیاسه از شبکه های عصبی پیچشی سه بعدی روی ابعاد ورودی است؛ بهره گرفته شد. در نهایت برای یادگیری ویژگی های طیفی زمانی استخراج شده از ساختار جدید (ساختار جدید هرمی شبکه های عصبی پیچشی سه بعدی) با در نظر گرفتن رابطه مکانی و زمانی اطلاعات به صورت کامل؛ از شبکه کپسول زمانی استفاده شد. در نهایت بر ساختار پیشنهادی که یک ساختار قدرتمند برای ویژگی های طیفی زمانی است نام MSID 3DCNN + Temporal Capsule نهاده شد. پژوهش انجام شده و مدل نهایی روی ترکیب دو پایگاه داده گفتار معمولی و گفتار آوازی از پایگاه داده راودیس که یک پایگاه داده چند حالته است؛ انجام شد. نتایجی که با استفاده از مدل پیشنهادی بدست آمد؛ نسبت به مدل های مرسوم، قابل توجه است. در این پژوهش برای شش کلاس احساسی به تفکیک جنسیت، دقت 81.77 درصد بدست آمد.
- حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران میشود.
- پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانههای چاپی و دیجیتال را به کاربر نمیدهد.