بازشناسی احساسات از روی گفتار بر پایه بهره گیری از شبکه های عصبی پیچشی و تکنیک افزایش دادگان

نویسنده:

معصومه شفیعیان

پیام:

نوع مقاله:

مقاله پژوهشی/اصیل (دارای رتبه معتبر)

چکیده:

بازشناسی احساس از روی گفتار برای محققان در دهه گذشته یک مساله چالش برانگیز بوده است. اما با پیشرفت در حوزه هوش مصنوعی این چالش ها کم رنگ تر شدند. هدف از این پژوهش، استفاده از روش های یادگیری عمیق در جهت بهتر کردن کارایی این سیستم ها است. کار انجام شده از چندین مرحله تشکیل شده است. در مرحله اول از شبکه های عصبی پیچشی سه بعدی برای یادگیری ویژگی های طیفی زمانی گفتار استفاده شده است. در مرحله دوم برای قدرتمند کردن مدل پیشنهادی از ساختار هرمی جدید شبکه های عصبی پیچشی سه بعدی اتصال داده شده؛ که یک معماری چند مقیاسه از شبکه های عصبی پیچشی سه بعدی روی ابعاد ورودی است؛ بهره گرفته شد. در نهایت برای یادگیری ویژگی های طیفی زمانی استخراج شده از ساختار جدید (ساختار جدید هرمی شبکه های عصبی پیچشی سه بعدی) با در نظر گرفتن رابطه مکانی و زمانی اطلاعات به صورت کامل؛ از شبکه کپسول زمانی استفاده شد. در نهایت بر ساختار پیشنهادی که یک ساختار قدرتمند برای ویژگی های طیفی زمانی است نام MSID 3DCNN + Temporal Capsule نهاده شد. پژوهش انجام شده و مدل نهایی روی ترکیب دو پایگاه داده گفتار معمولی و گفتار آوازی از پایگاه داده راودیس که یک پایگاه داده چند حالته است؛ انجام شد. نتایجی که با استفاده از مدل پیشنهادی بدست آمد؛ نسبت به مدل های مرسوم، قابل توجه است. در این پژوهش برای شش کلاس احساسی به تفکیک جنسیت، دقت 81.77 درصد بدست آمد.

کلیدواژگان:

بازشناسی احساس از روی گفتار ، شبکه های عصبی پیچشی سه بعدی چندمقیاسه ، شبکه کپسول زمانی ، پایگاه داده راودیس

زبان:

فارسی

انتشار در:

نشریه صوت و ارتعاش، پیاپی 21 (بهار و تابستان 1401)

صفحات:

85 تا 98

لینک کوتاه:

magiran.com/p2509032

دانلود و مطالعه متن این مقاله با یکی از روشهای زیر امکان پذیر است:

اشتراک شخصی

با عضویت و پرداخت آنلاین حق اشتراک یک‌ساله به مبلغ 1,390,000ريال می‌توانید 70 عنوان مطلب دانلود کنید!

اشتراک سازمانی

به کتابخانه دانشگاه یا محل کار خود پیشنهاد کنید تا اشتراک سازمانی این پایگاه را برای دسترسی نامحدود همه کاربران به متن مطالب تهیه نمایند!

اطلاعات بیشتر

توجه!

حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران می‌شود.
پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانه‌های چاپی و دیجیتال را به کاربر نمی‌دهد.

In order to view content subscription is required

Personal subscription

Subscribe magiran.com for 70 € euros via PayPal and download 70 articles during a year.

Organization subscription

Please contact us to subscribe your university or library for unlimited access!

More information

علمی مصوب

نشریه صوت و ارتعاش

Journal of Vibration and Sound

دوفصلنامه فنی مهندسی به زبان فارسی و انگلیسی

آخرین شماره | آرشیو

ISSN: 2383-1839 eISSN: 2345-623X

صاحب امتیاز:

انجمن آکوستیک و ارتعاشات ایران

مدیر مسئول:

دکتر حمید مهدیقلی

سردبیر:

دکتر فیروز بختیاری نژاد

تلفن نشریه: ۰۲۱-۸۱۰۳۲۳۲۳

اطلاعات بیشتر نشریه

درباره نشریه پیام به نشریه سایت اختصاصی نشریه پذیرش الکترونیکی مقاله

به جمع مشترکان مگیران بپیوندید!

بازشناسی احساسات از روی گفتار بر پایه بهره گیری از شبکه های عصبی پیچشی و تکنیک افزایش دادگان

معصومه شفیعیان

بازشناسی احساس از روی گفتار ، شبکه های عصبی پیچشی سه بعدی چندمقیاسه ، شبکه کپسول زمانی ، پایگاه داده راودیس

نشریه صوت و ارتعاش

Journal of Vibration and Sound