رویکردی ترکیبی برای بازشناسی احساسات گفتار؛ داده‌ افزایی و تلفیق مدل‌های BiLSTM-جنگل تصادفی

نوع مقاله : مقاله پژوهشی

نویسندگان

1 دانشکده فنی و مهندسی، دانشگاه لرستان، خرم آباد، ایران

2 گروه برق، دانشگاه لرستان/ خرم آباد/لرستان

چکیده

بازشناسی احساسات گفتار یکی از مهم‌ترین زمینه‌های پردازش سیگنال سیگنال و هوش مصنوعی است که کاربردهای گسترده‌ای در تعامل انسان-رایانه، خدمات رسانی هوشمند به مشتریان و تشخیص حالات عاطفی دارد. با این حال، چالش‌هایی مانند کمبود داده‌های آموزشی متنوع و پیچیدگی‌های استخراج ویژگی‌های مؤثر، عملکرد سیستم‌های شناسایی احساسات را محدود کرده است. در این مقاله، یک روش ترکیبی مبتنی بر داده افزایی ، شبکه BiLSTM و الگوریتم جنگل تصادفی ارائه می‌شود تا دقت و قابلیت اطمینان سیستم شناسایی ارتقا یابد. در این راستا برای افزایش تعداد داده‌ها، ابتدا با بهره گیری از تکنیک‌هایی مانند تغییر سرعت، افزودن نویز و تغییر گام، تعداد نمونه‌های مورد استفاده را افزایش می‌دهیم. سپس، ویژگی‌های زمان-فرکانسی گفتار را توسط BiLSTM استخراج نموده و برای طبقه‌بندی نهایی به الگوریتم جنگل تصادفی منتقل می‌نماییم. این مقاله نشان می‌دهد که ترکیب داده افزایی با مدل‌های عمیق و سنتی می‌تواند به عنوان یک رویکرد قدرتمند در بهبود دقت و کارایی سیستم‌های بازشناسی احساسات گفتاری مورد استفاده قرار گیرد. ارزیابی روش پیشنهادی بر روی مجموعه ‌داده‌ی‌ توسعه یافته‌ی EMODB ، دقتی برابر 85.11% را ارائه می‌دهد.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

A Hybrid Approach for Speech Emotion Recognition: Data Augmentation and BiLSTM–Random Forest Integration

نویسندگان [English]

  • Ali Beiranvand 1
  • Salman Kkarimi 2
1 Department of Electronics, Faculty of Engineering, Lorestan University, Khorramabad, Iran
2 Department of Electrical engineering,, lorestan university. Khorramabad
چکیده [English]

Speech Emotion Recognition (SER) is a significant field in speech signal processing and artificial intelligence, with broad applications in human-computer interaction, intelligent customer services, and emotional state detection. However, challenges such as the scarcity of diverse training data and the complexities of extracting effective features, limit the performance of SER systems. This paper presents a hybrid method based on Data Augmentation, a Bidirectional Long Short-Term Memory (BiLSTM) neural network, and the Random Forest algorithm to enhance the accuracy and reliability of the system. Initially, data augmentation techniques such as speed variation, noise addition, and pitch shifting are employed to generate synthetic samples. Subsequently, time-frequency features are extracted by the BiLSTM and passed to the Random Forest algorithm for final classification. This paper demonstrates that combining Data Augmentation with deep and traditional models can serve as a powerful approach to improving the accuracy and efficiency of SER systems. Evaluations of the proposed method on the expanded well-established EMODB database achieve an accuracy of 85.11%.

کلیدواژه‌ها [English]

  • Data Augmentation
  • Random Forest algorithm
  • Speech Emotion Recognition
  • BiLSTM neural network

مقالات آماده انتشار، پذیرفته شده
انتشار آنلاین از تاریخ 27 اردیبهشت 1405
  • تاریخ دریافت: 09 بهمن 1404
  • تاریخ بازنگری: 28 فروردین 1405
  • تاریخ پذیرش: 13 اردیبهشت 1405