بازشناسی حالات هیجانی چهره و صدا بااستفاده از مدل Deep-BEL

نوع مقاله : مقاله کامپیوتر

نویسندگان

گروه کامپیوتر، واحد فومن و شفت ، دانشگاه آزاد اسلامی ، فومن، ایران

10.22075/jme.2025.32615.2578

چکیده

در سال‌های اخیر، بازشناسی هیجان به عنوان یکی از مؤلفه‌های کلیدی در تعامل طبیعی انسان و کامپیوتر مورد توجه بسیاری از پژوهشگران قرار گرفته است. بازشناسی مبتنی بر تنها یکی از مدالیته‌ها (گفتار یا تصویر چهره) معمولاً با ابهامات همراه است، ازاین‌رو همجوشی اطلاعات چندحسی می‌تواند عملکرد دقیق‌تری ارائه دهد. در این مقاله روشی ترکیبی برای بازشناسی هیجان بر اساس گفتار هیجانی، تصاویر مرئی حالات چهره و تصاویر مادون قرمز ارائه می‌شود. در گام نخست، از شبکه‌های عمیق برای استخراج بازنمایی‌های غنی از داده‌های شنیداری و دیداری استفاده شده و سپس مدل یادگیری هیجانی مغز(BEL)، الهام‌گرفته از سیستم لیمبیک، برای همجوشی سه مدالیته به‌کار گرفته شده است. روش پیشنهادی بر روی پایگاه داده چندرسانه‌ایEnterface’05 ارزیابی شد و نتایج نشان داد که مدل ارائه‌شده به دقت 96.20٪ دست یافت که نسبت به سایر روش‌های همجوشی در همین پایگاه داده بهبود قابل توجهی دارد. این نتایج نشان‌دهنده کارایی و قابلیت تعمیم بالای مدل Deep-BEL در کاربردهای تعامل انسان–کامپیوتر است.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

Recognition of Facial and Voice Emotional States Using Deep-BEL Model

نویسندگان [English]

  • Sara Motamed
  • Elham Askari
Department of Computer Engineering, Fouman and Shaft Branch, Islamic Azad University, Fouman, Iran
چکیده [English]

In recent years, emotion recognition as a new method for natural human-computer interaction has attracted the attention of many researchers. Because the automatic recognition of emotion from speech or facial expressions alone has uncertainties, it is expected that emotion recognition based on the fusion of audio-visual information can be done with better accuracy. The purpose of this article is to present an effective method for emotion recognition from emotional speech and images of visible facial expressions and infrared images, based on a hybrid model. For this purpose, in the proposed model, the deep learning model is used to represent the visual-auditory features and the brain emotional learning (BEL) model, inspired by the limbic system of the brain, is used for the fusion of three-modality information. In the proposed model, the existing audio-visual database in the field of multimodal emotion recognition, Enterface'05, has been used for various experiments. The recognition accuracy of the presented model in the best case for this database is 94.20%, which has the highest efficiency compared to other fusion methods.

کلیدواژه‌ها [English]

  • Emotion recognition
  • facial and voice emotional states
  • convolutional neural networks
  • brain emotional learning model

مقالات آماده انتشار، پذیرفته شده
انتشار آنلاین از تاریخ 15 آذر 1404
  • تاریخ دریافت: 18 آذر 1402
  • تاریخ بازنگری: 31 شهریور 1404
  • تاریخ پذیرش: 15 آذر 1404