تشخیص گوینده با شبکه های عصبی کانولوشنال و تئوری نتروسافیک

نوع مقاله : مقاله برق

نویسندگان

1 گروه مهندسی برق، دانشکده فنی و مهندسی ـ دانشگاه یاسوج ـ یاسوج ـ ایران

2 گروه مهندسی کامپیوتر، دانشکده مهندسی، دانشگاه لرستان، خرم آباد، ایران

3 گروه مهندسی برق، دانشکده مهندسی، دانشگاه لرستان، خرم آباد، ایران

چکیده

تشخیص گوینده، فرآیند تشخیص افراد بر اساس صوت آنها است که در کاربردهای زیادی مورد استفاده قرار می‌گیرد. اگرچه تاکنون تحقیقات زیادی در زمینه‌ی تشخیص گوینده صورت گرفته است، اما چالش‌هایی وجود دارد که هنوز حل نشده‌اند. در این مقاله به منظور بهبود دقت سیستم‌های تشخیص گوینده از نتروسافیک و شبکه‌های عصبی کانولوشنال بهره گرفته شده است. در روش پیشنهادی، ابتدا اسپکتروگرام سیگنال صوتی تشکیل می‌گردد سپس اسپکتروگرام به فضای نتروسافیک منتقل می‌شود. در مرحله‌ی بعد عملگرهای بهبود بتا به مجموعه‌های نتروسافیک اعمال می‌شود و این عملیات تا ثابت شدن آنتروپی مجموعه‌های نتروسافیک تکرار می‌گردد. در نهایت یک مدل شبکه‌ی عصبی کانولوشنال برای طبقه‌بندی هیستوگرام پیشنهاد می‌شود. برای ارزیابی و تحلیل روش پیشنهادی از دو پایگاه داده‌ی Aurora2 و TIMIT استفاده شده است. روش پیشنهادی روی پایگاه داده‌ی Aurora2 به دقت 79/93 درصد و روی پایگاه داده‌ی TIMIT به دقت 24/95 درصد دست یافته است که در مقایسه با روش‌های رقیب عملکرد بهتری داشته است.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

Speaker Recognition Using Convolutional Neural Network and Neutrosophic

نویسندگان [English]

  • Sadegh Fadaei 1
  • Abdolreza Rashno 2
  • Abdolsamad Hamidi 3
1 Department of Electrical Engineering, Faculty of Engineering, Yasouj University, Yasouj, Iran
2 Department of Computer Engineering, Engineering Faculty, Lorestan University, Khorramabad, Iran
3 Department of Electrical Engineering, Engineering Faculty, Lorestan University, Khorramabad, Iran
چکیده [English]

Speaker recognition is a process of recognizing persons based on their voice which is widely used in many applications. Although many researches have been performed in this domain, there are some challenges that have not been addressed yet. In this research, Neutrosophic (NS) theory and convolutional neural networks (CNN) are used to improve the accuracy of speaker recognition systems. To do this, at first, the spectrogram of the signal is created from the speech signal and then transferred to the NS domain. In the next step, the alpha correction operator is applied repeatedly until reaching constant entropy in subsequent iterations. Finally, a convolutional neural networks architecture is proposed to classify spectrograms in the NS domain. Two datasets TIMIT and Aurora2 are used to evaluate the effectiveness of the proposed method. The precision of the proposed method on two datasets TIMIT and Aurora2 are 93.79% and 95.24%, respectively, demonstrating that the proposed model outperforms competitive models.

کلیدواژه‌ها [English]

  • Spectrogram
  • Speaker recognition
  • Neutrosophic
  • Convolutional neural networks

مقالات آماده انتشار، پذیرفته شده
انتشار آنلاین از تاریخ 28 تیر 1402
  • تاریخ دریافت: 27 بهمن 1401
  • تاریخ بازنگری: 30 فروردین 1402
  • تاریخ پذیرش: 28 تیر 1402