بکارگیری الگوریتم‌های یادگیری واژه‌نامه در بازنمایی تُنُک دادگان گفتاری

نوع مقاله : مقاله پژوهشی

نویسندگان

1 دانشگاه لرستان، گروه مهندسی

2 گروه برق، دانشگاه لرستان/ خرم آباد/لرستان

3 گروه مهندسی برق، دانشکده فنی و مهندسی، دانشگاه مازندران، بابلسر، ایران

چکیده

بازنمایی تُنُک به عنوان یکی از روش‌های پر کاربرد در پردازش سیگنال، در زمینه‌های مختلفی مانند فشرده‌سازی داده، حذف نویز از سیگنال‌های گفتاری و تصویری، تشخیص الگو و سایر مسائل مرتبط با پردازش سیگنال مورد توجه قرار گرفته است. در چنین بازنمایی‌هایی، سیگنال‌ها با استفاده از تعداد کمی از اتم‌های واژه‌نامه به‌صورت خطی ترکیب می‌شوند که منجر به کاهش ابعاد داده و بهبود کارایی در پردازش سیگنال می‌شود. به منظور بازنمایی دقیق‌تر داده‌های گفتاری، نیاز به واژه‌نامه مناسبی است که بتواند ویژگی‌های سیگنال گفتار را به خوبی نمایش دهد. در این مقاله، واژه‌نامه‌هایی با استفاده از الگوریتم‌های یادگیری واژه‌نامه و بازنمایی تُنُک MOD، K-SVD ،RAMC و UD4-MOD و بازنمایی تُنُک OMP در حوزه‌های زمان، نمایش زمان-فرکانس و تبدیل موجک آموزش داده می‌شوند. ارزیابی کارایی واژه‌نامه‌های به‌دست‌آمده با استفاده از معیارهای مختلف زمانی و فرکانسی مانند RE، MSE، fwSegSNR، SegSNR، PESQ و STOI انجام شده است. نتایج حاصل، نشان می‌دهد که بکارگیری الگوریتم یادگیری واژه‌نامه K-SVD در ترکیب با الگوریتم بازنمایی تُنُک OMP در حوزه STFT نتایج مطلوبی را به منظور بازسازی سیگنال گفتاری به دست می‌دهد.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

Applying Dictionary Learning Algorithms In Sparse Representation of Speech Data

نویسندگان [English]

  • Naser Sharafi 1
  • Salman Kkarimi 2
  • Samira Mavaddati 3
1 Lorestan University
2 Department of Electrical engineering,, lorestan university. Khorramabad
3 Electrical Engineering, Faculty of Engineering and Technology, University of Mazandaran, Babolsar, Iran
چکیده [English]

As a widely used technique in signal processing, Sparse representation has gained significant attention in various fields, including data compression, noise reduction in speech and image signals, pattern recognition, and other signal processing-related issues. In such representations, signals are linearly combined using a small number of dictionary atoms, leading to data dimensionality reduction and improved signal processing efficiency. To accurately represent speech data, an appropriate dictionary is required to effectively represent speech signals' characteristics. In this paper, dictionaries are trained using dictionary learning algorithms and sparse representations such as MOD, K-SVD, RAMC, UD4-MOD, and OMP, in the time, time-frequency, and wavelet transform domains. The performance of the obtained dictionaries is evaluated using various time-frequency metrics such as RE, MSE, fwSegSNR, SegSNR, PESQ, and STOI. The results demonstrate that employing the K-SVD dictionary learning algorithm in conjunction with the OMP sparse representation algorithm in the STFT domain achieves promising results for speech signal reconstruction.

کلیدواژه‌ها [English]

  • Sparse representation
  • Dictionary learning
  • Speech processing
  • K-SVD
  • OMP
  • STFT

مقالات آماده انتشار، پذیرفته شده
انتشار آنلاین از تاریخ 23 شهریور 1404
  • تاریخ دریافت: 18 اردیبهشت 1403
  • تاریخ بازنگری: 09 فروردین 1404
  • تاریخ پذیرش: 03 تیر 1404