تولید خودکار گزارش برای تصاویر قفسه سینه با استفاده از ترکیب مدل کانولوشنی بازگشتی و معماری توجه محور

نوع مقاله : مقاله کامپیوتر

نویسندگان

1 کارشناسی ارشد، گروه مهندسی پزشکی، دانشکده مهندسی پزشکی و مکانیک، دانشگاه صنعتی همدان، همدان، ایران

2 استادیار گروه مهندسی پزشکی- دانشگاه صنعتی همدان

3 دانشیار، گروه مهندسی پزشکی، دانشکده مهندسی پزشکی و مکانیک، دانشگاه صنعتی همدان، همدان، ایران

چکیده

در مطالعات علوم پزشکی، از تصاویر پزشکی برای تشخیص و طراحی پروتکل درمان بیماری ها بصورت گسترده استفاده می‌شود. برای پزشکان کم‌تجربه، نوشتن گزارش پزشکی به شکل متنی ممکن است مستعد خطا باشد، زیرا این کار نیازمند درک عمیق نسبت به بیماری و تجزیه و تحلیل آن است. همچنین برای متخصصان، این کار به دلیل تعدد بیمارانی که در یک روز مراجعه می‌کنند زمان‌بر و پر زحمت است. از دیدگاه دیگر، وجود گزارش های الگو برای پزشکان می‌تواند به میزان قابل توجهی دقت آن ها را در تشخیص بیماری افزایش دهد و خطای ناشی از عدم توجه به جزئیات را کاهش دهد. این پژوهش یک مدل مبتنی بر یادگیری عمیق را برای تولید خودکار گزارش‌های تصاویر رادیولوژی ارائه نموده است. این مدل بر پایه ترکیب یک ساختار کانولوشنی بازگشتی و معماری توجه محور است که با نام Res-LSTM-Attn معرفی گردیده است. در این مدل ابتدا از تصاویر پزشکی با استفاده از شبکه عصبی کانولوشنی رِزنت ویژگی ها استخراج خواهند شد و بر اساس یک مدل چند برچسبی کلمات یک گزارش پیش بینی خواهند شد. در ادامه با استفاده از شبکه عصبی بازگشتی LSTM و لایه های توجه چندسر گزارش نهایی تولید می‌شود. عملکرد مدل های پیشنهادی بر اساس معیارهای BLEU 1-4 و ROUGE-L و CIDEr-D مورد ارزیابی قرار گرفت. نتایج نشان داد مدل پیشنهادی از نظر معیار CIDEr-D و ROUGE-L در تولید گزارشات طولانی بر مطالعات پیشین غلبه کرده است و این مقادیر بترتیب به میزان 7/2 و 3/2 درصد بهبود یافته اند.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

Medical Report Generation for Chest X-rays Using Convolutional Recurrent and Attention-Based Architectures

نویسندگان [English]

  • Fardin Ghaderi 1
  • Mohammad Bagher Khodabakhshi 2
  • Shahriar Jamasb 3
1 MSc, Biomedical Engineering Department, Hamedan University of Technology, Hamedan, Iran
2 Assistant Professor, Biomedical Engineering Department- Hamedan University of Technology
3 Associate Professor, Biomedical Engineering Department, Hamedan University of Technology, Hamedan, Iran
چکیده [English]

Medical images are extensively used in medical science for diagnosis and treatment protocol design. Writing medical reports in text form can be error-prone for inexperienced physicians due to the deep understanding of the disease and its analysis. It is also time-consuming and laborious for experts due to the large number of patients they see in a day. Also, the existence of template reports for physicians can significantly increase their accuracy in diagnosing diseases and reduce errors caused by inattention to details. This research presents a deep learning-based model for the automatic generation of radiology reports. This model is based on a combination of a convolutional recurrent structure and an attention-based architecture called Res-LSTM-Attn. In this model, features are first extracted from medical images using a convolutional residual network, and based on a multi-label word model, a report is predicted. Then, using the LSTM recurrent neural network and multi-head attention layers, the final report is generated. The performance of the proposed models was evaluated based on the BLEU 1-4, ROUGE-L, and CIDEr-D criteria. The results showed that the proposed model outperformed previous studies in generating long reports in terms of CIDEr-D and ROUGE-L metrics, with improvements of 7.2% and 3.2%, respectively.

کلیدواژه‌ها [English]

  • Medical image processing
  • Recurrent deep neural networks
  • Automatic image captioning
  • Encoder
  • Decoder
  • Attention mechanism

مقالات آماده انتشار، پذیرفته شده
انتشار آنلاین از تاریخ 23 شهریور 1404
  • تاریخ دریافت: 15 آبان 1403
  • تاریخ بازنگری: 09 خرداد 1404
  • تاریخ پذیرش: 31 خرداد 1404