بکارگیری مدل مبتنی بر ترنسفورمر برای تشخیص فعالیت های غیرطبیعی در ویدئو

نوع مقاله : مقاله کامپیوتر

نویسندگان

1 دانشکده برق و کامپیوتر، دانشگاه سمنان

2 سمنان

3 دانشکده برق و کامپیوتر دانشگاه سمنان

چکیده

با توجه به افزایش روز افزون حجم ویدئوهای تولید شده توسط دوربین‏ های امنیتی و نظارتی در مکان‏های شخصی و عمومی، نظارت بر فعالیت های موجود در ویدئو امری حیاتی می باشد. بسیاری از نظارت‏های ویدئویی برای بررسی صحت عملکرد و هشدار هنگام وقوع یا انجام اعمال غیرطبیعی می‏باشد. در این راستا، مدل های هوشمند مختلفی جهت تشخیص فعالیت های موجود در ویدئو ارائه گردیده است. با توجه به پیشرفت های اخیر در حوزه هوش مصنوعی و به خصوص یادگیری عمیق، در این مقاله، مدلی مبتنی بر شبکه ترنسفورمر ارائه می گردد. در این راستا، به منظور کاهش میزان محاسبات، نقاط کلیدی بدن مورد استفاده قرار می‌گیرند. تعداد 15 نقطه کلیدی بدن به مدل ترنسفورمر وارد می گردند تا با تکیه بر پردازش موازی این شبکه در حالت آموزش و نیز مکانیسم خودتوجهی، سرعت و دقت مدل افزایش داده شود. نتایج تجربی بر روی پایگاه داده عمومی JHMDB حاکی از بهبود دقت تشخیص فعالیت های غیرطبیعی نسبت به مدل های پایه می باشد.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

A Transformer-based model for abnormal activity recognition in video

نویسندگان [English]

  • Amir Mohammad Ahmadi 1
  • kourosh kiani 2
  • Razieh Rastgoo 3
1 Faculty of Electrical and Computer Engineering, Semnan University, Semnan
2 سمنان
3 Semnan University
چکیده [English]

Given the increasing daily volume of videos generated by security cameras in personal and public spaces, monitoring the activities present in videos has become crucial. Many video surveillance systems are designed to verify performance accuracy and provide alerts during the occurrence of abnormal activities. In this regard, various intelligent models have been proposed for detecting activities in videos. Considering recent advances in artificial intelligence, particularly deep learning, this paper introduces a model based on the Transformer network. To reduce computational complexity, keypoints of the human body are utilized in this approach. Fifteen key body points are input into the Transformer model, leveraging parallel processing during training and a self-attention mechanism. This enhances the speed and accuracy of the model. Experimental results on the JHMDB public database indicate an improvement in the accuracy of detecting abnormal activities compared to baseline models.

Keywords: Video processing, Video surveillance, Abnormal activities, Deep learning, Transformer Network.

کلیدواژه‌ها [English]

  • Video processing
  • Video surveillance
  • Abnormal activities
  • Deep learning
  • Transformer Network

مقالات آماده انتشار، پذیرفته شده
انتشار آنلاین از تاریخ 14 اسفند 1402
  • تاریخ دریافت: 17 دی 1402
  • تاریخ بازنگری: 13 بهمن 1402
  • تاریخ پذیرش: 27 بهمن 1402