АНАЛІЗ СУЧАСНИХ АЛГОРИТМІВ ВИЯВЛЕННЯ І РОЗПІЗНАВАННЯ ОБ’ЄКТІВ З ВІДЕОПОТОКУ ДЛЯ СИСТЕМ УПРАВЛІННЯ ПАРКУВАННЯМ В РЕАЛЬНОМУ ЧАСІ
ANALYSIS OF MODERN ALGORITHMS FOR DETECTING AND RECOGNIZING OBJECTS FROM A VIDEO STREAM FOR REAL-TIME PARKING MANAGEMENT SYSTEMS
Сторінки: 339-347. Номер: №3, 2023 (321)
Автори:
Марчук Дмитро
Державний університет «Житомирська політехніка»
ORCID ID: 0000-0001-8675-8047
e-mail: kipz_mdk@ztu.edu.ua
Marchuk Dmytro
Zhytomyr Polytechnic State University
DOI: https://www.doi.org/10.31891/2307-5732-2023-321-3-17-23
Анотація мовою оригіналу
Одною зі сфер штучного інтелекту є комп’ютерний зір, який використовує глибоке навчання для виявлення, розпізнавання, класифікації об’єктів на зображеннях та відео. Для більш ефективного застосування таких систем часто використовуються методи, засновані на нейронних мережах. Розвиток технологій глибокого навчання дозволив створювати більш точні та складні моделі комп’ютерного зору. Методи глибокого навчання, які використовуються для розпізнавання об’єктів на відео, можуть включати пропозицію регіону як частину системи або використовувати нерегіональні методи, які базуються на пропозиціях детектору. У статті розглядаються сучасні, найбільш відомі алгоритми розпізнавання об’єктів на відео. Наводиться опис особливостей різних архітектурних рішень нейронних мереж. Дослідження публікацій, присвячених проблемам аналізу відеоданих, вказав на пріоритет застосування алгоритмів на основі архітектури згорткової нейронної мережі. В роботі більше уваги приділяється таким архітектурним рішенням як YOLO і Mask R-CNN. Порівнюються продуктивність, швидкість обробки і точність. Результати проведеного дослідження показують, що YOLO одна з найсучасніших систем виявлення об’єктів у реальному часі, яка обробляє зображення зі швидкістю від 45 до 150 кадрів в секунду і має mAP 63,4% на тестовому наборі MS-COCO, а наприклад, Mini-YOLOv3 досягає mAP 52,1% зі швидкістю 67 кадрів в секунду. Але, якщо порівнювати різні версії і модифікації YOLO з іншими системами, то можна з впевненістю сказати, що YOLO допускає більше помилок локалізації. Mask R-CNN є розширенням Faster R-CNN, де паралельно проходить прогнозування маски об’єкта і розпізнавання обмежувальної рамки. Таким чином було виявлено, що для системи управління паркуванням, яка може відстежувати вільні місця на паркові з відеопотоку камери, найкраще підходить Mask R-CNN. Дана нейронна мережа має ряд переваг в порівнянні з такими, як R-CNN, Fast R-CNN та YOLO. Основною з її переваг є продуктивність та точність.
Ключові слова: нейронна мережа, архітектура, YOLO, CNN, R-CNN, Mask R-CNN.
Розширена анотація англійською мовою
One of the areas of artificial intelligence is computer vision, which uses deep learning to detect, recognize, and classify objects in images and videos. To make such systems more efficient, methods based on neural networks are often used. The development of deep learning technologies has made it possible to create more accurate and complex computer vision models. Deep learning methods used to recognize objects in video can include a region proposal as part of the system or use non-regional methods based on detector proposals. The article discusses modern, best-known algorithms for object recognition in video. The features of different architectural solutions of neural networks are described. A study of publications on the problems of video data analysis has indicated the priority of using algorithms based on the convolutional neural network architecture. The paper pays more attention to such architectural solutions as YOLO and Mask R-CNN. Performance, processing speed, and accuracy are compared. The results of the study show that YOLO is one of the most advanced real-time object detection systems that processes images at a speed of 45 to 150 frames per second and has an mAP of 63.4% on the MS-COCO test set, and, for example, Mini-YOLOv3 reaches an mAP of 52.1% at 67 frames per second. However, if we compare different versions and modifications of YOLO with other systems, we can say with certainty that YOLO makes more localization errors. Mask R-CNN is an extension of Faster R-CNN, where the object mask prediction and bounding box recognition are performed in parallel. Thus, it was found that Mask R-CNN is best suited for a parking management system that can track free parking spaces from a camera video stream. This neural network has a number of advantages compared to R-CNN, Fast R-CNN, and YOLO. The main advantages of Mask R-CNN are performance and accuracy.
Keywords: neural network, architecture, YOLO, CNN, R-CNN, Mask R-CNN.