UAV Human Detector

от автора

В статье рассматривается процесс подготовки и анализа данных, обучение модели компьютерного зрения для обнаружения людей на изображениях с БЛА, тестирование полученной модели на специализированном наборе данных для поисково-спасательных задач, а также оценка качества обнаружения и анализ полученных результатов.

Распознавание людей

Распознавание людей

Общее описание задачи

Проект является частью диссертационной работы: “Система управления БЛА для поисково-спасательных работ в труднодоступных регионах”. Статью я решил написать, чтобы поделиться результатом и возможно найти советы по улучшению. Для этого я выбрал именно раздел детекции и обнаружения людей с камеры беспилотника, так как это наиболее наглядный результат.

Суть общей задачи я разделил на 3 части, это:

В общем виде работа системы выглядит следующим образом. Оператор задаёт область поиска, параметры полёта и при необходимости запрещённые для пролёта зоны. На основе этих данных формируется поисковая траектория, обеспечивающая покрытие заданной территории. Далее траектория преобразуется в последовательность высокоуровневых команд и передаётся на компьютер-компаньон, расположенный на борту БПЛА. Компьютер-компаньон взаимодействует с полётным контроллером и преобразует полученные команды в низкоуровневые управляющие воздействия, необходимые для выполнения полёта. Одновременно с выполнением миссии осуществляется обработка видеопотока с бортовой камеры при помощи моделей компьютерного зрения, предназначенных для обнаружения людей на местности. При обнаружении человека формируется сообщение с результатами детекции, которое передаётся оператору для дальнейшего анализа и принятия решения.

Систему управления БЛА я уже описывал ранее. Основной принцип — применение высокоуровневых команд для управления, мы передаём на борт команды по типу “иди в точку”, “двигайся по круговой орбите”, при этом передаём только параметры команды. В обратном направлении получаем данные телеметрии и состояния БЛА.

Что касается планирования траектории, то тут тоже кратко: задаём область поиска по карте (несколько регионов), далее поочерёдно в зависимости от приоритета применяем алгоритм построения траектории, далее объединяем в единую траекторию (Рисунок 1, 2).

Рисунок 1 - Выбор зон поиска

Рисунок 1 — Выбор зон поиска
Рисунок 2 - Сформированная траектория

Рисунок 2 — Сформированная траектория

Модель обнаружения людей с камеры БЛА

Задача данного этапа заключается в обнаружении человека на изображениях, полученных с камеры беспилотного летательного аппарата. На вход модели подаётся кадр с бортовой камеры, после чего модель определяет наличие человека, координаты ограничивающей области и значение уверенности распознавания.

Я понимаю, что задача очень популярная и не раз уже была решена научным сообществом, однако я решил реализовать её самостоятельно (ещё один проект в портфолио).

Для обучения использовался датасет SARD — Search and Rescue Dataset, предназначенный для задач поиска и обнаружения людей с БЛА. Данные уже были подготовлены в формате YOLO и содержали разбиение на обучающую, валидационную и тестовую выборки. В датасете использовался один класс — human.

В качестве базовой модели была выбрана YOLOv8n. Данная модель является компактной версией YOLOv8 и подходит для первичной проверки подхода, так как имеет небольшие требования к вычислительным ресурсам и обеспечивает достаточно высокую скорость обработки изображений.

С исходным кодом можно ознакомиться в репозитории (jupyter notebook):

UAV Human Detector

Для обучения использовались следующие параметры:

Параметр

Значение

Количество эпох обучения

25

Размер входного изображения

640

Размер батча

16

Предобученные веса

Да

Оптимизатор

Auto

Ранняя остановка

10

Количество потоков загрузки данных

4

Обучал на ноутбуке с видеокартой NVIDIA GeForce RTX 3050 6GB примерно 30 минут. Считаю это приемлемый результат.

Метрики:

Рисунок 3 - Метрики обучения

Рисунок 3 — Метрики обучения

В целом, по моему мнению, можно было бы и дальше проводить обучение.

После обучения модель была протестирована на тестовой выборке. Получены следующие результаты: Precision = 0.9499, Recall = 0.8484, mAP50 = 0.9245, mAP50-95 = 0.5910 .

Precision — доля корректных срабатываний среди всех объектов, которые модель определила как человека.

Recall — доля найденных людей среди всех людей, которые действительно присутствуют на изображениях.

mAP50 — средняя точность детекции при базовом пороге совпадения предсказанной и истинной рамки.

mAP50-95 — средняя точность детекции при нескольких порогах совпадения рамок, от мягкого до более строгого. Это более требовательная метрика качества локализации объекта.

Далее я взял несколько изображения из тестовой выборки для визуального анализа. Также я добавил ограничение — буферную зону по краям изображения, чтобы объекты на краю не детектировались, исключение, если тригер объекта на 80 процентов находит в общей зоне кадра.

Рисунок 4 - Пример 1

Рисунок 4 — Пример 1
Рисунок 5 - Пример 2

Рисунок 5 — Пример 2
Рисунок 6 - Пример 3

Рисунок 6 — Пример 3
Рисунок 7 - Пример 4

Рисунок 7 — Пример 4
Рисунок 8 - Пример 5

Рисунок 8 — Пример 5
Рисунок 9 - Пример 6

Рисунок 9 — Пример 6
Рисунок 10 - Пример 7

Рисунок 10 — Пример 7
Рисунок 11 - Пример 8

Рисунок 11 — Пример 8

Полученные результаты показывают, что модель достаточно уверенно определяет людей на изображениях. Также можно заметить что на примере (Рисунок 8, человек на велосипеде), человек не был детектирован, я считают, это произошло в следствие недостатка освещения, и скорее всего при дальнейшем его движении вероятность детекции велика.

Я считаю, что полученная модель вполне рабочая и её можно тестировать в реальных условиях, однако для улучшения результата, лучше подготовить дополнительный датасет с реальными кадрами местности на которой будут проводиться испытания. Также в данной работе не рассматривалась проблема ограниченной видимости из-за кроны деревьев, это известная проблема, но на данный момент я её не рассматриваю.

Контактные данные

Буду рад ответить на ваши вопросы или замечания.

ссылка на оригинал статьи https://habr.com/ru/articles/1041236/