В статье рассматривается процесс подготовки и анализа данных, обучение модели компьютерного зрения для обнаружения людей на изображениях с БЛА, тестирование полученной модели на специализированном наборе данных для поисково-спасательных задач, а также оценка качества обнаружения и анализ полученных результатов.
Общее описание задачи
Проект является частью диссертационной работы: “Система управления БЛА для поисково-спасательных работ в труднодоступных регионах”. Статью я решил написать, чтобы поделиться результатом и возможно найти советы по улучшению. Для этого я выбрал именно раздел детекции и обнаружения людей с камеры беспилотника, так как это наиболее наглядный результат.
Суть общей задачи я разделил на 3 части, это:
-
система высокоуровневого управления (уже разработан программный код и выполнена апробация в цифровой среде).
-
алгоритм планирования траектории (в упрощённом виде, змейкой, так как это не является основной задачей);
-
алгоритм обнаружение людей с камер находящихся на борту БЛА (как раз этот раздел я и описвываю в статье).
В общем виде работа системы выглядит следующим образом. Оператор задаёт область поиска, параметры полёта и при необходимости запрещённые для пролёта зоны. На основе этих данных формируется поисковая траектория, обеспечивающая покрытие заданной территории. Далее траектория преобразуется в последовательность высокоуровневых команд и передаётся на компьютер-компаньон, расположенный на борту БПЛА. Компьютер-компаньон взаимодействует с полётным контроллером и преобразует полученные команды в низкоуровневые управляющие воздействия, необходимые для выполнения полёта. Одновременно с выполнением миссии осуществляется обработка видеопотока с бортовой камеры при помощи моделей компьютерного зрения, предназначенных для обнаружения людей на местности. При обнаружении человека формируется сообщение с результатами детекции, которое передаётся оператору для дальнейшего анализа и принятия решения.
Систему управления БЛА я уже описывал ранее. Основной принцип — применение высокоуровневых команд для управления, мы передаём на борт команды по типу “иди в точку”, “двигайся по круговой орбите”, при этом передаём только параметры команды. В обратном направлении получаем данные телеметрии и состояния БЛА.
Что касается планирования траектории, то тут тоже кратко: задаём область поиска по карте (несколько регионов), далее поочерёдно в зависимости от приоритета применяем алгоритм построения траектории, далее объединяем в единую траекторию (Рисунок 1, 2).
Модель обнаружения людей с камеры БЛА
Задача данного этапа заключается в обнаружении человека на изображениях, полученных с камеры беспилотного летательного аппарата. На вход модели подаётся кадр с бортовой камеры, после чего модель определяет наличие человека, координаты ограничивающей области и значение уверенности распознавания.
Я понимаю, что задача очень популярная и не раз уже была решена научным сообществом, однако я решил реализовать её самостоятельно (ещё один проект в портфолио).
Для обучения использовался датасет SARD — Search and Rescue Dataset, предназначенный для задач поиска и обнаружения людей с БЛА. Данные уже были подготовлены в формате YOLO и содержали разбиение на обучающую, валидационную и тестовую выборки. В датасете использовался один класс — human.
В качестве базовой модели была выбрана YOLOv8n. Данная модель является компактной версией YOLOv8 и подходит для первичной проверки подхода, так как имеет небольшие требования к вычислительным ресурсам и обеспечивает достаточно высокую скорость обработки изображений.
С исходным кодом можно ознакомиться в репозитории (jupyter notebook):
Для обучения использовались следующие параметры:
|
Параметр |
Значение |
|---|---|
|
Количество эпох обучения |
25 |
|
Размер входного изображения |
640 |
|
Размер батча |
16 |
|
Предобученные веса |
Да |
|
Оптимизатор |
Auto |
|
Ранняя остановка |
10 |
|
Количество потоков загрузки данных |
4 |
Обучал на ноутбуке с видеокартой NVIDIA GeForce RTX 3050 6GB примерно 30 минут. Считаю это приемлемый результат.
Метрики:
В целом, по моему мнению, можно было бы и дальше проводить обучение.
После обучения модель была протестирована на тестовой выборке. Получены следующие результаты: Precision = 0.9499, Recall = 0.8484, mAP50 = 0.9245, mAP50-95 = 0.5910 .
Precision — доля корректных срабатываний среди всех объектов, которые модель определила как человека.
Recall — доля найденных людей среди всех людей, которые действительно присутствуют на изображениях.
mAP50 — средняя точность детекции при базовом пороге совпадения предсказанной и истинной рамки.
mAP50-95 — средняя точность детекции при нескольких порогах совпадения рамок, от мягкого до более строгого. Это более требовательная метрика качества локализации объекта.
Далее я взял несколько изображения из тестовой выборки для визуального анализа. Также я добавил ограничение — буферную зону по краям изображения, чтобы объекты на краю не детектировались, исключение, если тригер объекта на 80 процентов находит в общей зоне кадра.
Полученные результаты показывают, что модель достаточно уверенно определяет людей на изображениях. Также можно заметить что на примере (Рисунок 8, человек на велосипеде), человек не был детектирован, я считают, это произошло в следствие недостатка освещения, и скорее всего при дальнейшем его движении вероятность детекции велика.
Я считаю, что полученная модель вполне рабочая и её можно тестировать в реальных условиях, однако для улучшения результата, лучше подготовить дополнительный датасет с реальными кадрами местности на которой будут проводиться испытания. Также в данной работе не рассматривалась проблема ограниченной видимости из-за кроны деревьев, это известная проблема, но на данный момент я её не рассматриваю.
Контактные данные
Буду рад ответить на ваши вопросы или замечания.
-
Имя: Антон
-
Email: anton42@yandex.ru
-
Telegram: antonSHBK
ссылка на оригинал статьи https://habr.com/ru/articles/1041236/