Нейросеть находит поломку авто по звуку — обучение проходило на роликах из YouTube и TikTok

Июл 4, 2026

—

от автора

Разработчик Адам Сон выложил в открытый доступ cardiag — систему, которая по аудиозаписи определяет, есть ли у машины неисправность, и подсказывает, в какой части автомобиля искать проблему. Достаточно записать звук работающего мотора на телефон и загрузить файл в веб-приложение или консольную утилиту. Автор подчеркивает: это не замена механику, а помощник для первичной сортировки — он сужает круг возможных поломок, но не ставит окончательный диагноз.

Обучающие данные проект собирает сам: скрейпит ролики с поломками из YouTube и TikTok, а затем каскад очистки отделяет звук механики от речи, музыки и дорожного шума. Очищенные фрагменты прогоняются через замороженную аудиомодель CLAP, а поверх ее эмбеддингов работают легкие линейные классификаторы. Никакого дообучения больших нейросетей — вся обученная часть системы весит около 100 килобайт (сама CLAP занимает 2 гигабайта).

Цифры автор приводит без прикрас. Отличать неисправную машину от исправной система умеет с AUROC 0.79 — это заметно лучше случайного угадывания (0.5), но далеко от идеала (1.0). Проблемный узел (двигатель, ходовая, тормоза и так далее) в 76% случаев попадает в тройку вариантов, которые предлагает система, а конкретная деталь оказывается в шорт-листе в 3-4 раза чаще, чем при случайном угадывании.

Скромная точность — это потолок данных, а не метода, и автор это доказывает: на чистых записях двигателей из независимого бенчмарка тот же подход выдает AUROC 0.93. При этом кривая обучения выходит на плато уже после 500 клипов — добавление еще тысяч роликов из соцсетей результат не улучшает. Методология для пет-проекта на удивление строгая: кросс-валидация сгруппирована по 1031 исходному видео, чтобы фрагменты одного ролика не попадали одновременно в обучение и тест, а статистическая значимость подтверждена permutation-тестом.

Отдельная фишка проекта — встроенная честность. Вероятности откалиброваны (заявленные системой 70% уверенности означают примерно 70% реальной точности), а когда запись не позволяет сделать вывод, cardiag отвечает «UNCERTAIN» вместо уверенной догадки. Автор даже опубликовал собственный провал: детектор стука в двигателе показывал 0.99 на знакомых данных, но на чужих записях скатился до уровня случайности — и был исключен из основных результатов с пометкой «использовать только как подсказку».

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1055640/