Почти как человек, или новый подход к бинауральной звукозаписи

Что такое 3D Stereo и в чём его отличие от Atmos

Как я уже писал ранее в своих статьях, формат подразумевает совершенно иной подход по сравнению с объектно-ориентированным звуком. Давайте ещё раз более подробно разберём эти два метода.

Принцип работы формата Dolby Atmos на примере кинотеатра с матрицей динамиков

1. Конфигурация зала (Матрица акустики)

Перед запуском фильма процессор кинотеатра (кинопроцессор Dolby CP850 или CP950) точно «знает» геометрию зала и расположение каждого динамика:

Динамики окружающего звука (Surround) разделены: каждая колонка на стене — это отдельный изолированный канал, а не группа, дублирующая один звук.
На потолке установлены два мощных продольных ряда массивных колонок.
За экраном находится мощный массив фронтальных заэкранных систем и сабвуферов (LFE).

2. Прием кинокопии (Пакет DCP)

В кинозал поступает цифровой пакет фильма (DCP). Звуковая дорожка Atmos в нем содержит те самые 128 потоков (базовый слой + объекты с метаданными координат от 0 до 100 по осям X, Y, Z).

3. Работа рендерера в реальном времени

Когда на экране происходит сцена (например, космический корабль взлетает из левого нижнего угла экрана, проносится над головами зрителей и улетает в правый дальний угол зала), процессор выполняет следующие действия:

Фронтальная зона: Процессор плавно перекатывает звук двигателя между тремя (или пятью) огромными заэкранными колонками слева направо по мере движения корабля на экране.
Переход на стены и потолок: Как только корабль «вылетает» за пределы экрана, процессор считывает метаданные координат объекта. Он мгновенно вычисляет, какие именно физические колонки на левой стене и в левом ряду потолка находятся на траектории полета в данный момент времени.
Эффект панорамирования (Умное перетекание): Звук не просто включается в группе колонок. Процессор задействует, например, колонку №12 на левой стене, плавно снижает её громкость и одновременно повышает громкость на потолочной колонке №4, затем переводит на потолочную №5 и так далее.
Финальная точка: Звук затухает строго в правой тыловой колонке №24 в самом конце зала.

Принцип работы формата 3D Stereo на примере кинотеатра с линейными боковыми массивами динамиков

1. Конфигурация зала (Акустическая среда)
В отличие от объектно-ориентированных систем, 3D Stereo не требует десятков независимых каналов и индивидуальной адресации каждой колонки.

Основа системы — формирование равномерного звукового поля при помощи двух боковых линейных массивов, которые представляют собой длинные горизонтальные ряды акустических систем вдоль стен зала. Их задача — создавать равномерное распределение энергии звуковых волн.

2. Приём контента
В кинотеатр поступает обычная двухканальная фонограмма, интегрированная в видеоряд, но в отличие от традиционного stereo, она содержит ITD\ILD, то есть спектральные признаки формирующие глубину и объём сцены. Система воспроизведения не вычисляет координаты объектов, она лишь переносит готовое звуковое поле в пространство кинозала.

3. Работа системы воспроизведения
Во время фильма система не занимается объектным рендерингом, нет расчёта координат, вычисления траекторий, панорамирования между десятками каналов, постоянной DSP-интерполяции объектов, движение уже закодировано внутри бинауральной записи, линейные массивы не перемещают объект между колонками, а создают непрерывное акустическое поле, внутри которого мозг слушателя сам формирует движение источника.

Очевидные плюсы данной системы это простота и эффективность. В то же время стоит отметить её демократичность и невысокую стоимость.

Методы по созданию контента 3D Stereo

Цифровые технологии DAW платформ

Этот метод по моему мнению будет основным для индустрии. Объёмная звуковая сцена формируется благодаря цифровой модели HRTF с привязкой к метаданным движущихся объектов на экране. Такие технологии уже существуют и я описывал один из предлагаемых способов по формированию бесшовной модели HRTF.
Сочетание объемного звука с объёмным видео дают прекрасный эфект присутствия с полным погружением с происходящим на экране.

Бинауральный стенд и живая звукозапись

Бинауральные стенды играют ключевую роль по созданию цифровых моделей HRTF, которые позже интегрируются в DAW платформы. Пожалуй одним из наиболее приближенных к симуляции слуха является HATS от B&K в котором присутствует весь бинауральный тракт от усреднённой модели раковин и проходов до имитатора барабанной перепонки. Но есть нюанс ) .

Я пожалуй не буду описывать всю технологию, а заострю внимание на одном важнейшем факторе, существенно влияющем на медиальную локализацию, который я применил в своём стенде, получившего название «Устройство имитации бинаурального слуха человека»® Коммерческое название — «Маэстро».

Итак:
известный уровень техники:
— анатомическая модель головы
— высокоточные силиконовые реплики раковин и проходов по СКТ
— микрофон на месте барабанной перепонки с тем же углом наклона как у человека
техническая новизна:
— геометрия правого и левого слуховых проходов воспроизведена с учётом естественной анатомической асимметрии
— слуховые проходы заполнены демпфирующим материалом, обеспечивающим акустический импеданс, приближенный к импедансу человеческого уха
— внешняя поверхность анатомической модели головы покрыта флоком, имитирующим кожный и волосяной покров человека
— ушная раковина бинаурального микрофона, расположенная снаружи анатомической модели головы, выполнена из мягкого силикона твёрдостью 20-25 по Шору А, а внутренняя часть корпуса бинаурального микрофона, включающая слуховой проход, выполнена из твёрдого силикона твёрдостью 40-50 по Шору А

Теперь по порядку, что эта новизна даёт и какие проблемы решает.

Природная асимметрия
Как известно, измерительные стенды имеют зеркальную геометрию, причём это требование зафиксировано в «золотом стандарте» IEC 60318-7, что позволяет отбраковывать изделие в случае расхождения между правым и левым ухом при медиальных замерах.
Но так ли на самом деле устроен наш слух ? Если обратиться к медицинской практике, то тимпанометрия чётко указывает на различие в геометрии между правым и левым слуховым проходом у каждого человека . Что же это, природный баг или фича ?

Давайте попробуем разобрать, что происходит в этих двух вариантах, когда звук строго по центру, например спереди.
Спектральные соотношения при такой подаче стремятся к единице, возникает психоакустический конус неопределённости, фантомный центр при записи с такого стенда становится практически плоским.
Что происходит когда слуховые проходы асимметричны: соотношение ITD\ILD меняется при изменении глубины, возникает некий акустический параллакс и мы в итоге чувствуем глубину.

Стоит отметить, при замерах со стенда с асимметрией я наблюдал существенное различие по амплитуде при подаче высокочастотных тональных сигналов ! Несколько раз перепроверял микрофоны) , но позже я понял, что именно так и работает наш слух.
видео со стенда с асимметрией, тесты позиционирования

Именно такая природная асимметрия даёт ощущение глубины, в то время как индустриальный золотой стандарт делает её плоской.

Акустический импеданс слухового прохода (перепонки)
Дело в том, что слуховая система человека это сложная структура, где перепонка является частью динамической системы. Это слуховые косточки, микро мышцы, эластичная конусообразная структура с асимметричным натяжением.
Именно такая сложная акустическая система формирует импеданс с резонансом в области 2.6-3 кГц.
Что же мы имеем в стенде. Изогнутый слуховой проход с пробкой в виде микрофона, а в итоге четвертьволновой резонатор ). Если попробовать записать с такого например музыку, то уши сворачиваются в трубочку очень быстро.

Как решается эта проблема в стенде, например от B&K:
— внутри стального цилиндра за ушной раковиной расположены скрытые боковые воздушные камеры (резонаторы Гельмгольца), соединенные со слуховым каналом тончайшими капиллярами и металлическими сетками. Эти камеры настроены так, чтобы имитировать акустический импеданс живого уха (податливость барабанной перепонки и тканей). Они частично гасят (демпфируют) чрезмерно острый резонанс трубки.

Я же пошёл другим путём:
— полость слухового прохода была заполнена тонкими арамидными волокнами (Twaron), при таком подходе слуховой канал перешёл из режима резонансного волновода в режим согласованной, преимущественно резистивной акустической нагрузки
Массу материала сперва подбирал эмпирически, прослушивая запись в мониторных наушниках со стенда (внешняя стерео АС) сравнивая со своим прямым восприятием. И получилось так, что основной резонанс у меня совпал с референсным по ISO 226-2009, подробнее об этом ниже.

Спецпокрытие
Ну здесь я думаю всё понятно. Покрытие флоком головы стенда позволил приблизить первичные дифракции звуковых волн о стенд к человеку.

Комбинированная твёрдость
Здесь также всё логично и просто — внешняя раковина из мягкого материала, приближенного к акустической прозрачности хряща и тканей уха, внутренняя часть из твёрдого, для имитации свойств прохода окружённого костной тканью.

Калибровка стенда
Задачей этого этапа является приведение слуха стенда к среднему человеческому. И я хочу подчеркнуть, что HRTF и тембральный окрас это разные вещи ! Первый фактор формируется за счёт торса, головы и наличия элементов раковины и слуховых проходов прохода стенда. Таких как завиток, козелок, изгибы и т.д. Второй уже зависит от самой формы.
Простыми словами, это можно объяснить тем, что все люди примерно одинаково определяют позицию, благодаря чему работают кинотеатры с объёмным звуком, но тембральный окрас у каждого индивидуален.
Чтобы решить эту проблему я не пошёл по пути усреднённого уха, а взял за референс кривые равной громкости ISO 226-2009. За базовую, была взята средняя кривая 70 фон.
Стенд был помещён в безэховую камеру, источник звука строго спереди на расстоянии 2м, был подан сигнал sweep, причём в точке стенда уровень громкости тонального сигнала 1 кГц составлял 70дБ.
Получив среднее значение, я составил эквализационную поправку таким образом, чтобы соотношение амплитуд частот по отношению к 1 кГц был идентичным кривой равной громкости 70 фон. Таким образом стенд воспринимает тембральный окрас приближенный к усреднённому восприятию человеком.

На постпродакшн, после приведения уровня громкости к EBU-R 128 я применял фильтр параметрической эквализации на основании полученных данных. В итоге, получил живой, натуральный звук с сохранением бинауральной локализации. И пока ещё не создана модель sHRTF, такую запись в совокупности с видео рядом вполне можно демонстрировать в кинозале.

Надеюсь, у меня появится такая возможность например на выставке Hi-Fi & High-End Show, как способ демонстрации формата 3D Stereo.

Видеоряд

По видеозаписи всё достаточно просто. На стенд одевается риг из одной или двух (в случае стерео съёмки) камер. Я использовал обычные экшн камеры GoPro, Insta (стереобаза камер 75мм).
По мастерингу ничего особо сложного нет. Это синхронизация звука по записанному c одной из камер, а в случае записи с двух (стерео), работа над параллаксом. Причём плагинов в видеоредакторе на сегодняшний день великое множество, включая уже встроенные. Я использовал ручной метод построения горизонтальной стереопары, далее кодировка в контейнер MKV кодеком H265 и звук в LPCM 24bit/48kHz, частота кадров не менее 60, этого вполне достаточно.

Решения для записи иммерсивного контента

В настоящий момент дорабатываю стенд для студийной звукозаписи (добавил балансный выход XLR для микшера\аудиокарты, с возможностью переключения на небалансный RCA для бютжетных рекордеров). Также есть уже готовое, доработанное решение бинауральной гарнитуры, о которой также писал.

Буду рад, если кто-то захочет посодействовать проекту ).

Спасибо, за внимание ).

ссылка на оригинал статьи https://habr.com/ru/articles/1034634/