Локализация звуков: как мозг распознает источники звуков

Мир, окружающий нас, наполнен всевозможной информацией, которую наш мозг непрерывно обрабатывает. Получает он эту информацию посредством органов чувств, каждый из которых отвечает за свою долю сигналов: глаза (зрение), язык (вкус), нос (обоняние), кожа (осязание), вестибулярный аппарат (равновесие, положение в пространстве и чувство веса) и уши (звук). Собрав воедино сигналы от всех этих органов, наш мозг может построить точную картину окружающей среды. Но далеко не все аспекты обработки внешних сигналом нам известны. Одной из таких тайн является механизм локализации источника звуков.

Ученые из лаборатории нейроинженерии речи и слуха (технологический институт Нью-Джерси) предложили новую модель нейронного процесса локализации звука. Какие именно процессы протекают в головном мозге во время восприятия звука, как наш мозг понимает положение источника звука и как данное исследование может помочь в борьбе с дефектами слуха. Об этом мы узнаем из доклада исследовательской группы. Поехали.

Основа исследования

Информация, которую получает наш мозг от органов чувств, отличается друг от друга как с точки зрения источника, так и с точки зрения ее обработки. Одни сигналы сразу предстают перед нашим мозгом в виде точной информации, другие же нуждаются в дополнительных вычислительных процессах. Грубо говоря, прикосновение мы чувствуем сразу, а вот услышав звук, нам предстоит еще найти откуда он исходит.

Основой локализации звуков в горизонтальной плоскости является интерауральная* разница во времени (ITD от interaural time difference) звуков, достигающих ушей слушателя.

Интерауральная база* — расстояние между ушами.

В головном мозге имеется определенный участок (медиальная верхняя олива или МВО), который отвечает за этот процесс. В момент получения звукового сигнала в МВО происходит преобразование интерауральных разниц во времени в скорость реакции нейронов. Форма кривых скорости выходного сигнала МВО как функции ITD напоминает форму взаимнокорреляционную функцию входных сигналов для каждого уха.

То, как обрабатывается и интерпретируется информация в МВО, остается не до конца ясным, из-за чего существует несколько весьма противоречивых теорий. Самой известной и по факту классической теорией локализации звука является модель Джеффресса (Lloyd A. Jeffress). Она основана на маркированной линии* нейронов-детекторов, которые чувствительны к бинауральной синхронности нейронных входных сигналов от каждого уха, причем каждый нейрон максимально чувствителен к определенной величине ITD (1А).

Принцип маркированной линии* — гипотеза, объясняющая, как разные нервы, все из которых используют одни и те же физиологические принципы при передаче импульсов вдоль своих аксонов, способны генерировать разные ощущения. Структурно сходные нервы могут генерировать различные сенсорные восприятия, если они связаны с уникальными нейронами в центральной нервной системе, которые способны декодировать сходные нервные сигналы различными способами.

Изображение №1

Данная модель в вычислительном плане похожа на нейронное кодирование, основанное на неограниченных взаимных корреляциях звуков, достигающих обоих ушей.

Также существует модель, в которой предполагается, что локализация звука может быть смоделирована на основе различий в скорости реакции определенных популяций нейронов из разных полушарий мозга, т.е. модель межполушарной асимметрии (1В).

Доселе было сложно однозначно заявить какая из двух теорий (моделей) правильная, учитывая что каждая из них предсказывает разные зависимости локализации звука от интенсивности звука.

В рассматриваемом нами сегодня исследовании ученые решили объединить обе модели, чтобы понять, основано ли восприятие звуков на нейронном кодировании или на разнице реакции отдельно взятых нейронных популяций. Было проведено несколько экспериментов, в которых брали участие люди в возрасте от 18 до 27 лет (5 женщин и 7 мужчин). Аудиометрия (измерение остроты слуха) участников составляла 25 дБ или выше при частоте от 250 до 8000 Гц. Участника опытов размещали в звукоизолированной комнате, в которой было размещено специальное оборудование, откалиброванное с высокой точностью. Участники должны были, услышав звуковой сигнал, указать направление, откуда он исходит.

Результаты исследования

Для оценки зависимости латерализации* мозговой активности от интенсивности звука в ответ на маркированные нейроны были использованы данные о скорости реакции нейронов в ламинарном ядре мозга сипухи.

Латеральность* — асимметрия левой и правой половин тела.

Для оценки зависимости латерализации мозговой активности от скорости реакции определенных популяций нейронов были использованы данные активности нижнего двухолмия мозга макаки-резуса, после чего дополнительно были рассчитаны различия в скорости нейронов из разных полушарий.

Модель маркированной линии нейронов-детекторов предполагает, что при уменьшении интенсивности звука латеральность воспринимаемого источника будет сходиться в средних значениях, схожих для отношения тихих и громких звуков (1С).

Модель межполушарной асимметрии, в свою очередь, предполагает, что при снижении интенсивности звука до почти пороговых воспринимаемая латеральность будет смещаться к средней линии (1D).

При более высокой общей интенсивности звука предполагается, что латерализация будет инвариантной по интенсивности (вставки на 1С и 1D).

Следовательно, анализ того, как интенсивность звука влияет на воспринимаемое направление звука, позволяет точно определить природу протекающих в этот момент процессов — нейроны из одной общей области или нейроны из разных полушарий.

Очевидно, что способность человека различать ITD может варьироваться в зависимости от интенсивности звука. Однако ученые заявляют, что достаточно сложно интерпретировать предыдущие выводы, связывающие чувствительность к ITD и оценку слушателем направления источника звука как функции интенсивности звука. Одни исследования говорят, что при достижении интенсивности звука к граничному порогу, снижается воспринимаемая латеральность источника. Другие же исследования говорят о том, что влияния интенсивности на восприятие нет вообще.

Другими словами, ученые «мягко» намекают, что в литературе достаточно мало информации касательно связи ITD, интенсивности звука и определения направления его источника. Есть теории, которые существуют как своего рода аксиомы, общепринятые научным сообществом. Посему было решено детально проверить все теории, модели и возможные механизмы восприятия слуха на практике.

Первый эксперимент был поставлен на основе использования психофизической парадигмы, что позволило изучить латерализацию на основе ITD как функцию интенсивности звука в группе из десяти нормально слышащих участников опыта.

Изображение №2

Источники звука были специально настроены так, чтобы охватывать большую часть частотного диапазона, в пределах которого люди способны распознавать ITD, т.е. от 300 до 1200 Гц (2А).

В каждом из испытаний слушатель должен был указать предполагаемую латеральность, измеряемую как функцию уровня ощущений, в диапазоне значений ITD от 375 до 375 мс. Чтобы определить влияние интенсивности звука, использовалась нелинейная модель смешанного эффекта (NMLE), которая включала как фиксированную, так и случайную интенсивность звука.

График 2В демонстрирует оцененную латерализацию со спектрально плоским шумом при двух интенсивностях звука для репрезентативного слушателя. А график 2С показывает необработанные данные (круги) и подогнанные под модель NMLE (линии) всех слушателей.

Таблица №1

Таблица выше показывает все параметры NLME. Видно, что воспринимаемая латеральность возрастала при увеличении ITD, как того и ожидали ученые. С уменьшением интенсивности звука восприятие все больше смещалось в сторону средней линии (вставка на графике 2C).

Эти тенденции были подкреплены моделью NLME, которая показала существенное влияние ITD и интенсивности звука на максимальную степень латеральности, подтверждая модель межполушарных отличий.

Кроме того, незначительное влияние на воспринимаемую латеральность имели средние аудиометрические пороги чистых тонов. А вот интенсивность звука существенно не влияла на показатели психометрических функций.

Основной целью второго эксперимента было определение того, как полученные в предыдущем эксперименте результаты поменяются при учете спектральных особенностей стимулов (звуков). Необходимость проверки спектрально плоского шума при низкой интенсивности звука состоит в том, что части спектра могут быть не слышны, и это может повлиять на определение направления звука. Следовательно, за результаты первого эксперимента можно ошибочно принять факт того, что ширина слышимой части спектра может уменьшаться с уменьшением интенсивности звука.

Потому было решено провести еще один опыт, но уже с применением обратно А-взвешенных* шумов.

А-взвешивание* применяется к уровням звука, чтобы учесть относительную громкость, воспринимаемую человеческим ухом, поскольку ухо менее чувствительно к низким звуковым частотам. А-взвешивание реализуется путем арифметического добавления таблицы значений, перечисленных в октавных полосах, к измеренным уровням звукового давления в дБ.

На графике 2D показаны необработанные данные (круги) и подогнанные под модель NMLE данные (линии) всех участников эксперимента.

Анализ данных показал, что когда все части звука являются примерно одинаково слышимыми (как в первом, так и во втором опыте), воспринимаемая латеральность и наклон на графике, поясняющий изменение латеральности с ITD, уменьшаются с падением интенсивности звука.

Таким образом, результаты второго эксперимента подтвердили результаты первого. То есть на практике было показано, что модель, предложенная еще в 1948 году Джеффрессом, не является правильной.

Получается, что локализация звуков ухудшается при снижении интенсивности звука, а Джеффресс считал, что звуки воспринимаются и обрабатываются человеком одинаково вне зависимости от их интенсивности.

Для более детального ознакомления с нюансами исследования рекомендую заглянуть в доклад ученых.

Эпилог

Теоретические предположения и подтверждающие их практические опыты показали, что нейроны головного мозга у млекопитающих активируются с разной скоростью в зависимости от направления звукового сигнала. Следом мозг сравнивает эти скорости между всеми задействованными в процессе нейронами для динамического построения карты звуковой среды.

Модель Джеффрессона на самом деле не на 100% ошибочна, так как с ее помощью можно идеально описать локализацию источника звука у сивух. Да, для сипух интенсивность звука не имеет значения, они в любом случае определят положение его источника. Однако эта модель не работает с макаками-резусами, как показали ранее проведенные опыты. Следовательно, эта модель Джеффрессона не может описать локализацию звуков для всех живых существ.

Эксперименты с участием людей лишний раз подтвердили, что локализация звуков протекает у разных организмов по-разному. Многие из участников не смогли верно определить положение источника звуковых сигналов из-за низкой интенсивности звуков.

Ученые считают, что их труд показывает определенную схожесть между тем, как мы видим и как мы слышим. Оба процесса связаны со скоростью нейронов в разных участках мозга, а также с оценкой этой разницы для определения как положения видимых нами предметов в пространстве, так и положения источника слышимого нами звука.

В дальнейшем исследователи собираются провести ряд экспериментов для более детального рассмотрения связи между слухом и зрением человека, что позволит лучше понять, как именно наш мозг динамически строит карту окружающего мира.

Благодарю за внимание, оставайтесь любопытствующими и хорошей всем рабочей недели, ребята! 🙂

Спасибо, что остаётесь с нами. Вам нравятся наши статьи? Хотите видеть больше интересных материалов? Поддержите нас, оформив заказ или порекомендовав знакомым, облачные VPS для разработчиков от $4.99, 30% скидка для пользователей Хабра на уникальный аналог entry-level серверов, который был придуман нами для Вас: Вся правда о VPS (KVM) E5-2650 v4 (6 Cores) 10GB DDR4 240GB SSD 1Gbps от $20 или как правильно делить сервер? (доступны варианты с RAID1 и RAID10, до 24 ядер и до 40GB DDR4).

Dell R730xd в 2 раза дешевле? Только у нас 2 х Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 ТВ от $199 в Нидерландах! Dell R420 — 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB — от $99! Читайте о том Как построить инфраструктуру корп. класса c применением серверов Dell R730xd Е5-2650 v4 стоимостью 9000 евро за копейки?

ссылка на оригинал статьи https://habr.com/ru/company/ua-hosting/blog/476396/

Локализация звуков: как мозг распознает источники звуков

Основа исследования

Результаты исследования

Эпилог

Комментарии

Добавить комментарий Отменить ответ