Пространственная локализация цифрового звука в научном эксперименте и практике

Разваляева А.Ю.; Носуленко В.Н.

doi:10.17759/exppsy.2023160202

Экспериментальная психология
2023. Том 16. № 2. С. 20–35
doi:10.17759/exppsy.2023160202
ISSN: 2072-7593 / 2311-7036 (online)

Пространственная локализация цифрового звука в научном эксперименте и практике

142

Разваляева А.Ю., Носуленко В.Н.

Аннотация

Локализация звука в пространстве — важный компонент слухового восприятия, участвующий в выделении различных звуковых потоков, восприятии речи в шуме и организации слуховых образов. Исследования, проводившиеся в течение прошлого столетия, показали, что локализация звука достигается за счет: различий в интенсивности и временной задержки звуковых волн, приходящих на разные уши; спектральных искажений, возникающих из-за анатомических особенностей строения ушных раковин, головы, торса; динамических подсказок (движений головы слушателя), и т.д. Однако не были решены некоторые научные и методологические вопросы (в первую очередь связанные с восприятием естественных звуков и экологической валидностью исследований). Развитие техник цифрового звука также приводит к появлению новых направлений исследований, среди которых обработка звука для передачи пространственной информации в наушниках (что решается с помощью передаточной функции головы — HRTF) и создание слуховых интерфейсов. Задачи, стоящие перед исследователями в этих областях — улучшение восприятия пространственной информации (за счет манипуляции характеристиками звука, подсказок или тренировки) и создание таких звуковых событий, которые смогут восприниматься предметно, т.е. неразрывно связываться с целью деятельности слушателя. В разрешении поставленных задач и повышении экологической валидности исследований может помочь методология воспринимаемого качества событий, позволяющая выделять, какие свойства слухового образа становятся наиболее важными в деятельности человека и каким физическим свойствам события они соответствуют.

Общая информация

Ключевые слова: слуховое восприятие, локализация звука, передаточная функция головы (HRTF), слуховые интерфейсы, сонификация, воспринимаемое качество событий

Рубрика издания: Психология цифровой реальности

Тип материала: научная статья

DOI: https://doi.org/10.17759/exppsy.2023160202

Финансирование. Исследование выполнено по Государственному заданию № 0138-2023-0006.

Получена: 03.05.2023

Принята в печать: 01.06.2023

Для цитаты: Разваляева А.Ю., Носуленко В.Н. Пространственная локализация цифрового звука в научном эксперименте и практике // Экспериментальная психология. 2023. Том 16. № 2. С. 20–35. DOI: 10.17759/exppsy.2023160202

Подкаст

Полный текст

Введение

Человеческий слух обладает удивительными свойствами, позволяющими (как правило, без специальных усилий и знаний) решать множество сложных задач. Ситуации, где различные звуки, искажающие и маскирующие друг друга, исходят от источников, не видных глазу и находящихся в разных точках пространства, настолько обыденны, что мы не замечаем их. И при этом большинство может с легкостью выделить эти источники, определить их положение и соотнести с реальными предметами или видами деятельности [Lotto, 2011]. В процессе взаимодействия со средой у человека формируется опыт предметного восприятия акустических событий как обособленных в окружающем человека пространстве [Носуленко, 2018]. Пространственный слух важен не только для локализации источника звука, но и чтобы отделять сигнал от маскировочного звука, а также для организации слухового восприятия в целом [4; 10; 22—23].

Говоря о локализации звука в пространстве, выделяют широкое и узкое понимание этого термина. В узком смысле речь идет об определении направления на источник звука [Gulick, 1971]. В широком смысле этот термин синонимичен слуховому пространственному восприятию, означающему, что кроме направления определяется расстояние до источника звука, его перемещение в трехмерном пространстве и объем звукового пространства [Блауэрт, 1979; Letowski, 2012]. С последним компонентом связаны представления о звуковой обстановке и о роли реверберации в восприятии пространства — даже не имея специальных знаний, по звуковым отражениям легко определить объем помещения и наличие или отсутствие в нем различных предметов [Носуленко, 1988; Baldwin, 2012].

Как показывают литературные данные, точность локализации звука в пространстве может быть достаточно высокой. Так, для широкополосных источников, находящихся спереди от слушателя, в помещениях с низкой реверберацией, размывание абсолютной локализации составляет всего 4° по азимуту и подъему. Для латеральных звуков эта величина может увеличиться до 10°, а для задних — до 20—25°. В отличие от абсолютной локализации, различия в пространственном положении источников звука определяются гораздо точнее (ошибки в диапазоне 1—3°) [Letowski, 2012].

Одно из первых систематических исследований в области пространственной локализации звука было сделано Джованни Вентури в 1796 г., но активное ее изучение началось ближе к концу 19-го века и ознаменовалось теориями Джона Стретта (лорда Рэлея), Жана-Баптиста Ляборда и Сильвануса Томпсона [Gulick, 1971]. На протяжении 20-го и 21-го веков эта проблема расширялась, как в рамках новых направлений психологии (например, когнитивной и инженерной психологии), так и в связи с развитием новых технологий обработки, преобразования и передачи звуковых сигналов. В области психоакустики классической работой по пространственному слуху остается книга Йенса Блауэрта [Блауэрт, 1979]. В современных исследованиях особо выделяются мультимодальная природа пространственного слуха, а также вопросы связи восприятия и локализации звука с вниманием, памятью, исполнительными функциями и когнитивной нагрузкой [18; 30; 36; 41—42].

В этой статье мы рассмотрим основные подходы к изучению пространственной локализации звука человеком, а также методологические вопросы, связанные с созданием пространственных слуховых интерфейсов. Обсудим перспективы исследований пространственного слуха, которые открываются благодаря применению цифровых звуковых технологий.

Теоретическая и методологическая позиция проводимого анализа основана на подходе воспринимаемого качества, разработанного для изучения взаимодействия человека с реальными объектами его окружения [Носуленко, 2004; Носуленко, 2007]. В рамках этого подхода ключевым является понятие взаимодействия, которое характеризует как активность восприятия человеком качеств окружающей среды, так и роль человека в формировании этих качеств. Применительно к акустической среде это означает, что анализ должен осуществляться одновременно в отношении качеств, характеризующих акустические свойства среды, и в отношении качеств, отражающих восприятие человеком акустических событий [Носуленко, 1988; Носуленко, 1991; Носуленко, 2021; Носуленко, 2018; Nosulenko, 1990].

То есть речь идет о естественном окружении человека, в котором люди взаимодействуют с реальными звуковыми событиями, а не со стимулами, «изобретенными» для исследования в лаборатории. Парадигма воспринимаемого качества дает инструментарий, позволяющий преодолеть трудности такой «экологизации» исследования. Этот инструментарий позволяет участнику самому определить наиболее значимые, «сущностные» качества воспринимаемых событий, а также установить иерархию разных качеств.

Рассмотрим в контексте представлений о воспринимаемом качестве основные подходы к изучению пространственной локализации звука.

Основные подходы к изучению пространственной локализации звука

Вопросы изучения пространственной локализации источника звука (или кажущегося источника звука), являются важнейшими для экспериментального изучения слухового восприятия. Спецификой восприятия звука как динамического, процессуального образования является неразрывная связь пространственных характеристик с временными (ведь звучаний нулевой длительности в природе не существует!). Поэтому мы будем говорить, прежде всего, о звуке как об акустическом событии, в воспринимаемом качестве которого интегрированы как пространственные, так и динамические характеристики. Человек способен разделять звуковые потоки, идущие от разных источников, осуществляя их интеграцию во времени [Носуленко, 1988; Bregman, 1978]. Пространственно-временная интеграция звуковой информации позволяет человеку не только ориентироваться в пространстве, но и, за счет так называемого «коктейль-эффекта» (Cocktail Party Phenomenon), дифференцировать содержание разных звуковых потоков [2; 10; 22—23].

Обычно механизмы пространственной локализации звука связываются с «дуплексной теорией», которую еще в 1907 г.предложил Дж.В. Стретт (Лорд Релей) [Стрэтт, 1944]. Согласно этой теории, источники низкочастотных звуков локализуются благодаря восприятию интерауральных временных различий (Interaural Time Delay), а высокочастотные источники — за счет интерауральных различий по интенсивности (Interaural Intensity Difference). Современные исследования подтверждают эту точку зрения: локализация звуковых источников с частотой < 1,5 кГц распознается благодаря интерауральной временной задержке и различиям в фазе (опытные слушатели чувствительны к разнице в 10—20 мс), звуки с частотой > 4 кГц локализуются благодаря различиям в интенсивности [Lotto, 2011].

Для проверки дуплексной теории обычно применялись упрощенные для эксперимента звуки, что позволяло отделить ситуации, в которых доминировал тот или другой тип интерауральных временных различий. Однако эта теория мало применима для интерпретации закономерностей локализации сложных акустических событий, источником которых являются объекты естественного окружения человека. Для таких событий существует огромное количество комбинаций признаков, связанных с задержкой и/или с интерауральными различиями по интенсивности, которые одновременно определяют содержание воспринимаемого качества услышанного [6—7].

Несмотря на то, что дуплексная теория хорошо объясняет бинауральную локализацию звуков в горизонтальной плоскости (по азимуту), она не может объяснить ошибки перепутывания локализации источника звука, находящегося перед слушателем или сзади (front/back error). Такое перепутывание обычно наблюдается вблизи медианной плоскости, где из-за одинакового расстояния от источника звука до обоих ушей снижается значение интерауральной разницы времени и интенсивности. Аналогично, дуплексная теория не объясняет ошибки угла возвышения в медианной плоскости (elevation error, up/down error), когда слушатель перепутывает положение источника звука сверху/снизу. Эти два типа ошибок часто сочетаются: например, слушатель воспринимает звук снизу и спереди, хотя он звучит сверху и сзади [Wenzel, 2000].

Во всех этих случаях определить правильное положение источника помогают изменения в звуке, происходящие из-за преломления звуковой волны ушной раковиной, головой, туловищем, форма которых индивидуальна, а также за счет отражений в пространстве прослушивания [Блауэрт, 1979; Gelfand, 2010; Letowski, 2012; Rajendran, 2019; Towers, 2012; Wright, 2006]. Также снижению ошибок локализации во фронтальной и медианной плоскостях способствуют корректирующие движения головы [Jiang, 2019; Kearney, 2012; Oberem]. Отслеживание положения головы особенно важно при восприятии движущихся источников, когда необходимо понимать, как расположена голова не только по отношению к телу, но и к окружению [Pastore, 2020].

В задачи нашей статьи не входит детальное обсуждение результатов исследований пространственного слуха. Подробный анализ проблем, возникающих в этих исследованиях, был проведен нами ранее [4—7; 39]. Среди обобщающих работ особое внимание заслуживает обзор Т. и Ш. Летовски [Letowski, 2012], где авторы дают исчерпывающую информацию о современном состоянии исследований слуховой локализации. Для более глубокого ознакомления с полученными результатами читатель может обратиться к указанным источникам.

Отметим только еще раз, что большинство выводов было получено на упрощенных для эксперимента звуках. Соответственно, изучаемые механизмы описывались дифференцированно для отдельных составляющих искусственного звука, в рамках искусственных физических моделей. Эксперименты проводились, как правило, в помещениях с подавленной реверберацией, без учета акустической обстановки. Понятно, что экологическая валидность таких исследований остается под вопросом [Носуленко, 1991; Nosulenko, 1990]. Такое состояние объясняется большими техническими и методическими сложностями, хотя еще в 1964 г.К. Черри подчеркивал необходимость применения в эксперименте реальных звуков человеческого окружения [Черри, 1964]. Методы традиционной психоакустики не позволяли обнаружить многочисленные различительные признаки, которые слушатель использует при восприятии сложного звука [Green, 1976], и дифференцировать эффект их одновременного воздействия на слушателя [Носуленко, 1988; Носуленко, 2018; Nosulenko, 1990].

Нам представляется, что определенное решение методических проблем дает подход воспринимаемого качества, который «переворачивает» исследовательскую парадигму, ставя на первый план не «физическую модель» внешнего события, а самого воспринимающего субъекта и сформированное у него воспринимаемое качество события [6—7]. В этом плане развитие технологий звукозаписи и звуковоспроизведения должно быть подчинено задачам создания некоторого вторичного звукового поля, характеристики которого были бы аналогичны первичному не только в смысле его акустических свойств, но и в плане психологических качеств его восприятия. Последнее означает «психологическую реконструкцию» первичного поля [Носуленко, 2018].

Ряд технических сложностей решается благодаря применению цифровых технологий для преобразования звука. Активное применение цифрового звука наблюдается, например, в киноиндустрии, где особую роль играют пространственные эффекты. При этом коммерциализация новых возможностей цифрового звука часто опережает исследования его восприятия человеком, а также анализ последствий (возможно негативных) его воздействия на слушателя [Носуленко, 1988; Носуленко, 2009; Носуленко, 2018].

Появление цифровых технологий обработки звука способствовало развитию новых областей исследования и практического применения возможностей пространственной локализации звука человеком [Носуленко, 2020; Zhang, 2017]. Речь идет не только о пространственном слухе, но и о возможности управления звуком так, чтобы его характеристики помогали человеку идентифицировать окружающие объекты (не обязательно звуковые) и их расположение. Сюда же можно включить работы по созданию таких неречевых звуков (сонификации), при восприятии которых идентифицируются свойства закодированной совокупности данных, позволяющих узнавать что-то об объектах человеческой деятельности, в том числе об их пространственных свойствах [Разваляева, 2022; Ziemer, 2020].

Рассмотрим подробнее некоторые из этих работ.

Цифровые технологии в изучении пространственной локализации звука

Цифровые технологии дают возможность осуществить такое же преобразование звука, которое осуществляет тело человека (прежде всего голова и уши) с помощью так называемой передаточной функцией головы — HRTF (Head-Related Transfer Function). Измерение характеристик звука для построения этих функций обычно осуществляется на входе в ушной канал реального слушателя или на манекене «Искусственная голова», в котором повторяется формы головы и ушных раковин человека со встроенными микрофонами. По результатам измерений строятся соответствующие 3D-модели пространственного звука и осуществляется так называемый бинауральный синтез путем обработки монофонического звука двумя фильтрами, характеристики которых соответствуют HRTF для левого и правого уха. Параметры фильтров могут быть не только вычислены из измеренных HRTF, но и рассчитаны численными методами из данных о дифракции звуковой волны на голове, торсе и ушных раковинах [Nicol R.Representation, 2010]. При прослушивании звука с помощью наушников такиебинауральные технологии позволяют создать ощущение, что кажущиеся источники звука находятся за пределами головы [Gelfand, 2010; Wenzel, 2000], в отличие от звуков, созданных техникой панорамирования, локализуемых «внутри головы». В последнем случае фильтрующие характеристики, связанные с индивидуально-анатомическими особенностями, не учитываются, что и приводит к искажению в восприятии пространственных характеристик звука [Блауэрт, 1979; Letowski, 2012; Nicol R.Representation, 2010].

Таким образом, применение HRTF позволяет приблизиться к решению проблемы экологической валидности звука, воспроизводимого при помощи звуковых технологий, и создать естественное (экологически валидное) акустическое пространство. Технологии HRTF дают качественное преимущество в управлении пространственной локализацией кажущихся источников звука, по сравнению с обычным панорамированием (управление интерауральными различиями по времени или по интенсивности) [Larsen, 2013; Letowski, 2012]. Важно подчеркнуть, что преобразование HRTF направлено на получение именно естественности воспроизводимого звука [Wenzel, 2000] и не должно приводить к таким его искажениям, которые возникают в результате применения различных способов компрессии звукозаписи и снижают не только детальность кажущегося источника звука [Носуленко, 2009], но и точность его локализации [Letowski, 2012]. В этом плане важную роль играет индивидуализация характеристик HRTF: наилучший эффект трехмерного звукового пространства достигается, если преобразование звука осуществляется на основе измерений, полученных на голове того же слушателя, для которого предназначены создаваемые звуковые события. В практике часто используются результаты измерений HRTF, хранящиеся в многочисленных базах данных [Warusfel]. При применении неиндивидуализированных HRTF точность локализации кажущегося источника звука может снижаться, как и в случае с панорамированием, и приводить к его восприятию «внутри» головы [Oberem; Stitt, 2019; Towers, 2012; Wenzel, 2000].

Повысить точность локализации звуков, обработанных неиндивидуализированными HRTF, можно, если в их характеристиках учитываются движения головы слушателя. Возникающая динамическая подсказка снижает ошибки во фронтальной плоскости с 16% до 6—7%, по сравнению со статичным предъявлением звуков [Oberem]. Известны попытки преобразовать неиндивидуализированные HRTF и приблизить их к индивидуальным на основании антропометрических данных о характеристиках головы, туловища и ушной раковины [Algazi, 2001; Bilinski, 2014; Geronazzo, 2019; Terai, 2003]. Применение нейросетей для такого преобразования позволяет повысить точность локализации и снизить ошибки во фронтальной плоскости до 12,5% по сравнению с усредненной HRTF [Lee, 2018].

Возможны дополнительные виды преобразования неиндивидуализированных HRTF при помощи различных фильтров. Например, более точной локализации угла подъема можно добиться, усреднив импульсные отклики от двух точек в HRTF, отстоящие от источника на ±8º по вертикали. Пиковый фильтр на частоте 8 кГц приводит к смещению воспринимаемых источников вверх. Режекторный фильтр на частоте 7 кГц и усреднение импульсных откликов от двух точек в HRTF, отстоящих от источника сигнала на ±8º по горизонтали, приводят к смещению воспринимаемых источников звука вниз [Rajendran, 2019]. Использование сочетаний белого и розового шума в качестве стимульного материала также снижает ошибки относительно фронтальной плоскости по сравнению с коротким звуком с пиком 1 кГц [Bălan, 2017].

Одна из возможностей повышения точности пространственной локализации кажущегося источника звука связана с применением «подсказок» с помощью непространственных звуков. Так, например, к свип-тону частотой 200 Гц, который перемещался от 0º до 180º или, наоборот, со скоростью 90º в секунду, подмешивались звуки-акценты длительностью 100 мс на частоте 100—102 Гц в моменты, когда свип-тон проходил точки 0º, 90º и 180º. Это помогало снизить ошибки во фронтальной и латерально-фронтальной областях (на 14—48% в зависимости от области) [Towers, 2012]. Однако для 40% слушателей такая подсказка воспринималась как помеха для локализации основного звука и игнорировалась ими. То есть использование подсказки, которая становится дополнительной задачей, может приводить к возрастанию когнитивной нагрузки на слушателя.

В большом цикле исследований, посвященных применению пространственных слуховых интерфейсов в авиации, пространственная локализация звуков, сформированных с помощью передаточной функции (HRTF), должна была указывать на необходимое смещение местоположения самолета к заданной путевой точке. Одной из непространственных подсказок достижения цели было голосовое сообщение «Путевая точка». При этом было показано, что отслеживание положения головы обеспечивает более точную и интуитивно более понятную информацию о положении и направлении движения самолета [Brungart, 2007а].

В других работах этих же авторов [Brungart, 2008; Simpson, 2008] применялся слуховой интерфейс, в котором характеристики HRTF были связаны с параметрами тангажа и крена, получаемыми в реальном времени от соответствующих датчиков самолета. Получаемая пространственная информация добавлялась к произвольному звуку (например к музыке). Положение кажущегося источника звука перемещалось в направлении более высоко поднятого крыла самолета. Одновременно использовалась непространственная подсказка трех типов: (1) изменение соотношения верхних и низких частот в звуке, в зависимости от положения носа самолета вверх или вниз; (2) добавление в музыку так называемой «повторной высоты» (частотой 1000 Гц, если нос самолета поднят вверх и частота 2400 Гц, когда он направлен вниз); (3) добавление в звук интерауральной декорреляции, что делало звучание более размытым при изменении горизонтальности полета. Еще одной подсказкой была скорость изменения этих параметров: медленнее вблизи к горизонтальному положению и быстрее в ответ на сильное отклонение положения. Результаты оценки системы в полете показали эффективность звукового авиагоризонта, как для информирования пилота об изменениях в положении самолета, так и в плане улучшения качества маневрирования летательного аппарата при обеспечении горизонтального полета из случайной начальной позиции.

Локализация звука — пластичный процесс, и он может изменяться в результате научения. Экспозиция и тренировки, включающие активное научение и обратную связь, позволяют людям адаптироваться к неиндивидуализированным HRTF и другим условиям, искажающим слуховое восприятие. Часто эти программы включают полимодальные сигналы, объединяющие, например, слух, зрение и проприоцепцию [Bouchara, 2019]. Даже короткие тренировки, включающие 3—5 звуков, улучшают точность локализации, как азимута, так и угла подъема [Mendonça, 2012]. Тренировки позволяют снизить количество ошибок относительно фронтальной плоскости [Bălan, 2017; Zahorik, 2006] и в вертикальной плоскости [Stitt, 2019].

Заключение

Как мы уже отмечали, вопросы использования звука в качестве интерфейса в системах «человек-техника» приобретают все большее внимание исследователей и разработчиков технических систем. Уже более 25 лет проводится ежегодная научная конференция (ICAD) по проблемам создания звуковых дисплеев и слуховых интерфейсов. Возрастающая сложность технических систем и повышение требований к информативности управляющих каналов заставляют искать пути создания интерфейсов, дополняющих или заменяющих традиционные средства визуального представления информации.

В отечественной инженерной психологии эти вопросы ставились еще в 80-х гг. прошлого века. Так, в работе Н.Д. Заваловой, Б.Ф. Ломова и В.А. Пономаренко [Завалова, 1986], посвященной проблеме регуляции деятельности пилота, особо подчеркивалась необходимость дополнительной поддержки представлений пилота о пространственном положении воздушного судна, поскольку пилот работает «…в условиях воздействия неинструментальных интеро- и проприоцептивных сигналов, которые могут нести ложную информацию о положении самолета» [Завалова, 1986, с. 113]. Формирование этого представления на базе совокупности приборной информации требует умственной работы пилота по перекодировке в образную форму абстрактной дискретной информации, поступающей от зрительных приборов. И здесь применение звука показывает определенные преимущества, особенно в связи с возможностями пространственного слуха.

Современные работы показали, что звуковая интеграция приборной информации позволяет снизить объем таких умственных преобразований, поскольку дискретная информация разных зрительных приборов может быть отражена в целостном, квази-непрерывном потоке пространственной звуковой информации и поможет пилоту скорректировать неинструментальную информацию (зрительную и кинестетическую). То есть пространственный слуховой интерфейс вполне может выполнять функции зрительных индикаторов пространственного положения самолета, что и было показано во многих современных работах [Brungart, 2008; Brungart, 2007а; Simpson, 2008].

Использование возможностей пространственного слуха при создании слуховых интерфейсов позволяет расширить возможности информационных систем. Они не требуют направленного внимания оператора и позволяют создавать в разных точках трехмерного пространства кажущиеся источники звука, которые могут восприниматься одновременно, не мешая друг другу. Можно ожидать, что разработки по дополнению или замене зрительных интерфейсов слуховыми позволят снизить когнитивную нагрузку оператора в самых разных технических системах.

Как показал анализ работ в этой области, одна из проблем создания слуховых интерфейсов заключается в недостаточной изученности возможностей такого управления звуком, которое позволило бы слушателю стабильно идентифицировать и локализовать кажущийся источник звука в пространстве, создавая у слушателя предметный образ воспринимаемого звучания [Носуленко, 2020]. Один из распространенных способов повышения точности локализации звука в пространстве заключается в применении непространственных звуковых подсказок (например, голосом [Brungart, 2007а] или путем внесения дополнительных спектральных искажений в звук [Brungart, 2008; Simpson, 2008]). Однако использование таких подсказок может стать для оператора дополнительной задачей, что приведет к возрастанию когнитивной нагрузки на слушателя.

В соответствии с нашими представлениями, сочетание различных способов управления звуком должно обеспечивать создание некоторого целостного акустического события, которое будет воспринимается слушателем как интегральная совокупность признаков (воспринимаемое качество), «опредмечивающая» достижение цели некоторой деятельности (например, «опустить левое крыло, чтобы вернуть самолет в горизонтальное положение» [Brungart, 2008; Simpson, 2008]). То есть содержание воспринимаемого качества такого акустического события должно восприниматься слушателем не как, например, искаженная музыка с добавлением тонального звука, а как сигнал «опустить левое крыло». Именно в исследовании возможностей такой интеграции разных видов звуковой информации мы видим перспективу развития проблематики пространственных слуховых интерфейсов. Инструментарий парадигмы воспринимаемого качества позволяет определить характер «опредмеченности» индивидом искусственно сконструированных событий, а совокупность признаков в содержании воспринимаемого качества события покажет направления, по которым следует организовывать тренировку слушателя [6—7]. Здесь важно учитывать полимодальность восприятия пространственной информации, так, чтобы в воспринимаемом качестве локализуемого события были согласованы признаки разных модальностей (прежде всего слуховой и зрительной). Ведь в случае их рассогласования могут возникнуть ошибки в локализации звука и даже слуховые иллюзии [Pastore, 2020]. Такая «полимодальность» слухового интерфейса заложена в самой природе предметного восприятия акустического события: человек в своем опыте знакомится со звуками, которые излучаются предметами, обособленными в окружающем пространстве [Носуленко, 1988; Носуленко, 2018]. Именно такой опыт необходимо сформировать у слушателя в процессе тренировки пространственного восприятия слухового интерфейса.

В практике создания слуховых интерфейсов задачей формирования пространственного звука является не обеспечение условий передачи характеристик первичного поля во вторичное, как это делается в звукозаписи, а управление локализацией кажущегося источника звука в соответствии с определенной моделью работы технической системы. Решение этой задачи затруднительно без применения цифровых технологий, позволяющих осуществлять преобразование звука в соответствии с HRTF. Сложность применения HRTF связана, прежде всего, с зависимостью ее параметров от индивидуальных характеристик слушателя. В практическом плане наилучший выход заключается в создании базы индивидуальных HRTF для группы специалистов, занятых в определенном виде деятельности. Например, система управления самолетом перестраивается, в зависимости от конкретного пилота, совершающего полет. Однако создание такой базы требует относительно трудоемкой измерительной процедуры. Есть, конечно, примеры операционализации построения индивидуальных HRTF с помощью антропометрических данных о слушателе [Algazi, 2001; Bilinski, 2014; Geronazzo, 2019; Terai, 2003], но проверка эффективности применения этих данных требует, по нашему мнению, дополнительных исследований. Перспектива повышения точности управления локализацией кажущегося источника звука видится также в получении индивидуализированных HRTF в реверберационных условиях [Басюл, 2021] и в динамической коррекции HRTF, связанной с движениями головы слушателя [Jiang, 2019; Kearney, 2012; Oberem].

В этой статье мы сосредоточились, прежде всего, на актуальных вопросах изучения локализации звука, связанных с практическими задачами создания слуховых интерфейсов, предназначенных для применения в закрытом звуковом поле. Воспроизведение звука в условиях закрытого поля предполагает применение наушников. Поэтому вне нашего внимания остались вопросы цифровой обработки звука в открытом поле (free-field), где начинают действовать дополнительные механизмы пространственного восприятия, связанные, например, с расстоянием между источниками (излучателями) звука и слушателем. Другим ограничением проведенного анализа является отсутствие раздела, посвященного виртуальной реальности, хотя рассмотренные вопросы напрямую касаются проблемы создания и изучения виртуальной реальности. Однако при создании виртуальной реальности решаются психологические задачи, отличные от задач применения слуховых интерфейсов, что требует, на наш взгляд, отдельного анализа.

Учитывая особую междисциплинарность обсуждаемой проблематики, мы хотели бы с помощью данной статьи привлечь внимание не только психологов, занимающихся проблемами психоакустики, но и специалистов, интересующихся вопросами моделирования звуковых событий (инженеров-акустиков, звукорежиссеров, акустических дизайнеров и др.), а также разработчиков техники, в управлении которой требуется применение звуковых и мультимодальных интерфейсов, и самих операторов, которым придется эту технику использовать.

Литература

Басюл И.А., Обелец В.С. Опыт регистрации HRTF в реверберационных условиях // XIV Всероссийская мультиконференция по проблемам управления (МКПУ-2021): материалы XIV мультиконференции (с. Дивноморское, г. Геленджик, 27 сентября—2 октября 2021 г.): в 4 т. Т. 3. Ростов-на-Дону; Таганрог: Из-во Южного федерального университета, 2021. С. 26—28.
Блауэрт Й. Пространственный слух: пер. с нем. М.: Связь, 1979. 220 с.
Завалова Н.Д., Ломов Б.Ф., Пономаренко В.А. Образ в системе психической регуляции деятельности. М.: Наука, 1986. 174 с.
Носуленко В.Н. Психология слухового восприятия. М.: Наука, 1988. 216 с.
Носуленко В.Н. «Экологизация» психоакустического исследования: основные направления // Проблемы экологической психоакустики / Под ред. В.Н. Носуленко. М.: ИПАН, 1991. С. 8—27.
Носуленко В.Н. Психофизика восприятия естественной среды: дисс. ... д-ра психол. наук. М.: ИП РАН, 2004. 323 с.
Носуленко В.Н. Психофизика восприятия естественной среды. Проблема воспринимаемого качества. М.: ИП РАН, 2007. 400 с.
Носуленко В.Н. Звук в интерфейсах взаимодействия человека и техники // Экопсихологические исследования-6: экология детства и психология устойчивого развития / Отв. ред. В.И. Панов. М.: ФГБНУ «Психологический институт РАО»; Курск: Университетская книга, 2020. С. 155—159.
Носуленко В.Н. Вопросы интеграции качественных и количественных методов в психологическом исследовании // Экспериментальная психология. 2021. Том 14. № 3. С. 4—16. DOI:10.17759/exppsy.2021140301
Носуленко В.Н., Басюл И.А., Зыбин Е.Ю., Леликов М.А. Пространственное разделение информации в самолетном переговорном устройстве // Известия ЮФУ. Технические науки. 2021. № 7. С. 109—119. DOI:10.18522/2311-3103-2021-7-109-119
Носуленко В.Н., Старикова И.В. Сравнение качества звучания музыкальных фрагментов, различающихся способом кодирования записи // Экспериментальная психология. 2009. Том 2. № 3. С. 19—34.
Носуленко В.Н., Харитонов А.Н. Жизнь среди звуков. Психологические реконструкции. М.: Институт психологии РАН, 2018. 422 с.
Разваляева А.Ю. Сонификация как средство невербальной коммуникации: классификация методов и способы применения // История, современность и перспективы развития психологии в системе Российской академии наук: материалы Международной юбилейной научной конференции, посвященной 50-летию создания Института психологии РАН (г. Москва, 16—18 ноября 2022 г.). М.: ИП РАН, 2022. С. 238—240. DOI:10.38098/conf_22_0451
Стрэтт Дж.В. (Лорд Рэлей). Теория звука: пер. с англ. Т. 2. М; Л.: ОГИЗ, Гостехиздат, 1944. 477 с.
Черри К. О бинауральном восприятии звуков // Теория связи в сенсорных системах / Под ред. Г.Д. Смирнова. М.: Мир, 1964. С. 321—337.
Algazi V.R., Avendano C., Duda R.O. Estimation of a spherical-head model from anthropometry // Journal of Audio Engineering Society. 2001. Vol. 49. № 6. P. 472—478.
Bălan O., Moldoveanu A., Moldoveanu F., Morar A., Ivaşcu S. Perceptual feedback training for improving spatial acuity and resolving front-back confusion errors in virtual auditory environments // 40th International Conference on Telecommunications and Signal Processing (TSP) (Barcelona, Spain, 5—7 July 2017). Brno: Brno University of Technology, 2017. P. 334—337. DOI:10.1109/TSP.2017.8075999
Baldwin C.L. Auditory Cognition and Human Performance: Research and Applications. Boca Raton, FL: CRC Press, 2012. 314 p.
Bilinski P., Ahrens J., Thomas M.R.P., Tashev I.J., Platt J.C. HRTF magnitude synthesis via sparse representation of anthropometric features // IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) (Florence, Italy, 4—9 May 2014). Piscataway, NJ: IEEE, 2014. P. 4468—4472.
Bouchara T., Bara T.-G., Weiss P.-L., Guilbert A. Influence of vision on short-term sound localization training with non-individualized HRTF // Proceedings of the EAA Spatial Audio Signal Processing Symposium (Paris, France, 6—7 September 2019). Paris: Sorbonne Université, 2019. P. 55—60. DOI:10.25836/sasp.2019.04
Bregman A.S. Auditory streaming: competition among alternative organizations // Perception and Psychophysics. 1978. Vol. 23. № 5. P. 391—398. DOI:10.3758/BF03204141
Bronkhorst A.W. The cocktail party phenomenon: A review of research on speech intelligibility in multiple-talker conditions // Acta Acustica united with Acoustica. 2000. Vol. 86. № 1. P. 119—128.
Brungart D.S., Simpson D. Cocktail party listening in a dynamic multitalker environment // Perception & Psychophysics. 2007. Vol. 69. № 1. P. 71—99.
Brungart D.S., Simpson B.D. Design, validation, and in-flight evaluation of an auditory attitude indicator based on pilot-selected music // Proceedings of the 14th International Conference on Auditory Display (Paris, France, 24—27 June, 2008). Atlanta, GA: Georgia Institute of Technology, ICAD, 2008. P. 24—27.
Brungart D.S., Simpson B.D., Dallman R.C., Romigh G., Yasky R., Raquet J. A comparison of head-tracked and vehicle-tracked virtual audio cues in an aircraft navigation task // Proceedings of the 13 International Conference on Auditory Display (Montreal, Canada, 26—29 June, 2007). Atlanta, GA: Georgia Institute of Technology, ICAD, 2007. P. 32—37.
Gelfand S.A. Hearing: An Introduction to Psychological and Physiological Acoustics. 5th Edition. London: Informa Healthcare, 2010. 311 p.
Geronazzo M., Peruch E., Prandoni F., Avanzini F. Applying a single-notch metric to image-guided head-related transfer function selection for improved vertical localization // Journal of the Audio Engineering Society. 2019. Vol. 67. № P. 414—428. DOI:10.17743/jaes.2019.0010
Green D.M. An Introduction to Hearing. Hillsdale, NY: Lawrence Erlbaum, 1976. 353 p.
Gulick W.L. Hearing: Physiology and Psychophysics. New York: Oxford University Press, 1971. 258 p.
Hansberger J.T., Peng C., Blakely V., Meacham S., Cao L., Diliberti N. A multimodal interface for virtual information environments // Virtual, Augmented and Mixed Reality. Multimodal Interaction. HCII 2019. Lecture Notes in Computer Science, vol. 11574 / J.Y.C. Chen and G. Fragomeni (eds.). Cham: Springer, 2019. P. 59—70.
Jiang J., Xie B., Mai H., Liu L., Yi K., Zhang C. The role of dynamic cue in auditory vertical localization // Applied Acoustics. 2019. Vol. 146. P. 398—408. DOI:10.1016/j.apacoust.2018.12.002
Kearney G., Gorzel M., Rice H., Boland F. Distance perception in interactive virtual acoustic environments using first and higher order ambisonic sound fields // Acta Acustica united with Acustica. 2012. Vol. 98. № P. 61—71. DOI:10.3813/AAA.918492
Larsen C.H., Lauritsen D.S., Larsen J.J., Pilgaard M., Madsen J.B. Differences in human audio localization performance between a HRTF- and a non-HRTF audio system // AM'13: Proceedings of the 8th Audio Mostly Conference (Piteå, Sweden, 18—20 September, 2013). New York: ACM Press, 2013. P. 1—8. DOI:10.1145/2544114.2544118
Lee G.W., Kim H.K. Personalized HRTF modeling based on deep neural network using anthropometric measurements and images of the ear // Applied Sciences. 2018. Vol. 8. № 11. P. 2180. DOI:10.3390/app8112180
Letowski T.R., Letowski S.T. Auditory Spatial Perception: Auditory Localization. Report ARL-TR-6016. U.S. Army Research Laboratory, 2012. 163 p.
Lotto A., Holt L. Psychology of auditory perception // Wiley Interdisciplinary Reviews: Cognitive Science. 2011. Vol. 2. № 5. P. 479—489. DOI:10.1002/wcs.123
Mendonça C., Campos G., Dias P., Vieira J., Ferreira J.P., Santos J.A. On the improvement of localization accuracy with non-individualized HRTF-based sounds // Journal of the Audio Engineering Society. 2012. Vol. 60. № 10. P. 821—830.
Nicol R.Representation et perception des espaces auditifs virtuels : Mémoire d’Habilitation à Diriger des Recherches. Le Mans; Laval: Université de Maine, 2010. 287 p.
Nosulenko V. Problems of ecological psychoacoustics // Proceedings of the Sixth Annual Meeting of the International Society for Psychophysics. Würsburg, 1990. P. 135—139.
Oberem J., Richter J.G., Setzer D., Seibold J., Koch I., Fels J. Experiments on localization accuracy with non-individual and individual HRTFs comparing static and dynamic reproduction methods [Электронный ресурс] // bioRxiv. URL: https://www.biorxiv.org/content/biorxiv/early/2020/03/31/2020.03.31.011650.full.pdf (дата обращения: 26.09.2022).
Parise C.V., Spence C. Audiovisual crossmodal correspondences and sound symbolism: A study using the implicit association test // Experimental Brain Research. 2012. Vol. 220. № 3—4. P. 319—333. DOI:10.1007/s00221-012-3140-6
Pastore M.T., Zhou Y., Yost W.A. Cross-modal and cognitive processes in sound localization // The Technology of Binaural Understanding. Modern Acoustics and Signal Processing / J. Blauert, J. Braasch (eds.). Cham: Springer, 2020. P. 315—350. DOI:10.1007/978-3-030-00386-9_12
Rajendran V.G., Gamper H. Spectral manipulation improves elevation perception with non-individualized head-related transfer functions // The Journal of the Acoustical Society of America. 2019. Vol. 145(3). P. EL222—EL228. DOI:10.1121/1.5093641
Simpson B.D., Brungart D.S., Dallman R.C., Yasky R.J., Romigh G.D. Flying by ear: Blind flight with a music-based artificial horizon // Proceedings of the Human Factors and Ergonomics Society 52nd Annual Meeting (New York City, USA, 22—26 September, 2008). Santa Monica, CA: Human Factors & Ergonomics Society, 2008. P. 6—9.
Stitt P., Picinali L., Katz B.F.G. Auditory accommodation to poorly matched non-individual spectral localization cues through active learning // Scientific Reports. 2019. Vol. 9. P. 1063. DOI:10.1038/s41598-018-37873-0
Terai K., Kakuhari I.HRTF calculation with less influence from 3-D modeling error: Making a physical human head model from geometric 3-D data // Acoustical Science and Technology. 2003. Vol. 24. № P. 333—334. DOI:10.1250/ast.24.333
Towers J., Burgess-Limerick R., Riek S. Improving 3-D audio localisation through the provision of supplementary spatial audio cues // The Ergonomics Open Journal. 2012. Vol. 5. № P. 1—9. DOI:10.2174/1875934301205010001
Warusfel O. Listen HRTF database [Электронный ресурс]. URL: http://recherche.ircam.fr/equipes/salles/listen/ (дата обращения: 20.05.2023).
Wenzel E.M., Miller J.D., Abel J.S. Sound Lab: A real-time, software-based system for the study of spatial hearing // Proceedings of the 108th Convention of the Audio Engineering Society (Paris, France, 19—22 February, 2000). New York: Audio Engineering Society, 2000. P. 5140.
Wright B.A., Zhang Y. A review of learning with normal and altered sound-localization cues in human adults: Revisión del aprendizaje en adultos con claves de localización Sonora normales o alteradas // International Journal of Audiology. 2006. Vol. 45. № S1. P. 92—98. DOI:10.1080/14992020600783004
Zahorik P., Bangayan P., Sundareswaran V., Wang K., Tam C. Perceptual recalibration in human sound localization: Learning to remediate front-back reversals // The Journal of the Acoustical Society of America. 2006. Vol. 120. № 1. P. 343—359. DOI:10.1121/1.2208429
Zhang W., Samarasinghe P.N., Chen H., Abhayapala T.D. Surround by sound: A review of spatial audio recording and reproduction // Applied Sciences. 2017. Vol. 7. № P. 532—539. DOI:10.3390/app7050532
Ziemer T., Nuchprayoon N., Schultheis H. Psychoacoustic sonification as user interface for human-machine interaction // International Journal of Informatics Society. 2020. Vol. 12. № 1. P. 3—16.

Информация об авторах

Разваляева Анна Юрьевна, кандидат психологических наук, научный сотрудник, Лаборатория психологии познавательных процессов и математической психологии, Институт психологии Российской академии наук (ФГБУН ИП РАН), Москва, Российская Федерация, ORCID: https://orcid.org/0000-0002-2046-3411, e-mail: annraz@rambler.ru

Носуленко Валерий Николаевич, доктор психологических наук, главный научный сотрудник, лаборатория познавательных процессов и математической психологии, Институт психологии Российской академии наук (ФГБУН ИП РАН), главный научный сотрудник, Институт экспериментальной психологии, Московский государственный психолого-педагогический университет, Москва, Российская Федерация, ORCID: https://orcid.org/0000-0003-0591-2335, e-mail: nosulenkovn@ipran.ru

Метрики

Просмотров web

За все время: 1005
В прошлом месяце: 71
В текущем месяце: 58

Скачиваний PDF

За все время: 142
В прошлом месяце: 6
В текущем месяце: 5

Всего

За все время: 1147
В прошлом месяце: 77
В текущем месяце: 63

PlumX

Метрики публикации