20608

Слуховое восприятие речевых сигналов и оценка качества их звучания

Лекция

Биология и генетика

Как правило слуховое восприятие речи у пожилых людей нарушается в большей степени чем чистых тонов. Среди существующих методов не утратили своего значения камертональные опыты или пробы и установление восприятия разговорной и шепотной речи. Наиболее распространенными способами оценки слуха в диагностики тугоухости являются измерение порогов слышимости чистых тонов и разборчивость записанной на ленте магнитофона и воспроизводимой через аудиометр речи определенной интенсивности см. являются гиперакузия заключающаяся в повышенной...

Русский

2013-07-31

335.5 KB

7 чел.

Лекция №4

Слуховое  восприятие  речевых сигналов и оценка качества их звучания

Слух (auditus) — функция, обеспечивающая восприятие человеком и животными звуковых сигналов.

   Механизм слухового ощущения обусловливается деятельностью слухового анализатора. Периферическая часть анализатора включает наружное, среднее и внутреннее ухо. Ушная раковина преобразует поступающий извне акустический сигнал, отражая и направляя в наружный слуховой проход звуковые волны. В наружном слуховом проходе, выступающем в роли резонатора, изменяются свойства акустического сигнала — увеличивается интенсивность тонов частотой 2—3 кГц. Наиболее значительное преобразование звуков происходит в среднем ухе. Здесь вследствие разницы площади барабанной перепонки и основания стремени, а также благодаря рычажному механизму слуховых косточек и работе мышц барабанной полости значительно нарастает интенсивность проводимого звука при уменьшении его амплитуды. Система среднего уха обеспечивает переход колебаний барабанной перепонки на жидкие среды внутреннего уха — перилимфу и эндолимфу. При этом нивелируется в той или иной степени (в зависимости от частоты звука) акустическое сопротивление воздуха, в котором распространяется звуковая волна, и жидкостей внутреннего уха. Преобразованные волны воспринимаются рецепторными клетками, расположенными на базиллярной пластинке (мембране) улитки, которая колеблется на различных участках, довольно строго соответствующих частоте возбуждающей ее звуковой волны. Возникающее возбуждение в определенных группах рецепторных клеток распространяется по волокнам слухового нерва в ядра ствола мозга, подкорковые центры, расположенные в среднем мозге, достигая слуховой зоны коры, локализующейся в височных долях, где и формируется слуховое ощущение. При этом в результате перекреста проводящих путей звуковой сигнал и из правого, и из левого уха попадает одновременно в оба полушария головного мозга. Слуховой путь имеет пять синапсов, в каждом из которых нервный импульс кодируется по-разному. Механизм кодирования остается до настоящего времени окончательно не раскрытым, что существенно ограничивает возможности практической аудиологии.

   Среди звуковых сигналов, воспринимаемых человеческим ухом, большую роль играют шумы, тоны, их доли и сочетания (см. Звук). Способность воспринимать высоту, громкость, тембр, взаимосвязь музыкальных звуков обозначают термином «музыкальный слух». Некоторые люди способны определять высоту звука лишь сравнив его с другим звуком, высота которого заранее известна (относительный музыкальный слух), другие могут узнавать высоту звука без предварительного сопоставления его с другими звуками (абсолютный музыкальный слух), воспринимать многоголосую музыку (гармонический слух), а также представлять музыку в воображении, без ее исполнения и восприятия (так называемый внутренний слух).

   Считалось, что ухо человека воспринимает звуковые сигналы частотой от 16—20 Гц до 15—20 кГц. Впоследствии было установлено, что человеку в условиях костного проведения свойственно восприятие звуков, имеющих более высокую (до 200 кГц) частоту, т.е. ультразвука. При этом с нарастанием частоты ультразвука чувствительность к нему понижается. Факт слухового восприятия человеком ультразвуков укладывается в существующие ныне представления об эволюции слуха, ибо эта особенность присуща всем без исключения видам млекопитающих. Измерение чувствительности к ультразвукам имеет большое значение для оценки состояния слуха человека, расширяя и углубляя возможности аудиометрии.

   Важной характеристикой С. является его острота, или слуховая чувствительность, которая определяется показателем, равным минимальной величине звукового раздражителя, вызывающего слуховое ощущение. Существует мнение о некотором преобладании слуховой чувствительности у мужчин. Наибольшей слуховой чувствительностью человек обладает в отношении звуков частотой 1—3 кГц. При звуках более низкой или более высокой частоты слуховая чувствительность притупляется, при этом повышается порог слышимости, характеризующийся минимальной интенсивностью звукового импульса, вызывающего слуховое ощущение. Особенно круто повышаются пороги слышимости в сторону низких частот. Однако такая конфигурация пороговых кривых существует только при воздушном проведении звуков. При костном проведении пороги слышимости при воздействии звуковых импульсов низких и средних частот располагаются довольно монотонно. Лишь на частоте более 10 кГц происходит их неуклонное и резко выраженное повышение, и именно в этой области частот слух человека характеризуется малой устойчивостью к действию различных, в т.ч. патогенных, агентов.

   Слуховая чувствительность подвержена значительным возрастным колебаниям. Развитие слуха у ребенка начинается с первых недель после рождения, но происходит довольно медленно. Даже у детей от 4 до 10 лет слуховая чувствительность на 6—10 дБ ниже, чем у взрослых. Лишь к 12—14 годам острота С. достигает максимального уровня и, по некоторым данным, даже превосходит остроту слуха у взрослых. С возрастом С. снижается; этот процесс получил название пресбиакузиса, или старческой тугоухости, — одного из проявлений старения организма. Начальные признаки пресбиакузиса могут быть обнаружены уже после 40 лет, а по некоторым данным, и после 30 лет. При этом возраст, в котором снижается слух, и степень снижения слуха в значительной мере зависят от постоянного проживания в городской или сельской местности, перенесенных заболеваний, работы в шумной обстановке, особенностей наследственности и др. Снижение С. обнаруживается главным образом на высоких частотах. Как правило, слуховое восприятие речи у пожилых людей нарушается в большей степени, чем чистых тонов. Особенно заметны эти нарушения в шумной обстановке. Наибольшее значение в механизме пресбиакузиса имеют нарушения центрального генеза, вместе с тем в далеко зашедших случаях старческой тугоухости наблюдаются уменьшение числа и грубые изменения в рецепторных клетках улитки, атрофия и некроз ядер, характерные для всех центров слухового пути, изменения в звукопроводящих структурах среднего уха (повышение вязкости синовиальной жидкости и ограничение подвижности суставов между слуховыми косточками). В немалой степени развитию пресбиакузиса способствуют атеросклеротические изменения сосудов, прямо или косвенно участвующих в кровоснабжении внутреннего уха. Возрастные нарушения С. усугубляются постоянным действием на организм бытового и транспортного шума, а также усиливающей акустической аппаратуры, что обусловило появление термина «социакузис».

   Огромное воздействие на состояние С. оказывают профессиональные факторы, связанные с работой на шумных производствах. Степень выраженности слуховых нарушений зависит от силы, спектрального состава, непрерывности или прерывистости действия шума, сочетания его с вибрацией, длительности работы в условиях шума, который оказывает неблагоприятное воздействие не только на функции слухового анализатора, но и на деятельность центральной и вегетативной нервной системы, сердечно-сосудистой системы и других органов и систем (см. Шум).

   Состояние слухового анализатора в условиях большой звуковой нагрузки, а также при необходимости повышения слухового восприятия в неблагоприятных условиях (например, в условиях шума) поддерживается рядом физиологических механизмов, среди которых важное место занимает слуховая адаптация. Она заключается в постепенной нормализации слуховых рогов после относительно длительного воздействия на ухо тонов или шумов высокой интенсивности, приводящего к временному повышению порогов слышимости. Различают две формы слуховой адаптации: долговременная — восстановление С. происходит медленно (на протяжении минуты или десятков секунд); быстрая, или кратковременная, — С. восстанавливается в пределах десятков или сотен миллисекунд. Кроме того, существует адаптация, заключающаяся в исчезновении ощущения звука пороговой интенсивности (пороговая адаптация), которая оценивается по времени исчезновения слухового ощущения. Исследование слуховой адаптации нашло применение в диагностике слуховых расстройств.

   Ухо человека достаточно устойчиво к действию звуков высокой интенсивности. Лишь когда эта интенсивность достигает 90—100 дБ (в зависимости от частоты) над порогом слышимости, возникающее ощущение становится неприятным для здорового человека. Поэтому указанную интенсивность звукового давления называют уровнем слухового дискомфорта, определение которого имеет существенное диагностическое значение. Когда интенсивность звука достигает 140 дБ, в ухе возникает чувство боли (болевой порог звукового раздражения).

   Большое значение имеет способность устанавливать расположение источника звука, что помогает человеку (и животным) ориентироваться в окружающей среде. Это явление получило название пространственного слуха, или ототопики. Долгое время считалось, что ототопика осуществляется за счет бинаурального (двуушного) С. позволяющего установить местоположение источника звука в горизонтальной плоскости. Механизм ототопики заключается в том, что отклонение источника звука от средней линии способствует поступлению звуковых импульсов различной интенсивности в каждое ухо и через разные промежутки времени. Однако позже было установлено, что человек может различить положение источника звука и в вертикальной плоскости, что возможно лишь в отношении комплексных звуков (шумов различного состава), но не в отношении чистых тонов. Это происходит за счет моноаурального слуха, механизм которого до сих пор не выяснен. Очевидно лишь, что осуществление слуховой функции в этом случае происходит не по классическому слуховому пути, а через ретикулярную формацию. Исследование пространственного слуха, в частности в вертикальной плоскости, используется в аудиологической практике, т.к. позволяет обнаруживать ранние формы определенных нарушений слуха.

   Исследование С. проводят для оценки его состояния, особенно при слуховых расстройствах. Среди существующих методов не утратили своего значения камертональные опыты, или пробы, и установление восприятия разговорной и шепотной речи. Наиболее распространенными способами оценки слуха в диагностики тугоухости являются измерение порогов слышимости чистых тонов и разборчивость записанной на ленте магнитофона и воспроизводимой через аудиометр речи определенной интенсивности (см. Аудиометрия, Тугоухость). Важное значение имеет и так называемая объективная аудиометрия, включающая два метода исследования. Один из них заключается в регистрации с поверхности головы (в теменной области) электрических потенциалов в ответ на различные акустические стимулы (от коротких щелчков, еще не имеющих окраски тона, до тональных минимальной длительности воздействий). Ответ, вызванный коротким акустическим импульсом, характеризует деятельность стволовых образований слухового анализатора. Другой основан на регистрации электрического потенциала, получаемого при длительном акустическом воздействии. Он позволяет судить о состоянии слуховых зон коры головного мозга. Основным параметром служит латентный период — от момента воздействия звукового стимула до возникновения того или иного компонента ответной реакции, который может быть коротколатентным, длиннолатентным и среднелатентным и характеризует функциональное состояние того или иного участка слухового анализатора. При различных формах тугоухости наблюдаются изменения (увеличение или уменьшение) величины латентного периода, а также (в меньшей степени) изменения амплитуды потенциалов. Несколько меньшую информацию дает отведение биопотенциалов от области улитки (электрокохлеография). В связи с малой амплитудой регистрируемых электрических потенциалов для получения четких ответов о латентности, а также правильной и более объективной информации используют компьютерную аудиометрию, которая имеет наибольшее значение при обследовании детей раннего возраста, когда у них еще не может формироваться субъективный ответ на действие звука. С помощью вызванных электрических потенциалов можно также обследовать состояние С. у развивающегося плода. Метод вызванных потенциалов важен для дифференцирования таких форм тугоухости, которые не выявляются обычными конвенциональными (субъективными) методами; при этом, однако, следует учитывать, что в ряде случаев электрический потенциал может возникнуть и у лиц с резко выраженной тугоухостью и полной глухотой.

   Другим методом объективной аудиометрии является импедансометрия — измерение акустического сопротивления барабанной перепонки (так называемого входного импеданса, или импеданса среднего уха), позволяющее оценивать подвижность структур среднего уха благодаря рефлексу стременной мышцы и в меньшей мере мышцы, напрягающей барабанную перепонку. Т.к. звуковое раздражение проходит центростремительно по слуховому нерву, а центробежно по лицевому, метод может применяться как при ипсилатеральном (раздражение и ответ с одного и того же уха), так и при контралатеральном (раздражение с одного уха, ответ — с противоположного) варианте. Сопоставление двух рефлексов дает возможность проводить дифференциальную и топическую диагностику нарушений слуха. Разновидностью импедансометрии является тимпанометрия — измерение импеданса среднего уха путем дозированного изменения давления в наружном слуховом проходе, наибольшее значение имеет для ранней диагностики поражений среднего уха, особенно у детей. Из других объективных методов оценки С. могут использоваться ауропальпебральный (реакция век) и ауропупиллярный (зрачковая реакция) и другие безусловные рефлексы, которые, однако, ввиду быстрого угасания не находят широкого распространения.

   Нарушения С. в большинстве случаев в виде снижения его остроты (см. Тугоухость) могут быть обусловлены различными причинами, среди которых большое значение имеют наследственность, побочное действие некоторых лекарственных веществ, в первую очередь антибиотиков и мочегонных средств, пороки развития, инфекционные, в т.ч. вирусные, болезни. Снижение остроты С. в таких случаях может достигать значительной выраженности, вплоть до глухоты. Тяжесть нарушений и трудность (часто невозможность) восстановления слуховой функции при этом связаны главным образом с поражением звуковоспринимающих (сенсорных) образований внутреннего уха и слухового нерва (нейросенсорная тугоухость). Нарушения С. возникают вследствие повышения давления эндолимфы на чувствительные клетки внутреннего уха, которое наблюдается при Меньера болезни. Несмотря на то, что повышение давления при этом имеет преходящий характер, снижение С. прогрессирует не только во время обострений болезни, но и в межприступный период. Легче протекают нарушения С., обусловленные изменениями в структурах среднего уха как воспалительного (например, при отите), так и невоспалительного (при отосклерозе) характера. Поскольку такого рода изменения касаются только звукопроводящих образований и не распространяются на звуковоспринимающие нервно-эпителиальные структуры, вызываемая ими тугоухость называется кондуктивной. Кондуктивная тугоухость у большинства больных достаточно успешно корригируется оперативным путем в отличие от нейросенсорной тугоухости, при которой лечение, как правило, не эффективно. В этих случаях реэдукация слуха (реабилитация больных) происходит с помощью тренировки и использования слуховых аппаратов (см. Слухопротезирование).

   Более редкими формами нарушения С. являются гиперакузия, заключающаяся в повышенной чувствительности к звуковому раздражению, даже к обычной речи (может наблюдаться при поражении лицевого нерва); двоение звука (диплакузия), возникающее при неодинаковом воспроизведении левым и правым ухом высоты звукового сигнала; паракузия — улучшение остроты слуха в шумной обстановке, характерная для отосклероза.

Основные механизмы звукообразования речи

Речевой сигнал является средством передачи разнообразной информации как вербальной (словесной), так и йевербальной (эмоциональной). Для быстрой передачи информации в процессе эволюции был отобран особым образом закодированный и структурированный акустический сигнал. Для создания такого специализированного акустического сигнала используется "голосовой аппарат", совмещенный с физиологическим аппаратом, предназначенным для дыхания и жевания (поскольку речь возникла на поздних стадиях эволюции, то к рсчс-образованию пришлось приспособить уже имеющиеся органы

Процесс образования и восприятия речевых сигналов, схематически показанный на рисунке 1, включает в себя следующие основные этапы: формулировка сообщения, кодирование в языковые элементы, нейромускульные действия, движения элементов голосового тракта, излучение акустического сигнала, спектральный анализ и выделение акустических признаков в периферической слуховой системе, передача выделенных признаков по нейронным сетям, распознавание языкового кода (лингвистический анализ), понимание смысла сообщения.

Голосовой аппарат является, по существу, духовым музыкальным инструментом. Однако среди всех музыкальных инструментов он не имеет себе равных по своей многогранности, разносторонности, возможности передачи малейших оттенков и др. Все способы звукоизвлечения, которые используются в духовых инструментах, используются и в процессе образования речи (в т.ч. вокальной речи), однако все они перестраиваемы (по приказам мозга), и имеют широчайшие возможности, недоступные ни одному инструменту.

Если рассматривать структуру голосообразующе-го аппарата как духового музыкального инструмента, он состоит из трех основных частей (рисунок 2):

генератора - дыхательной системы, состоящей из воздушного резервуара (легких), где запасается энергия избыточного давления, мускульной сис- темы и выводного канала (трахеи) со специаль- ным аппаратом (гортанью), где воздушная струя прерывается и модулируется;
вибраторов - голосовых связок, воздушных турбулентных струй (создающих краевые тоны), импульсных источников (взрывов);резонаторов - разветвленной и перестраивае- мой системы резонансных полостей сложной гео- метрической формы (глотки, ротовой и носовой полости), называемой артикуляционной системой.

Генерация энергии воздушного столба происходит в легких, которые представляют собой своеобразные меха, создающие поток воздуха при вдохе и выдохе за счет разницы атмосферного и внутрилегочного давления. Процесс вдоха и выдоха происходит за счет сжатия и расширения грудной клетки, которые осуществляются обычно с помощью двух групп мышц: межреберных и диафрагмы, при глубоком усиленном дыхании (например, при пении) сокращаются также мышцы брюшного пресса, груди и шеи. При вдохе диафрагма уплощается и опускается вниз, сокращение наружных межреберных мышц поднимает ребра и отводит их в стороны, а грудину -вперед. Увеличение грудной клетки растягивает легкие, что приводит к падению внутрилегочного давления по отношению к атмосферному, и в этот "вакуум" устремляется воздух. При выдохе мускулы расслабляются, грудная клетка за счет своей тяжести возвращается в исходное состояние, диафрагма поднимается, объем легких уменьшается, внутрилегочное давление растет, воздух устремляется в обратном направлении. Таким образом, вдох - процесс активный, требующий затраты энергии, выдох - процесс пассивный. При обычном дыхании этот процесс происходит примерно 17 раз в минуту, управление этим процессом как при обычном дыхании, так и при речи, происходит бессознательно, но при пении процесс постановки дыхания происходит сознательно и требует длительного обучения.

Количество энергии, которое может быть израсходовано на создание речевых акустических сигналов, зависит от объема запасенного воздуха и соответственно от величины дополнительного давления в легких. Учитывая, что максимальный уровень звукового давления, который может развивать певец (имеется в виду оперный), составляет 100... 112 дБ, то очевидно, что голосовой аппарат является не очень эффективным преобразователем акустической энергии, Его КПД составляет

порядка 0,2%, как и у большинства духовых инструментов.

Модуляция воздушного потока (за счет вибраций голосовых связок) и создание подглоточного избыточного давления происходит в гортани. Гортань (larynx) - это клапан, (рисунок 3), который находится на конце трахеи (узкой трубки, по которой воздух поднимается из легких). Этот клапан предназначен для предохранения трахеи от попадания посторонних предметов и для поддержания высокого давления при подъеме тяжестей.

Именно этот аппарат и используется в качестве голосового источника при речи и пении. Гортань образована из набора хрящей и мышц. Спереди ее охватывает щитовидный хрящ (thyroid), сзади - перстневидный хрящ (cricoid), сзади также располагаются более мелкие парные хрящи: чер-паловидные, рожковидные и клиновидные. Сверху гортани расположен еще один хрящ-надгортанник (epiglottis), также типа клапана, который опускается при глотании и закрывает гортань. Все эти хрящи соединены мышцами, от подвижности которых зависит скорость поворота хрящей. С возрастом подвижность мышц уменьшается, хрящи также становятся менее эластичными, поэтому возможности виртуозного владения голосом при пении также уменьшаются. Наиболее сложно устроен средний отдел гортани (рисунок 4), в котором расположены парная мышечная перегородка (эластичный конус) и две пары складок. Верхние называются преддверны-ми, или "ложными голосовыми", а нижние — голосовыми. В толще последних лежат голосовые связки, образованные эластическими волокнами, и мышцы (рисунок 5). Промежуток между правой и левой голосовыми складками называется голосовой щелью. Голосовые связки натянуты между щитовидным и черпаловидным хрящами. Размеры голосовой щели в открытом состоянии 2 см в длину и 1 см в ширину.

Именно голосовые складки и являются основным (но не единственным) источником голосооб-разования (вибратором). Преддверные голосовые складки выделяют специальную слизистую секрецию, которая помогает смазывать голосовые складки и предохраняет их от повреждения при трении во время звукообразования. Обычно они не участвуют в процессе звукообразования, однако при некоторых патологиях истинных связок, они могут участвовать в образовании звука (например, пение Луи Армстронга). (Хрипота голоса Армстронга была вызвана бородавчатыми образованиями на голосовых связках - это лейкоплакия, проявляющаяся как участки ороговения эпителия. Диагноз "лейкоплакия" был поставлен артисту в зрелом возрасте, но хрипота в голосе присутствует уже па его первых записях, сделанных в возрасте 25 лет).

Между двумя парами складок находятся небольшие полости (желудочки гортани), которые позволяют беспрепятственно голосовым складкам и играют роль акустических фильтров, уменьшая уровень высоких гармоник (скрипучесть голоса), они же играют роль резонаторов для тихих тонов и при пении в фальцете. При движении черпаловид-ных хрящей голосовые складки могут сдвигаться и раздвигаться, открывая проход воздуха. При поворотах щитовидного и перстневидного хрящей они могут растягиваться и сжиматься, при активации вокальных мышц они могут расслабляться и напрягаться. Процесс образования звуков речи определяется движением (колебаниями) связок, что приводит к модуляции потока воздуха выдыхаемого из легких. Такой процесс называется фонацией (существуют и другие механизмы звукообразования, они будут рассмотрены дальше).

Начнем с рассмотрения процесса фонации. перед началом речи голосовые складки должны быть сведены черпаловидными хрящами, что приводит к запиранию потока воздуха и возникновению избыточного подглоточного давления (происходит "предфонационпая настройка"). Воздух, который выталкивается легкими из трахеи, накапливается в подскладочном пространстве, и начинает давить на них. Когда избыточное давление повышается до определенной величины, складки размыкаются и воздух устремляется в голосовую щель. В момент максимального открытия щели скорость потока воздуха становится максимальной, давление внутри щели падает (по закону Бер-нулли), причем скорость протекания воздуха неодинакова - в самой узкой части голосовой щели она максимальна. Внутри голосовой щели образуется зона пониженного давления. Окружающее более высокое давление, а также собственная упругость связок заставляют складки сомкнуться. Этот процесс аналогичен возбуждению колебания тростей в деревянных духовых инструментах. Таким образом, чередование избыточного давления в подскладочном пространстве и отрицательного давления из-за эффекта Бернулли заставляет складки смыкаться-размыкаться, т.е. обеспечивает нормальный режим их колебаний (рисунок 6). При этом происходит модуляция потока воздуха, который порциями (как в духовых инструментах) вталкивается в резонансные полости. Последовательность воздушных толчков, возникающих в результате колебаний голосовых связок, называется глоттальной волной, обычно она представляется в виде зависимости объемной скорости воздуха от времени (рисунок 7). Как видно из графиков, такой сигнал представляет собой последовательность импульсов, форма которых зависит от соотношения времени открытия складок (скорость потока постепенно нарастает) и времени их закрытия (скорость быстро уменьшается). Период такой волны определяется длительностью общего цикла колебаний связок, т.е. основной частотой колебания. Амплитуда определяется максимальной скоростью потока воздуха, которая, в свою очередь, зависит от величины под-складочного избыточного давления.

Частота колебаний складок определяет высоту голоса (у мужских голосов при речи она равна в среднем 110 Гц, у женских - 220 Гц), амплитуда определяет его громкость.

Если записать микрофоном такой звук у самых голосовых складок, то он напоминает гудение или жужжание. Это как бы исходный материал - чтобы получить) из него звуки речи, его еще надо обработать в артикуляционном тракте. Спектр такого звука показан на рисунке 7. Поскольку колебания голосовых складок создают периодический сигнал (реальный сигнал не является строго периодическим), то спектр его при нормальной фонации является гармоническим с крутизной убывания 12 дБ/окт. Для увеличении громкости речи необходимо увеличить подскладочное давление (затратить больше энергии), при этом фронты голосовых импульсов становятся более крутыми (складки быстрее открываются). Время, когда щель закрыта, увеличивается от 40...50% при нормальной фонации, до 65...70% -спектр соответственно изменяется, в нем появляется больше гармоник, что соответственно меняет тембр голоса (делает его ярче).

Способы смыкания складок при фонации могут быть разными. Например, если складки смыкаются не полностью, и между ними имеется щель, то форма импульсов становится почти симметричной, скорость не падает до нуля, в голосе слышен шум (придыхательный голос, шепот). Наоборот, если складки слишком сильно смыкаются (голос становиться зажатым), это также меняет форму импульсов и, соответственно, спектр и тембр голоса.

Все перечисленные характеристики - основная частота колебаний голосовых связок, форма голосовых импульсов, их амплитуда, спектральный состав и форма огибающей спектра - играют существенную роль при слуховом восприятии речи. Особую роль играет частота основного топа: в речевом потоке она определяет высоту голоса, и ее изменение используется также для изменения интонации, логических ударений, а иногда и смысла слов (например, в тональных языках, таких, как китайский). В вокальной речи (пении) частота основного топа может изменяться в широких пределах, обычно одна-две октавы (хотя были уникальные певцы с возможностью изменения высоты основного тона до четырех октав - Има Сумак, Мадо Робен и др.).

Частота основного тона, т.е. число колебаний голосовых связок в секунду, зависит от их длины, массы и натяжения. Приближенно эту связь можно представить, как для струны(хотя они больше похожи на резиновые шнуры) в виде: f=0,5 IТVL-M, где Т - натяжение (упругость), L - длина, М - поверхностная масса .Таким образом, чем длиннее и тяжелее складки (эти свойства врожденные), тем более низкий тон имеет голос, чем короче и тоньше, - тем голос выше. Масса зависит от длины, толщины и плотности складок. В процессе речи и пения толщина и плотность складок может значительно меняться за счет натяжения.

Натяжение обеспечивает повышение высоты голоса, и может осуществляться за счет напряжения внутренних вокальных мускулов (в основном при речи) и поворота щитовидного и перстсневидного хрящей относительно друг друга (в основном при пении). Поскольку при увеличении громкости голоса растет подскладочное давление, а оно также оказывает некоторое влияние на натяжение складок (мускулы рефлекторно напрягаются), то обычно, при повышении громкости речи растет и высота тона (например, при крике). Только специально обученные певцы могут удерживать высоту топа при увеличении громкости в определенных пределах.

Таким образом, при образовании звуков речи с помощью процесса фонации (т.е. колебания голосовых связок) формируется звуковой сигнал, который затем трансформируется в вокальном тракте, где он превращается из "сырого" материала в последовательность речевых акустических сигналов (другие способы создания источников звука будут рассмотрены позднее).

Таким образом, вокальный тракт выполняет функцию резонатора, т.е. усиливает и фильтрует входной сигнал (аналогично трубам духовых инструментов). Форма труб вокального тракта показана на рисунке 8. Как видно из рисунка, тракт состоит из трех основных резонансных полостей: глотка, ротовая полость, носовая полость. Схематически его вид показан на рисунке 8. Отличия такой системы резонаторов от любых труб в музыкальных инструментах заключаются в следующем: - сложная геометрическая форма: вокальный тракт можно рассматривать как трубу переменного сечения с подключением параллельной трубы (носовой полости, которая может подключаться при опускании заднего мягкого язычка); - возможность быстрой перестройки формы труб, площади их поперечного сечения, плотности и жесткости стенок, за счет изменения положения языка, мягкого язычка, губ, зубов, расширения глотки, опускания гортани и др. Возможности перестройки параметров вокального тракта огромны, присущи только человеку, что и позво- ляет ему произносить все многообразие звуков речи. Этот процесс перестройки называется - артикуляцией. Каждому звуку речи соответст- вует либо определенное статическое положение, либо определенная динамика изменения положе- ния языка, челюстей, губ, нёбной занавески, т.е. определенная артикуляция.

Общая длина речевого тракта у взрослого человека (от голосовых складок до губ) около 17 см, длина носовой полости (от нёбной занавески до ноздрей) 12,5 см, площадь переменного сечения тракта в среднем составляет примерно 5...6 см2.

Простейшей моделью вокального тракта можно. считать цилиндрическую трубу длиной 17 см, закрытую на одном конце (аналогично трубе кларнета). Собственные моды (формы) колебаний такой трубы показаны на рисунке 9, частоты определяются из соотношений: L = Х/4; L = ЗХ/4; L = 5А/4 и т.д., таким образом частоты равны fn = (2n-l)c/4L, где n-целое число; L-длина трубы; с-скорость звука.

В спектре такой трубы присутствуют только нечетные гармоники 1:3:5... Для длины L = 17 см, собственные частоты оказываются равными 500, 1500, 2500 Гц. Если у трубы менять в разных точках площадь поперечного сечения, то положение ее собственных частот будет смещаться. Совершенно аналогичные процессы происходят в вокальном тракте: в нем также имеется свой набор собственных частот с соответствующими модами колебаний, т. е. определенным распределением узлов и пучностей вдоль его длины. Меняя площадь поперечного сечения в вокальном тракте, можно также все время менять положение собственных частот.

Если на вход такой трубы (системы труб) подать сигнал, сформированный при колебаниях голосовых связок (рисунок 7), то на выходе можно записать сигнал, который будет иметь форму, показанную на рисунке 10, т.е. гармоники, совпадающие с собственными частотами тракта, будут усилены за счет резонансов.

Области спектральных максимумов, соответствующие резонансным частотам вокального тракта, называются формантами (иногда их просто называют резонансами вокального тракта). .Каждому звуку речи (простейший звук речи называется фонемой) соответствует своя форма вокального тракта, которая варьируется за счет изменения положения языка, губ, зубов и т.д., и свое положение формант (F-картина). Примеры показаны на рисунке 10.

Существуют некоторые общие закономерности в управлении расположением собственных частот резонаторов: если поперечное сечение трубы уменьшается в области, где форма колебаний (мода), соответствующая данной резонансной частоте (форманте), имеет максимум давления, то частота увеличивается; если в точке, где минимум давления, то частота уменьшается. Изучение движения артикуляционных органов во время речи с помощью рентгенографических съемок показали, что аналогичные закономерности имеют место и в вокальном тракте: при подъеме языка вперед и вверх сужается передняя часть ротовой полости, при этом понижается первая форманта F1 и повышается вторая F2. При сдвиге языка назад сужается поперечное сечение тракта в области глотки, при этом повышается F1 и понижается F2 и т.д. При сдвиге формант по определенным закономерностям происходят изменения в соотношении их амплитуд, что приводит к изменению формы огибающей. Все эти признаки (расположение формант и соотношение их амплитуд) и являются отличительными акустическими признаками гласных звуков речи.

Правда, при беглой речи происходит настолько быстрая перестройка позиции артикуляционных органов (языка, губ и др.), что часто имеет место наложение позиции, соответствующей одному звуку, на позицию другого (обычно гласного на соседний согласный), такое явление называется коарти-куляцией, и оно очень осложняет восприятие и распознавание речи.

Таким образом, вокальный тракт действует па звуковой сигнал источника как параметрический эквалайзер, при этом существенное значение имеют частоты резонансов, соотношения их амплитуд и ширина резонансных пиков (добротность). Примерные области расположения первых трех формант для гласных русского языка даны в таблице.

Распознавание каждой фонемы происходит в основном по положению первых двух формант F1 и F2, более высокие форманты определяют темб-ральные различия (для пения чрезвычайно существенное значение имеет третья формантная область "певческая форманта"). Расположение формант для гласных английского языка показано па рисунке 11.

Если подходить к процессу образования звуков речи с помощью фонации в терминах передаточных функций, то этот процесс может быть описан следующим образом: P(co)=S((o) Т((о) К(ш), где S(co) - передаточная функция входного сигнала, Т(ю) - передаточная функция тракта, R(co) - активная составляющая сопротивления излучения, (рисунок 12). Именно эта последовательность операций и реализуется в различных синтезаторах звука. Под передаточной функцией тракта понимается отношение комплексных амплитуд объемной скорости на губах U0 к объемной скорости у голосовой щели Ur: T(co)=U()/ II,.. Для цилиндрической трубы с одним закрытым концом она вычисляется по формуле: T(co)=l/cos (2;cf L с). На резонансных частотах, определяемых по формуле fn = (2n-l)c/4L, знаменатель обращается в пуль, и функция имеет максимумы (из-за наличия затухания она имеет конечные значения).

В реальном голосовом тракте передаточная функция имеет более сложный характер (она может быть вычислена и измерена современными цифровыми методами), но на резонансных частотах тракта, т.е. на формантах, она также имеет максимумы, которые называются полюсами. Таким образом, форманты еще можно определить как полюса передаточной функции.

Описанные выше процессы голосообразования относятся в основном к гласным звукам, процессы образования согласных звуков существенно сложнее, и будут рассмотрены в следующей части статьи.

42


 

А также другие работы, которые могут Вас заинтересовать

36845. Подготовка грунтовой площадки к строительству 570.5 KB
  Свойства и технологические характеристики грунтов Любое здание или инженерное сооружение возводится на подстилающем слое грунта. От физикомеханических свойств подстилающего слоя грунта зависит величина осадочных деформаций и долговечность сооружения в целом. К скальным однородным грунтам относят массивы изверженных пород с кристаллической структурой которые характеризуются значительной плотностью и малой влагоемкостью. К скальным слоистым грунтам относят породы сложенные из песчаников доломитов и глинистых сланцев.
36846. КОМПЬЮТЕРНАЯ СИСТЕМА PROJECT EXPERT. АНАЛИЗ ФИНАНСОВЫХ РЕЗУЛЬТАТОВ ПРОЕКТА 64 KB
  Нижняя граница обусловлена тем что оборотных средств должно быть достаточно для погашения краткосрочных обязательств иначе компания окажется под угрозой банкротства. Превышение оборотных средств над краткосрочными обязательствами более чем в три раза также является нежелательным поскольку свидетельствует о нерациональной структуре активов. Показывает отношение наиболее ликвидной части оборотных средств денежных средств дебиторской задолженности краткосрочных финансовых вложений к краткосрочным обязательствам. Чистый оборотный капитал...
36847. Массивы и матрицы. Решение задач линейной алгебры 121.5 KB
  9000 Ввод элементов матрицы также осуществляется в квадратных скобках при этом элементы строки отделяются друг от друга пробелом или запятой а строки разделяются между собой точкой с запятой: nme=[x11 x12 . xmn;] Обратиться к элементу матрицы можно указав после имени матрицы в круглых скобках через запятую номер строки и номер столбца на пересечении которых элемент расположен: nmeиндекс1 индекс2 Листинг 3. Пример обращения к элементам матрицы =[1 2 3;4 5 6;7 8 9] = 1 2 3 4 5 6 7 8 9 12^22 33 ns = 3.
36848. Система автоматического регулирования температуры 488 KB
  Лабораторная работа Система автоматического регулирования температуры. Система автоматического регулирования температуры. Цель работы: Ознакомление с принципами построения системы автоматического регулирования и принципами работы такой системы. Экспериментальное получение переходных процессов системы автоматического регулирования.
36849. Логическая организация оперативной памяти 236.2 KB
  Определить объем основной памяти 2.Определить объем дополнительной памяти 3.Определить объем отображаемой памяти 4.
36850. КОНСОЛИДАЦИЯ ДАННЫХ В MS EXCEL 421 KB
  Создайте три однотипные таблицы по образцу на одном листе или на разных листах MS Excel рис. Проведите консолидацию 3х таблиц аттестации в одну с вычислением среднего балла по каждому предмету и разместите консолидированную таблицу на листе Консолидация для чего: перейдите на чистый лист в книге и установите маркер мыши в левый верхний угол будущей таблицы; на панели Данные выберите Консолидация; в окне Консолидация рис. 2 Диалоговое окно Консолидация перейдите в строку Ссылка затем выделите на листе Данные для консолидации...
36851. Использование программных средств контроля и анализа выполнения политики безопасности на примере операционной системы Windows XP 91.04 KB
  Командная строка Стандартные типы доступа к объектам в операционной системе WindowsXP SINCHRONIZE – использовать объект для синхронизации; WRITE_OWNER – изменить владельца объекта; WRITE_DC – изменить дискреционный список контроля доступа к объекту; RED_CONTROL – прочитать данные из дискреционного списка контроля доступа; DELETE – удалить объект. Специальные права доступа к объектам RED_DT – прочитать данные из объекта; WRITE_DT – записать данные в объект; PPEND_DT – добавить данные в объект; RED_TTRIBUTES – прочитать атрибуты объекта;...
36852. Численные методы решения задач линейной алгебры 44.5 KB
  Численные методы решения задач линейной алгебры specM вычисляет собственные значения и собственные векторы квадратной матрицы M. specM Собственные числа матрицы ns = 1. Х собственные векторы соответствующие собственным значениям из матрицы Y. Использование функции inv Пример вычисления обратной матрицы.
36853. Решение систем линейных алгебраических уравнений 87 KB
  Система из m линейных уравнений с n неизвестными может быть описана при помощи матриц: x = b где x вектор неизвестных матрица коэффициентов при неизвестных или матрица системы b вектор свободных членов системы или вектор правых частей. Совокупность всех решений системы x1 x2 . xn называется множеством решений или просто решением системы. Если определитель ∆ = det матрицы системы из n уравнений с n неизвестными x = b отличен от нуля то система имеет единственное решение x1 x2 .