20607

Методы формирования речевых сигналов в слуховой системе

Лекция

Биология и генетика

В некоторых восточных языках например в китайском изменение частоты основного тона важный информативный параметр речи. Звуки речи в которых присутствует основной тон называются вокализованными. Темп – характеризует скорость речи количество слов произнесённых в определённый временной промежуток. Темп речи в норме по своим временным и пространственным характеристикам соответствует органическим темповым и ритмическим параметрам присущим речевому и зрительному потоку информации человека.

Русский

2013-07-31

103 KB

0 чел.

Лекция №3

Методы формирования речевых сигналов в слуховой системе

Речевой аппарат человека

Легкие играют роль источника энергии. Воздух из легких проходит через трахею и голосовые связки. Голосовые связки смыкаются и размыкаются, модулируя воздушный поток, вследствие чего он приобретает вид последовательности импульсов сложной формы. Некоторые индивидуальные различия в строении голосовых связок обуславливают различия в форме импульсов, а значит, тембр голоса.

Частота импульсов называется частотой основного тона. Она играет главную роль в образовании интонаций и пении, а также является "несущей" для гласных звуков. В некоторых восточных языках, например в китайском, изменение частоты основного тона - важный информативный параметр речи. Звуки речи, в которых присутствует основной тон, называются вокализованными.

Далее, через гортань воздух попадает в ротовые и носовые резонансные области. Небная занавеска делит воздушный поток между ротовой и носовой полостями в различной пропорции. При значительном перераспределении в носовую полость получаются назализованные (то есть приобретшие носовой тембр) звуки. При соответствующей артикуляции языка, зубов и губ в речевом тракте могут образовываться щели. При прохождении через них воздух завихряется, то есть шумит. Такие шумящие и шипящие звуки называются щелевыми.

Когда мы говорим, происходит процесс изменения формы резонансных областей ротовой и носовой полостей, движение языка, нижней челюсти и губ, запуск и останов (раскрытие) голосовых связок. Трудности акустического моделирования речевого тракта заключаются прежде всего в том, что весь речевой тракт можно считать цепью с сосредоточенными параметрами только на низких (порядка нескольких сотен герц) частотах. При более высоких частотах длина звуковой волны близка или превышает длину речевого тракта. В этом случае процесс генерации звука относительно точно может описываться только сложными волновыми уравнениями, даже без учета перестройки речевого аппарата при артикуляции. Поэтому на практике применяют упрощенные подходы.

Терминология 

Речь – важнейшее средство мышления и общения людей. Речь состоит из более или менее длительных шумов и тонов, составляющих группы. Овладение речью происходит еще в младенческом возрасте, когда ребёнок еще только слушает и пытается воспроизвести самые несложные и легко произносимые слова: «мама» и «папа».

1. Голосовая активность. Количественная характеристика. Изменяется от 0 до 100 %. Зависит как от внешних (наличие-отсутствие собеседников, звуковая обстановка), так и от внутренних (особенности личности, состояние голосового аппарата, эмоциональное состояние, наличие-отсутствие мотива) факторов. Варианты: молчит, отвечает только на поставленный вопрос, говорит неохотно, разговорчив и т.д. Идиомы: «как воды в рот набрал».

2. Темп – характеризует скорость речи, количество слов, произнесённых в определённый временной промежуток. Темп речи в норме по своим временным и пространственным характеристикам соответствует органическим темповым и ритмическим параметрам, присущим речевому и зрительному потоку информации человека. Это означает, что единицы потока речи следуют в темпе (ритме), соизмеримом с основными временными параметрами просодических, интонационных элементов и слогоделения. В основе этой естественной ритмики заложены: дыхательные экскурсии легких и диафрагмы; ритмика работы слогоделителя - фарингса (глоточного сфинктора); ритмика наполнения и опорожнения оперативной памяти головного мозга. Из физиологии дыхания и в фониатрии известно, что дыхательный цикл - время выдоха и вдоха длится не более 3 секунд. Именно этот цикл и программирует общую дугу просодии, интонационную кривую речи, а также и всю дыхательную группу. Цикл же дыхания данного человека зависит от ритмики его шагов по ровной поверхности.

Слогоделительный цикл - время генерации слога и сегмент одномоментного восприятия поступающей информации, длится около 0,25 секунд и является временем переходных процессов (постоянной времени) оперативной памяти человека. Именно на этом рабочем временном цикле оперативной памяти зиждется и внимание, и понимание, и запоминание поступающей извне информации. Темп устной речи и темп восприятия является ведущим параметром речи.  Речь может быть скорой, умеренной и замедленной. Темп речи зависит от контекста. Пример: «Резиновую Зину купили в магазине…», «Вечор, ты помнишь, вьюга злилась…». Слишком быстрая, как и слишком медленная речь воспринимаются с трудом. Идиомы, характеризующие темп речи: «тараторит», «строчит, как из пулемёта». Показатель темпа варьируется у людей разного возраста, темперамента и др., однако ускоренную речь часто связывают с волнением, возбуждением, а замедленную – с нерешительностью, задумчивостью. Спокойный темп речи, наоборот, внушает доверие к говорящему.

3. Громкость звука измеряется децибелами. Она непосредственно связана с объемом воздуха в легких. Осторожно контролируя силу и энергию звука, вы регулируете громкость своего голоса.

Этот параметр также несёт большую эмоциональную нагрузку. Это особенно заметно, если громкость речи завышена или занижена. Цель коммуникации достигается при этом в большей степени формой, чем содержанием. Так, тихая речь воспринимается как вкрадчивая, грустная, сдержанная, робкая. В громкой речи обычно звучит тревога, приказ, агрессия, вызов, зов, угроза. Идиомы, характеризующие громкость: «Не заставляй меня повышать голос», «Бубнишь себе под нос», более просторечное «лужёная глотка».

4. Дикция (Артикуляция и произношение)

Дикция - особенность произнесения звуков. Ясная, четкая дикция - обязательное условие хорошей речи. Небрежность в произнесении, "съедание" конечного гласного или звука внутри слова, звучание "сквозь зубы" делает речь невнятной и неразборчивой. Неподвижная верхняя и вялая нижняя губа мешают четкому и ясному произнесению многих согласных, в том числе шипящих и свистящих. Часто речь бывает неразборчива вследствие скороговорки, когда слова как бы "наскакивают" друг на друга.

Хорошая дикция подготавливает речевой аппарат к творческому процессу, делает привычной точную артикуляцию всех звуков речи, помогает доносить смысловое звучание слова, его выразительность и красоту. Дикция определяется работой органов, находящихся в ротовой полости.

Вы не можете хорошо артикулировать, если у вас сжаты зубы. Для того чтобы четко произносить звуки, необходим зазор между верхними и нижними зубами. Артикуляция требует пространства. Если зубы слишком сжаты, то раскрыть гортань для резонанса практически невозможно. Постоянная привычка держать зубы сжатыми приводит к нечеткой артикуляции.

Если вы посмотрите на хористов во время пения, то заметите, что можно "увидеть", а не только услышать слова, которые они произносят.

Если у вас есть проблемы с произношением и артикуляцией (которая обеспечивает правильное произношение), то, весьма возможно, вашу речь будет трудно понять, и слушатели потратят слишком много сил на то, чтобы выслушать ее. Если вы проглатываете звуки, то слушателям придется бессознательно восполнять пробелы вашей речи.

В нашем случае, в приложении к задаче распознавания такие понятия, как "речь" и "звуковая речь" означают одно и то же - некое генерируемое человеком звуковое сообщение, которое может быть объективно зарегистрировано, измерено, сохранено, обработано и, что важно, воспроизведено при помощи приборов и алгоритмов. То есть   речь   может быть представлена в виде некоего речевого сигнала, который в свою очередь может использоваться для обратного воспроизведения  речи  . То есть можно поставить знак эквивалентности между звуковой речью и ее представлением в виде речевого сигнала. При этом под понятием "сообщение" может скрываться любая полезная для получателя информация, а не только текст. Например, если интересоваться не словами а интонациями, то сообщением будут просодические  нюансы речи. Что же касается распознавания речи, то в нашем случае задача сводится к извлечению из речи текста.

Но здесь мы сталкиваемся с одним противоречием. Текст, как известно, состоит из букв, слов, предложений, - то есть он дискретен. Речь же в нормальных условиях звучит слитно. Человеческая речь, в отличие от текста, вовсе не состоит из букв. Если мы запишем на магнитофонную ленту или на диск компьютера звучание каждой отдельной буквы, а потом попробуем скомпоновать из этих звуков речь, у нас ничего не получится. Взгляните на фонограмму слова "мама" (рис. 1). Мы знаем, что это слово вроде бы должно состоять из четырех букв, однако отчетливо видно, что на самом деле оно состоит не из четырех, а только из двух звуков: по-видимому, это те звуки, которые можно выразить слогами "ма" и  "ма"
Рисунок 1.

Люди уже довольно давно догадались о том, что элементарные звуки, из которых состоит речь, не эквивалентны буквам. Поэтому и придумали понятие фонемы для обозначения элементарных звуков речи. Хотя до сих пор специалисты никак не могут решить - сколько же всего различных фонем существует. Есть даже такой раздел лингвистики - фонетика. По ней написано множество работ, некоторые очень давно. Большинство авторов даже для одного и того же языкового диалекта приводят разное количество фонем. В русском языке по одним данным 43 фонемы, по другим - 64, по третьим - более сотни. Но так уж повелось, что есть миф о незыблемости понятия фонемы. И о том, что речевой сигнал состоит непосредственно из кусочков сигнала, каждый из которых является фонемой. К сожалению, все далеко не так просто.

Поначалу ученые рассматривали речевой сигнал как набор неких универсалий, расположенных друг за другом на временной оси, и считали этими универсалиями фонемы. Однако дальнейшие исследования речевых сигналов никаких фонем не обнаружили. Если взглянуть на ту же диаграмму со словом "мама", то легко заметить, что две составные части этого слова, которые мы определяем в общем-то как одинаковый звук "ма" (ма-ма), на самом деле различны. Далее, если мы возьмем и поменяем местами два этих звука "ма", то получившееся слово вовсе не будет звучать, как слово "мама".

Тогда одни исследователи справедливо решили, что при генерации речевых сигналов наблюдается коартикуляция, то есть взаимопроникновение соседних звуков (мышцы лица, язык и челюсти обладают разной инерцией). Значит, речевой сигнал должен состоять не из фонем, а из аллофонов - комбинаций "слипшихся" фонем. Другие исследователи, подобно физикам, атаковали идею элементарности фонем и стали утверждать, что фонемы надо поделить на еще более короткие кусочки или даже вообще отказаться от этого понятия и "расчленять" речевой сигнал как-то иначе. Так родились фоноиды и еще масса авторских названий элементарных звуков.

А дальше все многозначительно замолчали. Каждый принялся рассматривать речевой сигнал со своей позиции, сообщая об успехах весьма туманно. Последнее, весьма вероятно, можно объяснить желанием сохранить ноу-хау. Вот такая картина. Люди изобрели целую кучу претендентов на универсальность. Конечно, в их основу положено прежде всего человеческое ощущение звука. Возможно, поэтому фонемы ничем не лучше букв. А фоноиды, аллофоны и прочая - лишь усовершенствованная версия звукового деления речи. Может быть, в них и есть какой-то смысл. Мы ведь так слышим. А технически-то сигнал состоит не из наших, человеческих компонентов восприятия. Сигнал можно разложить, отфильтровать, как-то еще преобразовать. Задача не в этом. Необходимо найти некий эквивалент, построить модель механизма восприятия звуков речи.

Технология распознавания речи развивается не на пустом месте. Богатая научно-техническая база имеется в смежной области. Это связь и обработка (сжатие) речевых сигналов. Давным-давно телефонисты опытно-экспертным путем сформировали требования к линии речевой связи. Появилась своя теория, понятия и термины. Появились различные подходы к обработке речевых сигналов. Для специалистов, взявшихся за проблему распознавания речи, значительный интерес представляли наработки по системам связи с сильным сжатием речевого сигнала, так называемым вокодерам. Их было придумано великое множество: полосные вокодеры и полувокодеры, формантные, корреляционные, ЛПК-вокодеры, фонемные вокодеры - вот лишь некоторые разновидности этих приборов. Более подробную информацию о вокодерах заинтересовавшиеся могут почерпнуть в [1].

Остановимся на фонемных вокодерах. Принцип действия этих устройств сходен с работой простой системы распознавания речи. Он заключается в выделении из речевого сигнала потока фонем на передающем конце линии связи и синтез речи из потока фонем на приемном конце. По линии связи передавались только кодовые обозначения фонем. Задача выделения фонем из сигнала очень сложна, и причин тому множество. Забегая вперед можно упомянуть спектрально-временную и коартикуляционную нестационарности фонемных реализаций. (Обычно так оправдываются разработчики.) Поэтому качество связи в существовавших фонемных вокодерах было отвратительным, но они обеспечивали самое сильное сжатие речевых сообщений, что и требовалось от вокодера. Подчеркиваю: не речевых сигналов, а речевых сообщений! Часто сигнал на приемном конце линии связи не имел ничего общего с отправленным оригиналом. (Почти как e-mail после многократного перекодирования.) Тем не менее иногда что-то удавалось разобрать.

В технике связи существует несколько различных показателей качества работы системы. Основные из них являются разборчивость речи и узнаваемость диктора. Когда требовалось максимально сжать речевое сообщение, сохранив на приемлемом уровне разборчивость, то узнаваемостью обычно жертвовали. Иногда жертвовали всей просодической информацией: интонацией, частотой основного тона и прочими "не текстовыми" признаками. В этом случае речь на приемном конце линии связи была похожа на звуки, которые издают роботы из видеофильмов. Однако это не мешало восприятию содержательной части, если действительно обеспечивалась хорошая разборчивость.

Кроме связи, большой интерес для ученых, работающих в области распознавания речи, представляют различные разделы лингвистики, науки о языках. Возможно, удачный синтез достижений этих наук и теории обработки речевых сигналов приведут к успешному созданию систем распознавания речи, а возможно, потребуется нечто другое.

Главные трудности фонемного подхода

1. Темп речи варьируется в широких пределах, часто в несколько раз. При этом различные звуки речи растягиваются или сжимаются не пропорционально. Например, гласные изменяются значительно сильнее, чем полугласные и особенно смычные согласные. Для так называемых щелевых звуков есть свои закономерности. (Полугласные - это звуки при генерации которых необходимо участие голосовых связок, как и для гласных звуков, но сами они в обиходе считаются согласными. Например, так обычно звучат "м", "н", "л" и "р". Смычные звуки образуются при резком смыкании и размыкании органов артикуляции. Например "б", "п", "д", "т". Образование щелевых звуков связано с шипением и прочими эффектами турбулентности в органах артикуляции. Можно назвать "в", "ж", "с", а также "ш" и другие шипящие. В качестве примеров для простоты намеренно не приведены звуки, не имеющие буквенных обозначений.) Эта свойство называется временной нестационарностью образцов речевого сигнала.

2. Произнося одно и то же слово или фразу в разное время, под влиянием различных факторов (настроения, состояния здоровья и др.), мы генерируем заметно не совпадающие спектрально-временные распределения энергии. Это справедливо даже для дважды подряд произнесенного слова. Намного сильнее этот эффект проявляется при сравнении спектрограмм одной и той же фразы, произнесенной разными людьми. Обычно этот эффект называют спектральной нестационарностью образцов речевого сигнала (см. примеры спектрограмм).

3. Изменение темпа речи и четкости произношения является причиной коартикуляционной нестационарности, означающей изменение взаимовлияния соседних звуков от образца к образцу.

4. Проблема кластеризации слитной речи. Из непрерывного речевого потока довольно непросто выделить какие-либо речевые единицы. Многие звуки "слипаются" либо имеют нечеткие границы.

Вот лишь некоторые причины, препятствующие реализации систем распознавания речи.

"Распознавалка" изнутри 

Идеологически система распознавания речи состоит из двух частей. Эти части могут быть неявно выделены в самостоятельные блоки или подпрограммы. Какая-то из них может существовать в упрощенном до крайности виде, но в любой реализации всегда есть эти части. В литературе можно встретить разные варианты названия этих составных частей. Для простоты скажем, что система распознавания речи состоит из акустической и лингвистической частей. Последняя, впрочем, лингвистической названа не строго. В общем случае она может включать в себя фонетическую, фонологическую, морфологическую, лексическую, синтаксическую и семантическую модели языка, как это предложено считать в [2]. Или, наоборот, представлять собой простенький коррелятор.

Акустическая модель отвечает за представление речевого сигнала. Вернее, за его преобразование (из традиционного временного процесса) в некоторую форму, в которой в более явном виде присутствует информация о содержании речевого сообщения. Лингвистическая модель интерпретирует информацию, получаемую от акустической модели, и отвечает за представление результата распознавания потребителю (в роли которого может выступать не только человек, но и техническая система, управляемая речью).

Акустическая модель 

В любой системе распознавания речи есть тонкий момент, остающийся целиком на совести разработчика. Это представление речи в промежутке между акустическим и лингвистическим блоками. Иными словами, как построить акустическую модель? Здесь традиционно существует два общих подхода: изобретательский и бионический.

Первый базируется на результатах эвристического поиска механизма функционирования акустической модели, на известных приемах и алгоритмах, а так же имеющихся у разработчика ресурсах. При втором подходе разработчик пытается понять и смоделировать работу естественных живых систем. В нашем случае - слуха. От ушной раковины до глубин речевого центра мозга. В идеале, конечно.

Оба подхода имеют свои достоинства и недостатки. Для первого - широчайшая свобода творчества и сопутствующая ей полная неопределенность является и тем и другим. Что касается второго подхода, то и он не свободен от творческих изысков. И по сей день очень трудно судить о работе даже одного нейрона с его несколькими десятками дендритов, синаптическими окончаниями, веществами-нейромедиаторами и многом другом, о чем часами могут рассуждать биохимики, нейрофизиологи и нейропсихологи. Что уж говорить о сотнях тысяч нервных клеток, находящихся во внутреннем ухе человека и взаимодействующих между собой и с речевым центром головного мозга - тоже с немалым числом нейронов.

При разработке технических систем, напрямую взаимодействующих с человеком, выбор подхода имеет первостепенное значение. И у бионического подхода есть противники. Конечно, можно оспорить его обоснованность. Скажем, существует "черный ящик", на вход которого подана речь, а на выходе получается текст. И не важно, соответствуют ли процессы, протекающие в ящике, процессам, происходящим в голове слушателя. Ведь моделирование процесса восприятия не является самоцелью, важен результат - распознавание речи.

В принципе, верно - но до тех пор, пока не доходит до реализации системы на практике. Каждый разработчик остается один на один со своим "черным ящиком". Если та часть ящика, которая ближе к выходу, уже обретает ясные очертания (лингвисты не зря едят хлеб), то с его входной частью полная тьма. Не будем вдаваться в трудности разработки лингвистического блока. Хотя его реализация сама по себе очень непроста, но тут целина поднята. Следует обратить внимание на то, как быстро развиваются системы оптического распознавания текста и системы автоматического перевода, в том или ином виде включающие в себя лингвистическую модель языка (языков). Поэтому будем считать, что у некоторого абстрактного разработчика системы распознавания речи уже есть приемлемая лингвистическая модель, то есть "выход" системы. Остается промежуток между речевым сигналом на входе системы и условным входом лингвистического блока.

Что же дальше? Произведем декомпозицию нашего "черного ящика" на "черный ящик" акустической модели и условно готовой лингвистической модели. И вновь, оставшись один на один с необходимостью строить акустическую модель, наш разработчик, возможно, начнет рассуждать о правомочности бионического подхода. Потому что эвристика пока дает неважные результаты. Например, опираясь на миф о спектральном разложении, происходящем на основной мембране слуховой улитки, был предложен метод "чтения спектрограмм". (Как выяснилось, ухо совсем не обычный анализатор спектра. Спросите у музыкантов о неравномерности разрешения слуха на разных частотах. Или у психоакустиков - о сложнейших нелинейных эффектах маскировки звуков.)

Считалось, что при правильном выборе параметров спектрального преобразования, можно с высокой вероятностью "читать" "текст" речевого сообщения по цветным рисункам срезов энергетического спектра. Спектральные срезы производятся с временным интервалом, обеспечивающим приемлемую динамику спектрально-временной картинки. Метод стал классическим несмотря на скромные результаты и критику за "биологическую несогласованность" со слухом.

Справедливости ради нужно отметить, что многие из существующих систем включают в себя акустический блок, созданный на основе смешанного подхода. Как говорится, моделируем, что знаем, остальное изобретаем.

Так что же делать разработчику? Сомнений масса. Стоит ли лезть в биологию? С одной стороны, интуитивно понятно, что в преобразовании "раздражитель - образ" у природы все приоритеты. Но с другой стороны, в нашем распоряжении лишь несколько весьма смутных гипотез о "представлении" звука в биологической системе. Вот здесь и возникает пресловутый тонкий момент. Основная задача акустической модели - выделить информативные параметры (признаки) из речевого сигнала. Другими словами, где-то в этой части системы проходит тонкая грань между некоторой совокупностью параметров речевого сигнала и более крупными единицами речи. Чем более грубо эта грань преодолевается, тем более "глухой" бывает система в целом. Просто взять чувствительный микрофон и обнаружить в некоторые моменты времени частотные составляющие спектра речевого сигнала недостаточно. В большинстве случаев это не позволяет идентифицировать речевые единицы, речевые признаки "спрятаны" глубже!

Каждый разработчик системы распознавания речи по-своему пытается решить эту проблему. Именно пытается, так как она пока не решена, насколько это известно из доступных источников. (Здесь мне следовало бы быть осторожным, так как проблема, возможно, решена на приемлемом уровне, но ее решение является важнейшим ноу-хау в технологиях распознавания речи и потому не опубликовано.) Ведь вспомним, до сих пор фактически не ясно, возможно ли разбить речь на некие элементарные универсальные составляющие, неважно, как их называть, фонемы ли, морфемы, аллофоны. Так где же заканчивается сигнал и начинается некая элементарная универсалия? Универсалия, которая базируется не на сходных звуковых ощущениях людей, а на возможности реализации в технической системе. Как построить процедуру опознавания таких единиц? Скорее всего эта процедура есть важнейшая "деталь" системы распознавания речи. Если ее удастся сделать качественно, то дальнейшее - дело лингвистического обработчика. Пока приемлемого решения не видно. Но не стоит отчаиваться. Определенный опыт все же накоплен.

Лингвистическая модель 

Согласно [2] , лингвистический блок подразделяется на следующие ярусы (слои, уровни): фонетический, фонологический, морфологический, лексический, синтаксический, семантический. Всего их шесть. За основу взят русский язык. Все ярусы суть априорная информация о структуре естественного языка, а, как известно, любая априорная информация об интересующем предмете увеличивает шансы принятия верного решения. На том стоит вся статистическая радиотехника. А естественный язык несет весьма сильно структурированную информацию, - из чего, кстати, вытекает, что для каждого естественного языка может потребоваться своя уникальная лингвистическая модель (предвижу трудности с русификацией сложных систем распознавания речи).

В соответствии с данной моделью на первом - фонетическом - уровне производится преобразование входного (для лингвистического блока) представления речи в последовательность фонем, как наименьших единиц языка. Считается, что в реальном речевом сигнале можно обнаружить лишь аллофоны - варианты фонем, зависящие от звукового окружения. Но сути это не меняет. Обратите внимание, что фонемы со товарищи могут перекочевать в лингвистический блок.

На следующем - фонологическом - уровне накладываются ограничения на комбинаторику фонем (аллофонов). Ограничение - это правило наизнанку, значит, опять есть полезная априорная информация: не все сочетания фонем (аллофонов) встречаются, а те, что встречаются, имеют различную вероятность появления, зависящую еще и от окружения. Для описания этой ситуации используется математический аппарат цепей Маркова.

Далее, на морфологическом уровне оперируют со слогоподобными единицами речи более высокого уровня, чем фонема. Иногда они называются морфемами. Они накладывают ограничение уже на структуру слова, подчиняясь закономерностям моделируемого естественного языка.

Лексический ярус охватывает слова и словоформы того или иного естественного языка, то есть словарь языка, так же внося важную априорную информацию о том, какие слова возможны для данного естественного языка.

Семантика устанавливает соотношения между объектами действительности и словами, их обозначающими. Она является высшим уровнем языка. При помощи семантических отношений интеллект человека производит как бы сжатие речевого сообщения в систему образов, понятий, представляющих суть речевого сообщения. Отсюда следует вывод, что система должна быть "умной". Чем лучше у нее будет построена модель семантических связей, эквивалента "системы мысленных образов", тем больше вероятность правильно распознать речь.

Многообразие видов 

Существующие системы распознавания речи можно классифицировать по разным признакам.

По назначению:

  •  командные системы,
  •  системы диктовки текста.

По потребительским качествам:

  •  диктороориентированные (тренируемые на конкретного диктора),
  •  дикторонезависимые (рискую предложить термин "омнивойс"),
  •  распознающие отдельные слова,
  •  распознающие слитную речь.

По механизмам функционирования:

  •  простейшие (корреляционные) детекторы,
  •  экспертные системы с различным способом формирования и обработки базы знаний,
  •  вероятностно-сетевые модели принятия решения, в том числе нейронные сети.

Довольно трудно выбрать удобный показатель качества работы системы распознавания речи. Наиболее просто такой показатель качества вводится для командных систем. При тестировании в случайном порядке произносятся все возможные команды достаточно большое число раз. Подсчитывается количество правильно распознанных команд и делится на общее количество произнесенных команд. В результате получается оценка вероятности правильного распознавания команды в заданной при эксперименте акустической обстановке. Для систем диктовки похожий показатель качества может вычисляться при диктовке некоторого тестового текста. Очевидно, что это не всегда удобный показатель качества. В действительности мы сталкиваемся с самыми различными акустическими обстановками. А как быть со сменой дикторов и сопутствующей ей тренировкой системы? Различным системам может требоваться разный объем настройки, что сильно влияет на удобство пользования. Стандартным выходом может стать использование многокритериального, так называемого комплексного показателя качества, [3].

В качестве примера рассмотрим вариант простейшей командной системы распознавания речи. Функционирование системы основано на гипотезе о том, что спектрально-временные характеристики команд-слов для отдельно взятого диктора изменяются слабо. Акустическая модель такой системы представляет собой преобразователь из речевого сигнала в спектрально-временную матрицу может служить типичным примером изобретательского подхода. В самом простом случае команда локализуется во времени по паузам в речевом сигнале. Лингвистический блок способен обнаружить ограниченное число команд плюс еще одну, которая означает все остальные неизвестные системе слова. Как правило, лингвистическая модель строится как алгоритм поиска максимума функционала от входного образца и образцов всего "словарного запаса" системы. Часто это обычный двумерный коррелятор. Хотя выбор размерности пространства описания и его метрики может широко варьироваться разработчиком.

Уже исходя из "конструкции" описанной системы понятно, что она представляет собой скорее игрушку, нежели полезный инструмент. В настоящее время на рынке представлено множество коммерческих систем распознавания речи с гораздо большими возможностями:

  •  Voice Type Dictation, Voice Pilot и ViaVoice от IBM;
  •  Dragon Dictate и Naturally Speaking от Dragon Systems;
  •  Voice Assist от Creative Technology;
  •  Listen for Windows от Verbex и многие другие.

Некоторые из них (например, ViaVoice и Naturally Speaking) способны, как заявляют разработчики, вводить слитную речь.

Лингвистические блоки современных систем реализуют сложную модель естественного языка. Иногда она основана на математическом аппарате скрытых цепей Маркова, иногда использует последние достижения технологии нейронных сетей либо других ноу-хау. Устройство же акустических блоков подобных систем держится в строгом секрете. По некоторым признакам можно догадаться, что акустический блок некоторых систем пытается моделировать естественный слуховой аппарат.

38


 

А также другие работы, которые могут Вас заинтересовать

66220. Методы программирования. Объектно-ориентированное программирование 29.25 KB
  Структурное программирование Основные положения концепции структурного программирования были сформулированы в 60х годах XX века голландским ученым Э. Технология структурного программирования зиждется на идее о выделении множества базисных элементов...
66221. Освіта в Україні з 1917 р. до початку 21 століття 85 KB
  Навчання у школах і вищих навчальних закладах переводилось на українську мову. Значна частина шкіл перейшла на навчання українською мовою. Кошти на освітні реформи в основному давала громадськість: пожертви з боку багатих інтелігенції земств сільські сходи часто постановляли зібрати кошти на організацію навчання.
66222. Управление деловой карьерой персонала организации 97 KB
  Технология формирования резерва руководителей Кадровый резерв это группа руководителей и специалистов обладающих способностью к управленческой деятельности отвечающих требованиям предъявляемым должностью того или иного ранга подвергшихся отбору...
66223. СУЧАСНІ ТЕНДЕНЦІЇ РОЗВИТКУ ОСВІТИ В СВІТІ 146 KB
  Провідним державам успіх у світі забезпечили такі фактори: при відборі спеціалістів розум і талант переважає над походженням створена система відбору здібних і умілих для продовження навчання діє гнучка система економіки управління...
66224. Стимулирование и мотивация труда персонала 69 KB
  Мотивация в современных условиях выступает одной из важнейших функций управления персоналом и представляет собой процесс побуждения работников к активной трудовой деятельности для удовлетворения их собственных потребностей и интересов в сочетании с достижением целей организации.
66225. Роль служб управления персоналом в разработке систем оплаты труда 86.5 KB
  Разработка системы оплаты труда. Особенности традиционной тарифной и нетрадиционной бестарифной моделей оплаты труда. Разработка системы оплаты труда.
66226. Мобильность персонала организации 73 KB
  Оборот персонала – число принятых или выбывших работников за отчетный период. Требования рыночной экономики связаны с необходимостью постоянного развития трудовых ресурсов организации, которое проявляется прежде всего в постоянном профессиональном росте и развитии.
66227. Реформация и Контрреформация в Европе 33 KB
  Для успешного развития буржуазного общества нужно было изменить отношение церкви к богатству и земным наслаждениям. Широкое и разнородная реформация по своим социальным устремлением движения направленная на преобразование католической церкви...
66228. Кадровые стратегии и политика организации 111.5 KB
  Поддержание деятельности персонала также требует больших затрат. Одним из необходимых условий максимально эффективного использования персонала организации является разработка четкая формулировка и реализация кадровой политики организации.