23562

Проект Разработка программы распознавания русской речи Для процессора SuperH RISK (Hitachi)

Практическая работа

Иностранные языки, филология и лингвистика

Целью проекта является создание системы независимой от диктора системы распознавания речи. Использование этой системы предполагается в мобильных карманных устройствах поэтому наряду с требованием высокой достоверности распознавания к ней также предъявляются очень жесткие требования относительно компактности и быстродействия. Тестирование системы было проведено на словаре из 2500 слов произнесенных различными дикторами не принимавших участие в процессе настройки системы. Разработка системы состояла из следующих этапов: составление...

Русский

2013-08-05

196 KB

3 чел.

Проект

Разработка программы распознавания русской речи

Для процессора SuperH RISK (Hitachi)

Цель проекта.

Целью проекта является создание системы независимой от диктора системы распознавания речи. Использование этой системы предполагается в мобильных «карманных» устройствах, поэтому наряду с требованием высокой достоверности распознавания к ней также предъявляются очень жесткие требования относительно компактности и быстродействия. Система должна быть основана на полунепрерывных скрытых моделях Маркова (*), т.е. вероятности наблюдаемых символов задаются непрерывной функцией распределения, в то время как вероятности перехода из состояния в состояния остаются дискретными. Процесс распознавания основан на применении алгоритма Витерби (*). Тестирование системы было проведено на словаре из 2500 слов, произнесенных различными дикторами, не принимавших участие в процессе настройки  системы. Была достигнута достоверность распознавания не ниже 87%.

Разработка системы состояла из следующих этапов: составление словаря, разработка системы записи словаря, предварительная обработка речи и выделение признаков, построение кодовой книги, настройка скрытых моделей Маркова,  тестирование распознающей системы. Ниже приведено краткое описание этих этапов, а также приведены результаты тестирования созданной системы.

1. Составление словаря

Для составления кодовой книги русского языка очень важно учесть все фонемы, составляющие русскую речь. Фонема, или минимальная смыслоразличительная единица, является основным термином функциональной фонетики - фонологии. Фонемы позволяют, с одной стороны, различать, а, с другой стороны, отождествлять значимые единицы языка - слова и морфемы. На основе анализа словарного состава конкретного национального языка и его грамматической системы определяется фонемный состав данного языка. Для записи русских слов используются 33 буквы. Однако, число фонем, присутствующих в речи, намного превосходит это количество. В результате проведенной нами работы были выделены русские слова, в которых присутствуют всевозможные сочетания всех фонем, образующих русскую речь. Из этих слов был составлен словарь, который содержал порядка 1000 слов.

2. Система записи словаря.

В принципе, записать словарь можно с помощью любой стандартной программы звукозаписи. При этом на оператора (т.е. человека, который контролирует процесс записи) возлагается большая нагрузка. Он должен следить за тем, чтобы ни одно слово не было пропущено, придумывать имена файлам, в которые записывается звуковая волна, следить за уровнем записи (для нашей цели не подходят очень тихие, сравнимые с уровнем фона, записи; либо слишком громкие, выходящие за пределы динамического диапазона). Такое большое количество ручной работы потребует значительных затрат времени для сеанса работы с каждым спикером.  При этом неизбежно будет сделано большое число ошибок. Кроме того, при обработке большого количества wav-файлов нам хотелось бы для каждого файла иметь набор дополнительных атрибутов, которые обычно учитываются при распознавании: мужской или женский голос, есть или нет дефекты в речи, кому принадлежит голос: взрослому или ребенку?

Все сказанное выше привело к необходимости создания специализированной системы, предназначенной для записи словаря.  Главным отличием нашей системы от стандартных систем записи звука является автоматический контроль за качеством  результатов. Оператор должен вмешиваться в процесс записи лишь в чрезвычайных случаях, таких как приостановка либо прекращения сеанса записи, необходимость перезаписать какое-либо слово и т.п.

3. Предварительная обработка речи и выделение признаков.

Целью настоящего этапа работы является преобразование речевого сигнала в набор характерных признаков, которые в дальнейшем будут использованы для построения кодовой книги, обучения скрытых моделей Маркова (HMMs) и распознавания речи. Ниже приведено подробное описание последовательности преобразований, позволяющих получить наборы признаков из речевого сигнала.

3.1. Низкочастотная фильтрация  речевого сигнала.

Для спектрального выравнивания речевого сигнала его следует пропустить через низкочастотный фильтр. В простейшем случае фильтрацию осуществляют с использованием следующего соотношения:

,

где - исходный сигнал,  - отфильтрованный сигнал,  - параметр фильтрации. Цель этого преобразования - снизить влияние локальных искажений на характеристические признаки, которые в дальнейшем будут использоваться для распознавания.

3.2.  Нарезка сигнала перекрывающимися сегментами.

Для того, чтобы получить векторы признаков одинаковой длины, нужно «нарезать» речевой сигнал на равные части, а затем выполнять преобразования внутри каждого сегмента. Обычно сегменты выбирают таким образом, чтобы они перекрывались либо наполовину, либо на 2/3. Перекрытие используется для предотвращения потери информации о сигнале на границе. Если, например, выбран сегмент длиной отсчетов, то перекрытие наполовину означает сдвиг на :

Перекрытие на 2/3 означает сдвиг  каждого сегмента относительно предыдущего на отсчетов, при этом 2/3 сигнала у смежных сегментов является общей:

3.3. Обработка сигнала в окне.

Целью данного этапа обработки является снижение граничных эффектов, возникающих в результате сегментации. Для подавления нежелательных граничных эффектов принято умножать сигнал на оконную функцию :

.

В  качестве функции  чаще всего используется окно Хэмминга, которое задается следующей формулой:

.

Ниже приведен график оконной функции Хэмминга:

3.4. Выделение характеристических признаков.

В настоящее время в качестве признаков, описывающих речь, наиболее широко применяются кепстральные коэффициенты , которые формально определяются следующим образом:

 

где  и   - соответственно прямое и обратное преобразования Фурье, - исходный сигнал. Существует эффективный метод вычисления кепстра -  непосредственно из коэффициентов линейного предсказания :

, ,

,  .

Коэффициент  определяют по формуле:

,

 - коэффициент усиления, который можно вычислить в процессе применения алгоритма Левинсона-Дурбина.

Улучшить «динамические» свойства характерных признаков можно путем добавления «кепстральных производных» порядка , которые вычисляются по формуле:

,

где  - нормировочный множитель, а - порядок производной.

Таким образом, в результате проведенных преобразований для каждого сегмента речевого сигнала получается вектор признаков:

,

состоящий из компонентов. Эти признаки в дальнейшем будут использоваться для построения кодовой книги, обучения скрытых моделей Маркова, а также при распознавании речи.

4. Построение кодовой книги.

Конечной целью нашей работы является построение человеко-независимой распознающей системы. Это означает, что система должна обладать низкой чувствительностью к произношению различных людей. Запомнить всевозможные особенности произношения не представляется возможным, поскольку у нас есть жесткие технические ограничения на объем памяти распознающего устройства и на время отклика системы. Поэтому обычно оперируют с кодовой книгой – т.е. набором ограниченного числа «эталонных» признаков, являющихся словами кодовой книги. Число кодовых слов должно быть достаточно большим для однозначного кодирования речи любого человека. В то же время объем кодовой книги должен быть максимально компактным для сокращения времени распознавания. Это приводит к задаче об оптимальном выборе размера кодовой книги. Речь  преобразуется в набор характерных признаков , для которых отыскиваются наиболее близкие эталонные признаки из кодовой книги . В результате для каждого произнесенного слова можно построить последовательность из целых чисел, которые являются номерами признаков из кодовой книги  (см. рисунок ниже):

 

Для построения кодовой книги нами была проведена кластеризация исходных речевых сигналов, записанных от большого набора спикеров, с помощью модифицированного K-mean алгоритма.

5. Настройка скрытых моделей Маркова

Каждому слову из словаря должна соответствовать своя модель Маркова . В качестве модели мы будем использовать left-to-right модель, в которой допускаются переходы только в текущее или в следующее состояние:

Для left-to-right модели ,  при , поэтому будем писать просто .

Таким образом, мы должны построить следующее соответствие:

Поскольку каждое слово содержит свое уникальное сочетание звуков, то длина цепочки (количество состояний) у всех моделей, вообще говоря, различно.

Таким образом, для выбранной модели справедливо:

, .

.

5.1. Переоценка параметров модели.

После назначения параметрам модели начальных значений проводилась переоценка всех параметров с целью их улучшения. Для переоценки был использован алгоритм, основанный на методе Баума-Уэлша.

Введем вспомогательные переменные:

,

,

где  и  - прямая и обратная переменные.

Тогда формулы переоценки примут следующий вид:

,

,

,

.

Переоценка параметров проводится до тех пор, пока параметры не перестанут изменяться.

6. Тестирование распознающей системы.

Для проверки распознающей системы использовался словарь, состоящий из 500 слов.

6.1. Параметры процесса тестирования.

Для настройки HMMs использовались речевые данные, наговоренные 10 дикторами: 4 мужчинами (с нормальным голосом, с низким, с высоким, а также с гнусавым), 4 женщинами (с нормальным голосом, с низким, с высоким, а также с раздраженным голосом), и 2 детьми; всего 5000 слов.

Для тестирования были использованы данные, произнесенные 5 дикторами: двумя мужчинами (с нормальным и низким голосами), двумя женщинами (с нормальным и высоким голосами) и одним ребенком; всего 2500 слов.

Процесс тестирования был организован следующим образом:

  1.  Считывался очередной wave-файл
  2.  Осуществлялось преобразование звуковой волны в набор характеристических признаков в соответствие с выбранными параметрами.
  3.  Для каждой модели Маркова из базы данных вычислялась вероятность соответствия этой модели наблюдаемому набору характеристических признаков.
  4.  После сортировки по убыванию выбирались пять первых кандидатов – моделей HMM, имеющих наибольшие вероятности, так что 1-й кандидат имел наибольшую вероятность. При этом считалось, что система верно распознала слово, если первая модель соответствовала этому слову.
  5.  Собиралась статистика по всем словам и всем из пяти кандидатов.

6.2. Результаты тестирования.

В результате были достигнуты следующие показатели.

Вероятность распознавания – 87%.

Распределение вероятностей по словам изображено на следующей диаграмме:

Из этой диаграммы видно, что 225 слов были распознаны с вероятностью 100%, 216 слов – с вероятностью 80%, 55 слов – с вероятностью 60%, и 4 слова – с вероятностью 40%. Вероятность 80% означает следующее: данное слово, произнесенное пятью дикторами, было верно классифицировано 4 раза и один раз – неверно. Вероятность распознавания 60% означает, что это слово было первым кандидатом для трех дикторов и попало на место, отличное от первого для двух других дикторов. Таким образом, если бы наш словарь состоял из 225 «лучших» слов, то достоверность распознавания была бы 100% для всех дикторов!

Распределение верно классифицированных слов по кандидатам приведено на следующей диаграмме:

Из приведенной диаграммы видно, что предъявляемые слова  были верно распознаны первым кандидатом в 87% случаев, вторым кандидатом (т.е. имеющим вторую по величине вероятность) – в 5% случаев, третьим – в 2% случаев и по 1 % четвертым и пятым. То есть с вероятностью 95 % все предъявленные слова попали в первую пятерку претендентов. Это означает, что достоверность распознавания слов может быть повышена за счет учета апостериорной информации и применения тематических словарей.

Заключение.

На основе анализа численных экспериментов были намечены пути увеличения достоверности распознавания речи при одновременном сокращении требуемой памяти и увеличения быстродействия распознающей системы.

6


 

А также другие работы, которые могут Вас заинтересовать

1920. Формирование экологической культуры школьников в условиях учебно-производственного комбината 1.2 MB
  Теоретико-методические проблемы формирования экологической культуры учащихся. Педагогический подход к содержанию и технологии формирования экологической культуры учащихся в образовательных учреждениях. Организационные и содержательные условия деятельности учебно-производственного комбината по формированию экологической культуры.
1921. Образовательные порталы как средство систематизации и структурирования информации 1.2 MB
  Научно-методические основы создания и использования образовательных интернет-порталов. Организация представления учебной информации на портале. Практическая реализация информационно-образовательного портала вуза.
1922. Земля. Справочник собственника и арендатора 1.19 MB
  Правовые основы земельных отношений, виды земель и их значение. Порядок оформления и переоформления прав на земельные участки. Основания приобретения права собственности на землю. Общая характеристика сделок с земельными участками.
1923. Лингвокультурная специфика словообразовательной категории локативности 1.19 MB
  Общая характеристика локативов как предмета исследования и терминологии работы. Лексико-семантическое поле в соотношении со словообразовательной категорией локативности. Категория локативности в русской деривационной системе.
1924. Проблема свободы в поэтическом творчестве В.С. Высоцкого 1.19 MB
  Теоретические аспекты проблемы свободы воли. Философская традиция проблемы свободы в 1950-1970 годах. Концепция свободы в песнях тюремно-лагерной тематики В.С. Высоцкого. Символика самолета, птицы и полета в разработке проблемы свободы.
1925. Направленный синтез каротиноидов у дрожжей и перспектива их использования, 1.5 MB
  Каротиноидные пигменты - биологические функции и перспектива использования. Биостимуляторы, индукторы и координационные соединения металлов. Скрининг дрожжей, обладающих повышенной способностью к биосинтезу каротоноидных пигментов.
1926. Ансамбли сигналов и их характеристики 240.57 KB
  Диаграммы сигналов во всех точках системы передачи дискретных сообщений. Структурная схема систем передачи дискретных сообщений с применением частотной модуляции. Зависимости вероятности ошибочного приема от отношения сигнал-шум.
1927. Измерение GPS приемником в режиме статика и кинематика 240.54 KB
  Освоение методики работы на базовой и мобильной станциях в режимах статика и кинематика.
1928. Моніторинг радіаційної, хімічної та біологічної небезпек 251.62 KB
  Ознайомлення з приладами радіаційної, хімічної та біологічної небезпек. Зокрема з ВПХР, ДП-22В (ДП-24), ДП-5В. Дізнався їх будову, принцип дії, склад та порядок підготовки до використання.