23562

Проект Разработка программы распознавания русской речи Для процессора SuperH RISK (Hitachi)

Практическая работа

Иностранные языки, филология и лингвистика

Целью проекта является создание системы независимой от диктора системы распознавания речи. Использование этой системы предполагается в мобильных карманных устройствах поэтому наряду с требованием высокой достоверности распознавания к ней также предъявляются очень жесткие требования относительно компактности и быстродействия. Тестирование системы было проведено на словаре из 2500 слов произнесенных различными дикторами не принимавших участие в процессе настройки системы. Разработка системы состояла из следующих этапов: составление...

Русский

2013-08-05

196 KB

3 чел.

Проект

Разработка программы распознавания русской речи

Для процессора SuperH RISK (Hitachi)

Цель проекта.

Целью проекта является создание системы независимой от диктора системы распознавания речи. Использование этой системы предполагается в мобильных «карманных» устройствах, поэтому наряду с требованием высокой достоверности распознавания к ней также предъявляются очень жесткие требования относительно компактности и быстродействия. Система должна быть основана на полунепрерывных скрытых моделях Маркова (*), т.е. вероятности наблюдаемых символов задаются непрерывной функцией распределения, в то время как вероятности перехода из состояния в состояния остаются дискретными. Процесс распознавания основан на применении алгоритма Витерби (*). Тестирование системы было проведено на словаре из 2500 слов, произнесенных различными дикторами, не принимавших участие в процессе настройки  системы. Была достигнута достоверность распознавания не ниже 87%.

Разработка системы состояла из следующих этапов: составление словаря, разработка системы записи словаря, предварительная обработка речи и выделение признаков, построение кодовой книги, настройка скрытых моделей Маркова,  тестирование распознающей системы. Ниже приведено краткое описание этих этапов, а также приведены результаты тестирования созданной системы.

1. Составление словаря

Для составления кодовой книги русского языка очень важно учесть все фонемы, составляющие русскую речь. Фонема, или минимальная смыслоразличительная единица, является основным термином функциональной фонетики - фонологии. Фонемы позволяют, с одной стороны, различать, а, с другой стороны, отождествлять значимые единицы языка - слова и морфемы. На основе анализа словарного состава конкретного национального языка и его грамматической системы определяется фонемный состав данного языка. Для записи русских слов используются 33 буквы. Однако, число фонем, присутствующих в речи, намного превосходит это количество. В результате проведенной нами работы были выделены русские слова, в которых присутствуют всевозможные сочетания всех фонем, образующих русскую речь. Из этих слов был составлен словарь, который содержал порядка 1000 слов.

2. Система записи словаря.

В принципе, записать словарь можно с помощью любой стандартной программы звукозаписи. При этом на оператора (т.е. человека, который контролирует процесс записи) возлагается большая нагрузка. Он должен следить за тем, чтобы ни одно слово не было пропущено, придумывать имена файлам, в которые записывается звуковая волна, следить за уровнем записи (для нашей цели не подходят очень тихие, сравнимые с уровнем фона, записи; либо слишком громкие, выходящие за пределы динамического диапазона). Такое большое количество ручной работы потребует значительных затрат времени для сеанса работы с каждым спикером.  При этом неизбежно будет сделано большое число ошибок. Кроме того, при обработке большого количества wav-файлов нам хотелось бы для каждого файла иметь набор дополнительных атрибутов, которые обычно учитываются при распознавании: мужской или женский голос, есть или нет дефекты в речи, кому принадлежит голос: взрослому или ребенку?

Все сказанное выше привело к необходимости создания специализированной системы, предназначенной для записи словаря.  Главным отличием нашей системы от стандартных систем записи звука является автоматический контроль за качеством  результатов. Оператор должен вмешиваться в процесс записи лишь в чрезвычайных случаях, таких как приостановка либо прекращения сеанса записи, необходимость перезаписать какое-либо слово и т.п.

3. Предварительная обработка речи и выделение признаков.

Целью настоящего этапа работы является преобразование речевого сигнала в набор характерных признаков, которые в дальнейшем будут использованы для построения кодовой книги, обучения скрытых моделей Маркова (HMMs) и распознавания речи. Ниже приведено подробное описание последовательности преобразований, позволяющих получить наборы признаков из речевого сигнала.

3.1. Низкочастотная фильтрация  речевого сигнала.

Для спектрального выравнивания речевого сигнала его следует пропустить через низкочастотный фильтр. В простейшем случае фильтрацию осуществляют с использованием следующего соотношения:

,

где - исходный сигнал,  - отфильтрованный сигнал,  - параметр фильтрации. Цель этого преобразования - снизить влияние локальных искажений на характеристические признаки, которые в дальнейшем будут использоваться для распознавания.

3.2.  Нарезка сигнала перекрывающимися сегментами.

Для того, чтобы получить векторы признаков одинаковой длины, нужно «нарезать» речевой сигнал на равные части, а затем выполнять преобразования внутри каждого сегмента. Обычно сегменты выбирают таким образом, чтобы они перекрывались либо наполовину, либо на 2/3. Перекрытие используется для предотвращения потери информации о сигнале на границе. Если, например, выбран сегмент длиной отсчетов, то перекрытие наполовину означает сдвиг на :

Перекрытие на 2/3 означает сдвиг  каждого сегмента относительно предыдущего на отсчетов, при этом 2/3 сигнала у смежных сегментов является общей:

3.3. Обработка сигнала в окне.

Целью данного этапа обработки является снижение граничных эффектов, возникающих в результате сегментации. Для подавления нежелательных граничных эффектов принято умножать сигнал на оконную функцию :

.

В  качестве функции  чаще всего используется окно Хэмминга, которое задается следующей формулой:

.

Ниже приведен график оконной функции Хэмминга:

3.4. Выделение характеристических признаков.

В настоящее время в качестве признаков, описывающих речь, наиболее широко применяются кепстральные коэффициенты , которые формально определяются следующим образом:

 

где  и   - соответственно прямое и обратное преобразования Фурье, - исходный сигнал. Существует эффективный метод вычисления кепстра -  непосредственно из коэффициентов линейного предсказания :

, ,

,  .

Коэффициент  определяют по формуле:

,

 - коэффициент усиления, который можно вычислить в процессе применения алгоритма Левинсона-Дурбина.

Улучшить «динамические» свойства характерных признаков можно путем добавления «кепстральных производных» порядка , которые вычисляются по формуле:

,

где  - нормировочный множитель, а - порядок производной.

Таким образом, в результате проведенных преобразований для каждого сегмента речевого сигнала получается вектор признаков:

,

состоящий из компонентов. Эти признаки в дальнейшем будут использоваться для построения кодовой книги, обучения скрытых моделей Маркова, а также при распознавании речи.

4. Построение кодовой книги.

Конечной целью нашей работы является построение человеко-независимой распознающей системы. Это означает, что система должна обладать низкой чувствительностью к произношению различных людей. Запомнить всевозможные особенности произношения не представляется возможным, поскольку у нас есть жесткие технические ограничения на объем памяти распознающего устройства и на время отклика системы. Поэтому обычно оперируют с кодовой книгой – т.е. набором ограниченного числа «эталонных» признаков, являющихся словами кодовой книги. Число кодовых слов должно быть достаточно большим для однозначного кодирования речи любого человека. В то же время объем кодовой книги должен быть максимально компактным для сокращения времени распознавания. Это приводит к задаче об оптимальном выборе размера кодовой книги. Речь  преобразуется в набор характерных признаков , для которых отыскиваются наиболее близкие эталонные признаки из кодовой книги . В результате для каждого произнесенного слова можно построить последовательность из целых чисел, которые являются номерами признаков из кодовой книги  (см. рисунок ниже):

 

Для построения кодовой книги нами была проведена кластеризация исходных речевых сигналов, записанных от большого набора спикеров, с помощью модифицированного K-mean алгоритма.

5. Настройка скрытых моделей Маркова

Каждому слову из словаря должна соответствовать своя модель Маркова . В качестве модели мы будем использовать left-to-right модель, в которой допускаются переходы только в текущее или в следующее состояние:

Для left-to-right модели ,  при , поэтому будем писать просто .

Таким образом, мы должны построить следующее соответствие:

Поскольку каждое слово содержит свое уникальное сочетание звуков, то длина цепочки (количество состояний) у всех моделей, вообще говоря, различно.

Таким образом, для выбранной модели справедливо:

, .

.

5.1. Переоценка параметров модели.

После назначения параметрам модели начальных значений проводилась переоценка всех параметров с целью их улучшения. Для переоценки был использован алгоритм, основанный на методе Баума-Уэлша.

Введем вспомогательные переменные:

,

,

где  и  - прямая и обратная переменные.

Тогда формулы переоценки примут следующий вид:

,

,

,

.

Переоценка параметров проводится до тех пор, пока параметры не перестанут изменяться.

6. Тестирование распознающей системы.

Для проверки распознающей системы использовался словарь, состоящий из 500 слов.

6.1. Параметры процесса тестирования.

Для настройки HMMs использовались речевые данные, наговоренные 10 дикторами: 4 мужчинами (с нормальным голосом, с низким, с высоким, а также с гнусавым), 4 женщинами (с нормальным голосом, с низким, с высоким, а также с раздраженным голосом), и 2 детьми; всего 5000 слов.

Для тестирования были использованы данные, произнесенные 5 дикторами: двумя мужчинами (с нормальным и низким голосами), двумя женщинами (с нормальным и высоким голосами) и одним ребенком; всего 2500 слов.

Процесс тестирования был организован следующим образом:

  1.  Считывался очередной wave-файл
  2.  Осуществлялось преобразование звуковой волны в набор характеристических признаков в соответствие с выбранными параметрами.
  3.  Для каждой модели Маркова из базы данных вычислялась вероятность соответствия этой модели наблюдаемому набору характеристических признаков.
  4.  После сортировки по убыванию выбирались пять первых кандидатов – моделей HMM, имеющих наибольшие вероятности, так что 1-й кандидат имел наибольшую вероятность. При этом считалось, что система верно распознала слово, если первая модель соответствовала этому слову.
  5.  Собиралась статистика по всем словам и всем из пяти кандидатов.

6.2. Результаты тестирования.

В результате были достигнуты следующие показатели.

Вероятность распознавания – 87%.

Распределение вероятностей по словам изображено на следующей диаграмме:

Из этой диаграммы видно, что 225 слов были распознаны с вероятностью 100%, 216 слов – с вероятностью 80%, 55 слов – с вероятностью 60%, и 4 слова – с вероятностью 40%. Вероятность 80% означает следующее: данное слово, произнесенное пятью дикторами, было верно классифицировано 4 раза и один раз – неверно. Вероятность распознавания 60% означает, что это слово было первым кандидатом для трех дикторов и попало на место, отличное от первого для двух других дикторов. Таким образом, если бы наш словарь состоял из 225 «лучших» слов, то достоверность распознавания была бы 100% для всех дикторов!

Распределение верно классифицированных слов по кандидатам приведено на следующей диаграмме:

Из приведенной диаграммы видно, что предъявляемые слова  были верно распознаны первым кандидатом в 87% случаев, вторым кандидатом (т.е. имеющим вторую по величине вероятность) – в 5% случаев, третьим – в 2% случаев и по 1 % четвертым и пятым. То есть с вероятностью 95 % все предъявленные слова попали в первую пятерку претендентов. Это означает, что достоверность распознавания слов может быть повышена за счет учета апостериорной информации и применения тематических словарей.

Заключение.

На основе анализа численных экспериментов были намечены пути увеличения достоверности распознавания речи при одновременном сокращении требуемой памяти и увеличения быстродействия распознающей системы.

6


 

А также другие работы, которые могут Вас заинтересовать

32045. Соотношение корня слова и основы слова 22 KB
  Соотношение корня слова и основы слова Все морфемы можно разделить на два больших класса: корни и аффиксы ffixus от лат – прикрепленный. Основа может состоять из одного корня например дом из корня со словообразовательным суффиксом одним или несколькими например домик красный ый окончание красненький ий окончание; из корня и приставки например пригород ; из корня приставки и суффикса например сделать ть суффикс инфинитива не входящий в основу выражает роль которую играет глагол в предложении.
32046. Организация Web-доступа в среде zLinux на сервере z9 BC 657 KB
  Целью работы является обеспечить webдоступ на сервер z9 BC используя программное обеспечение установленное на IBM z9 BC а именно HTTP сервер pche. Webсервер pche будет предоставлять доступ к ресурсам сервера пользователям подключенным к внутренней сети. Webсервер pche [7.1 Описание webсервера pche [7.
32047. Подготовка и защита выпускных квалификационных работ 328.5 KB
  Состав дипломной работы и требования к её выполнению. Выполнение исследовательских задач и написание основных разделов дипломной работы.40 Изложение и оформление дипломной работы.42 Оформление дипломной работы.
32048. Возникновение иудаизма, основные этапы его развития 37 KB
  Дальнейшая история Завета делится на 7 периодов которые отражают стадии религиознообщественного становления народа древнего Израиля: Эпоха патриархов от Авраама до Моисея которая заканчивается египетским пленом. Эпоха Моисея и Иисуса Навина в которую сбываются обетования Бога Аврааму. Эпоха судей. Эпоха ранней монархии при Сауле Давиде Соломоне и частично Ровоаме.
32049. Новый Завет 137 KB
  Новый Завет из 27 книг которые можно поделить на следующие разделы: евангелия основная часть Нового Завета тексты написанные учениками Иисуса Христа. историческая книга книга Деяния святых апостолов приписываемая евангелисту Луке: исторический рассказ о подвижничестве последователей Христа распространявших христианскую веру и о росте и усилении древней церкви. пророческая книга Откровение Апокалипсис откровение Святого апостола Иоанна Богослова полученное от Бога: антихрист второе пришествие Христа конец света...
32050. Коран и коранистика 49 KB
  Он приказал разрушить капища места жертвоприношений языческих богов бросить в Днепр их статуи и построить христианские церкви. Строились церкви: Десятинная церковь в Киеве Пресвятой Богородицы в Полоцке в 1037 г. церковные иерархии и князья начали борьбу за независимость русской церкви от Византии. Фактически через Синод император контролировал и жизнь Церкви.
32051. Старообрядчество (Раскольничество, Староверие) 29 KB
  Понятие старообрядчество появляется после раскола Русской православной церкви в середине XVII века. Официально термин старообрядчество стал использоваться с 1906 г.
32052. Расчеты с покупателями и заказчиками 146 KB
  В книге продаж регистрируются счетафактуры с указанием суммы НДС. В этом случае при отгрузке продавцом товара покупателю и при предъявлении ему расчетных документов продавцом признается доход от продажи и делается запись на суммы указанные в этих документах: Дт 62 Расчеты с покупателями и заказчиками Кт 90 Продажи Одновременно начисляется НДС в бюджет Дт 903 НДС Кт 68 Расчеты по НДС При поступлении оплаты делается запись ДТ 51 50 52 Кт 62 Расчеты с покупателями...
32053. Разработка макета промышленного манипулятора 1.57 MB
  Основным заданием является проектирование и создание макета промышленного манипулятора, который способен перемещать металлический объект с конвейера весом не меньше 100 грамм.