23562

Проект Разработка программы распознавания русской речи Для процессора SuperH RISK (Hitachi)

Практическая работа

Иностранные языки, филология и лингвистика

Целью проекта является создание системы независимой от диктора системы распознавания речи. Использование этой системы предполагается в мобильных карманных устройствах поэтому наряду с требованием высокой достоверности распознавания к ней также предъявляются очень жесткие требования относительно компактности и быстродействия. Тестирование системы было проведено на словаре из 2500 слов произнесенных различными дикторами не принимавших участие в процессе настройки системы. Разработка системы состояла из следующих этапов: составление...

Русский

2013-08-05

196 KB

4 чел.

Проект

Разработка программы распознавания русской речи

Для процессора SuperH RISK (Hitachi)

Цель проекта.

Целью проекта является создание системы независимой от диктора системы распознавания речи. Использование этой системы предполагается в мобильных «карманных» устройствах, поэтому наряду с требованием высокой достоверности распознавания к ней также предъявляются очень жесткие требования относительно компактности и быстродействия. Система должна быть основана на полунепрерывных скрытых моделях Маркова (*), т.е. вероятности наблюдаемых символов задаются непрерывной функцией распределения, в то время как вероятности перехода из состояния в состояния остаются дискретными. Процесс распознавания основан на применении алгоритма Витерби (*). Тестирование системы было проведено на словаре из 2500 слов, произнесенных различными дикторами, не принимавших участие в процессе настройки  системы. Была достигнута достоверность распознавания не ниже 87%.

Разработка системы состояла из следующих этапов: составление словаря, разработка системы записи словаря, предварительная обработка речи и выделение признаков, построение кодовой книги, настройка скрытых моделей Маркова,  тестирование распознающей системы. Ниже приведено краткое описание этих этапов, а также приведены результаты тестирования созданной системы.

1. Составление словаря

Для составления кодовой книги русского языка очень важно учесть все фонемы, составляющие русскую речь. Фонема, или минимальная смыслоразличительная единица, является основным термином функциональной фонетики - фонологии. Фонемы позволяют, с одной стороны, различать, а, с другой стороны, отождествлять значимые единицы языка - слова и морфемы. На основе анализа словарного состава конкретного национального языка и его грамматической системы определяется фонемный состав данного языка. Для записи русских слов используются 33 буквы. Однако, число фонем, присутствующих в речи, намного превосходит это количество. В результате проведенной нами работы были выделены русские слова, в которых присутствуют всевозможные сочетания всех фонем, образующих русскую речь. Из этих слов был составлен словарь, который содержал порядка 1000 слов.

2. Система записи словаря.

В принципе, записать словарь можно с помощью любой стандартной программы звукозаписи. При этом на оператора (т.е. человека, который контролирует процесс записи) возлагается большая нагрузка. Он должен следить за тем, чтобы ни одно слово не было пропущено, придумывать имена файлам, в которые записывается звуковая волна, следить за уровнем записи (для нашей цели не подходят очень тихие, сравнимые с уровнем фона, записи; либо слишком громкие, выходящие за пределы динамического диапазона). Такое большое количество ручной работы потребует значительных затрат времени для сеанса работы с каждым спикером.  При этом неизбежно будет сделано большое число ошибок. Кроме того, при обработке большого количества wav-файлов нам хотелось бы для каждого файла иметь набор дополнительных атрибутов, которые обычно учитываются при распознавании: мужской или женский голос, есть или нет дефекты в речи, кому принадлежит голос: взрослому или ребенку?

Все сказанное выше привело к необходимости создания специализированной системы, предназначенной для записи словаря.  Главным отличием нашей системы от стандартных систем записи звука является автоматический контроль за качеством  результатов. Оператор должен вмешиваться в процесс записи лишь в чрезвычайных случаях, таких как приостановка либо прекращения сеанса записи, необходимость перезаписать какое-либо слово и т.п.

3. Предварительная обработка речи и выделение признаков.

Целью настоящего этапа работы является преобразование речевого сигнала в набор характерных признаков, которые в дальнейшем будут использованы для построения кодовой книги, обучения скрытых моделей Маркова (HMMs) и распознавания речи. Ниже приведено подробное описание последовательности преобразований, позволяющих получить наборы признаков из речевого сигнала.

3.1. Низкочастотная фильтрация  речевого сигнала.

Для спектрального выравнивания речевого сигнала его следует пропустить через низкочастотный фильтр. В простейшем случае фильтрацию осуществляют с использованием следующего соотношения:

,

где - исходный сигнал,  - отфильтрованный сигнал,  - параметр фильтрации. Цель этого преобразования - снизить влияние локальных искажений на характеристические признаки, которые в дальнейшем будут использоваться для распознавания.

3.2.  Нарезка сигнала перекрывающимися сегментами.

Для того, чтобы получить векторы признаков одинаковой длины, нужно «нарезать» речевой сигнал на равные части, а затем выполнять преобразования внутри каждого сегмента. Обычно сегменты выбирают таким образом, чтобы они перекрывались либо наполовину, либо на 2/3. Перекрытие используется для предотвращения потери информации о сигнале на границе. Если, например, выбран сегмент длиной отсчетов, то перекрытие наполовину означает сдвиг на :

Перекрытие на 2/3 означает сдвиг  каждого сегмента относительно предыдущего на отсчетов, при этом 2/3 сигнала у смежных сегментов является общей:

3.3. Обработка сигнала в окне.

Целью данного этапа обработки является снижение граничных эффектов, возникающих в результате сегментации. Для подавления нежелательных граничных эффектов принято умножать сигнал на оконную функцию :

.

В  качестве функции  чаще всего используется окно Хэмминга, которое задается следующей формулой:

.

Ниже приведен график оконной функции Хэмминга:

3.4. Выделение характеристических признаков.

В настоящее время в качестве признаков, описывающих речь, наиболее широко применяются кепстральные коэффициенты , которые формально определяются следующим образом:

 

где  и   - соответственно прямое и обратное преобразования Фурье, - исходный сигнал. Существует эффективный метод вычисления кепстра -  непосредственно из коэффициентов линейного предсказания :

, ,

,  .

Коэффициент  определяют по формуле:

,

 - коэффициент усиления, который можно вычислить в процессе применения алгоритма Левинсона-Дурбина.

Улучшить «динамические» свойства характерных признаков можно путем добавления «кепстральных производных» порядка , которые вычисляются по формуле:

,

где  - нормировочный множитель, а - порядок производной.

Таким образом, в результате проведенных преобразований для каждого сегмента речевого сигнала получается вектор признаков:

,

состоящий из компонентов. Эти признаки в дальнейшем будут использоваться для построения кодовой книги, обучения скрытых моделей Маркова, а также при распознавании речи.

4. Построение кодовой книги.

Конечной целью нашей работы является построение человеко-независимой распознающей системы. Это означает, что система должна обладать низкой чувствительностью к произношению различных людей. Запомнить всевозможные особенности произношения не представляется возможным, поскольку у нас есть жесткие технические ограничения на объем памяти распознающего устройства и на время отклика системы. Поэтому обычно оперируют с кодовой книгой – т.е. набором ограниченного числа «эталонных» признаков, являющихся словами кодовой книги. Число кодовых слов должно быть достаточно большим для однозначного кодирования речи любого человека. В то же время объем кодовой книги должен быть максимально компактным для сокращения времени распознавания. Это приводит к задаче об оптимальном выборе размера кодовой книги. Речь  преобразуется в набор характерных признаков , для которых отыскиваются наиболее близкие эталонные признаки из кодовой книги . В результате для каждого произнесенного слова можно построить последовательность из целых чисел, которые являются номерами признаков из кодовой книги  (см. рисунок ниже):

 

Для построения кодовой книги нами была проведена кластеризация исходных речевых сигналов, записанных от большого набора спикеров, с помощью модифицированного K-mean алгоритма.

5. Настройка скрытых моделей Маркова

Каждому слову из словаря должна соответствовать своя модель Маркова . В качестве модели мы будем использовать left-to-right модель, в которой допускаются переходы только в текущее или в следующее состояние:

Для left-to-right модели ,  при , поэтому будем писать просто .

Таким образом, мы должны построить следующее соответствие:

Поскольку каждое слово содержит свое уникальное сочетание звуков, то длина цепочки (количество состояний) у всех моделей, вообще говоря, различно.

Таким образом, для выбранной модели справедливо:

, .

.

5.1. Переоценка параметров модели.

После назначения параметрам модели начальных значений проводилась переоценка всех параметров с целью их улучшения. Для переоценки был использован алгоритм, основанный на методе Баума-Уэлша.

Введем вспомогательные переменные:

,

,

где  и  - прямая и обратная переменные.

Тогда формулы переоценки примут следующий вид:

,

,

,

.

Переоценка параметров проводится до тех пор, пока параметры не перестанут изменяться.

6. Тестирование распознающей системы.

Для проверки распознающей системы использовался словарь, состоящий из 500 слов.

6.1. Параметры процесса тестирования.

Для настройки HMMs использовались речевые данные, наговоренные 10 дикторами: 4 мужчинами (с нормальным голосом, с низким, с высоким, а также с гнусавым), 4 женщинами (с нормальным голосом, с низким, с высоким, а также с раздраженным голосом), и 2 детьми; всего 5000 слов.

Для тестирования были использованы данные, произнесенные 5 дикторами: двумя мужчинами (с нормальным и низким голосами), двумя женщинами (с нормальным и высоким голосами) и одним ребенком; всего 2500 слов.

Процесс тестирования был организован следующим образом:

  1.  Считывался очередной wave-файл
  2.  Осуществлялось преобразование звуковой волны в набор характеристических признаков в соответствие с выбранными параметрами.
  3.  Для каждой модели Маркова из базы данных вычислялась вероятность соответствия этой модели наблюдаемому набору характеристических признаков.
  4.  После сортировки по убыванию выбирались пять первых кандидатов – моделей HMM, имеющих наибольшие вероятности, так что 1-й кандидат имел наибольшую вероятность. При этом считалось, что система верно распознала слово, если первая модель соответствовала этому слову.
  5.  Собиралась статистика по всем словам и всем из пяти кандидатов.

6.2. Результаты тестирования.

В результате были достигнуты следующие показатели.

Вероятность распознавания – 87%.

Распределение вероятностей по словам изображено на следующей диаграмме:

Из этой диаграммы видно, что 225 слов были распознаны с вероятностью 100%, 216 слов – с вероятностью 80%, 55 слов – с вероятностью 60%, и 4 слова – с вероятностью 40%. Вероятность 80% означает следующее: данное слово, произнесенное пятью дикторами, было верно классифицировано 4 раза и один раз – неверно. Вероятность распознавания 60% означает, что это слово было первым кандидатом для трех дикторов и попало на место, отличное от первого для двух других дикторов. Таким образом, если бы наш словарь состоял из 225 «лучших» слов, то достоверность распознавания была бы 100% для всех дикторов!

Распределение верно классифицированных слов по кандидатам приведено на следующей диаграмме:

Из приведенной диаграммы видно, что предъявляемые слова  были верно распознаны первым кандидатом в 87% случаев, вторым кандидатом (т.е. имеющим вторую по величине вероятность) – в 5% случаев, третьим – в 2% случаев и по 1 % четвертым и пятым. То есть с вероятностью 95 % все предъявленные слова попали в первую пятерку претендентов. Это означает, что достоверность распознавания слов может быть повышена за счет учета апостериорной информации и применения тематических словарей.

Заключение.

На основе анализа численных экспериментов были намечены пути увеличения достоверности распознавания речи при одновременном сокращении требуемой памяти и увеличения быстродействия распознающей системы.

6


 

А также другие работы, которые могут Вас заинтересовать

54713. Производственная функция. Совокупный, средний, предельный продукты 37.32 KB
  Производство есть процесс преобразования производственных ресурсов в готовую продукцию. Задача фирмы – наиболее эффективно использовать ресурсы, получить от них наибольшую отдачу
54714. Урок истории любви Отелло и Дездемон 39.5 KB
  Но сейчас в нашей школе иначе У доски Дездемона молчит. Всё ждал когда же выучит хоть интеграл И вновь держу кулак я наготове: Соседка справа вновь к уроку не готова И меры жёсткие пора уже принять: Всех кавалеров снова разогнать Чтоб Дездемоне двоек больше не видать Дездемона: Шагая поступью довольно смелой Явился в школу одноклассник мой Отелло. Отелло: Ах Дездемона а по свойски Дуся Второй уж год с тобой учусь я. От нежелания учиться все страдания Отелло: Одни наряды на уме И платье сшитое по моде под питона Так...
54717. Спорт у Великій Британії 53 KB
  Boys and girls, we are learning the topic “Sport”. Let`s repeat the words about sport. Have a look at the blackboard. - There are two main groups of sport. What are they? -Name winter sports. (skiing, skating, snowboarding, ice-hockey) - Name summer sports. (rugby, cricket, football, basketball, volley-ball etc.) - Have a look at the picture and say, what sport is it and is it winter or summer sport. - A good job! Thank you!
54718. Бухгалтерские и экономические издержки производства и прибыль 22.83 KB
  В основе любого экономического решения лежит ответ на вопрос: как соотнести то, что затрачивается на тот или иной проект (издержки), и то, что в результате осуществления проекта можно получить сверх понесенных затрат (прибыль)
54719. Издержки и их виды в краткосрочном периоде 24.72 KB
  Краткосрочный – это временный интервал, на протяжении которого невозможно изменить размеры производственного предприятия, принадлежащего фирме, т.е. количество постоянных затрат, осуществляемых этой фирмой
54720. Задачи на проценты 39 KB
  Образовательные: проверка оценка коррекция знаний и умений учащихся по теме урока; развивающие: развивать мышление интерес к предмету познавательную деятельность учащихся математическую речь; учить учащихся учиться математике самостоятельно добывать знания; воспитательные: воспитывать у учащихся ответственное отношение к учебному труду волю; воспитывать умение к совместной деятельности; Методы обучения: словесный деятельностный. Сколько мальчиков в школе Ответ: 192 мальчика Товар стоил 5000 р. Какова новая цена товара Ответ: 6000...