23562

Проект Разработка программы распознавания русской речи Для процессора SuperH RISK (Hitachi)

Практическая работа

Иностранные языки, филология и лингвистика

Целью проекта является создание системы независимой от диктора системы распознавания речи. Использование этой системы предполагается в мобильных карманных устройствах поэтому наряду с требованием высокой достоверности распознавания к ней также предъявляются очень жесткие требования относительно компактности и быстродействия. Тестирование системы было проведено на словаре из 2500 слов произнесенных различными дикторами не принимавших участие в процессе настройки системы. Разработка системы состояла из следующих этапов: составление...

Русский

2013-08-05

196 KB

3 чел.

Проект

Разработка программы распознавания русской речи

Для процессора SuperH RISK (Hitachi)

Цель проекта.

Целью проекта является создание системы независимой от диктора системы распознавания речи. Использование этой системы предполагается в мобильных «карманных» устройствах, поэтому наряду с требованием высокой достоверности распознавания к ней также предъявляются очень жесткие требования относительно компактности и быстродействия. Система должна быть основана на полунепрерывных скрытых моделях Маркова (*), т.е. вероятности наблюдаемых символов задаются непрерывной функцией распределения, в то время как вероятности перехода из состояния в состояния остаются дискретными. Процесс распознавания основан на применении алгоритма Витерби (*). Тестирование системы было проведено на словаре из 2500 слов, произнесенных различными дикторами, не принимавших участие в процессе настройки  системы. Была достигнута достоверность распознавания не ниже 87%.

Разработка системы состояла из следующих этапов: составление словаря, разработка системы записи словаря, предварительная обработка речи и выделение признаков, построение кодовой книги, настройка скрытых моделей Маркова,  тестирование распознающей системы. Ниже приведено краткое описание этих этапов, а также приведены результаты тестирования созданной системы.

1. Составление словаря

Для составления кодовой книги русского языка очень важно учесть все фонемы, составляющие русскую речь. Фонема, или минимальная смыслоразличительная единица, является основным термином функциональной фонетики - фонологии. Фонемы позволяют, с одной стороны, различать, а, с другой стороны, отождествлять значимые единицы языка - слова и морфемы. На основе анализа словарного состава конкретного национального языка и его грамматической системы определяется фонемный состав данного языка. Для записи русских слов используются 33 буквы. Однако, число фонем, присутствующих в речи, намного превосходит это количество. В результате проведенной нами работы были выделены русские слова, в которых присутствуют всевозможные сочетания всех фонем, образующих русскую речь. Из этих слов был составлен словарь, который содержал порядка 1000 слов.

2. Система записи словаря.

В принципе, записать словарь можно с помощью любой стандартной программы звукозаписи. При этом на оператора (т.е. человека, который контролирует процесс записи) возлагается большая нагрузка. Он должен следить за тем, чтобы ни одно слово не было пропущено, придумывать имена файлам, в которые записывается звуковая волна, следить за уровнем записи (для нашей цели не подходят очень тихие, сравнимые с уровнем фона, записи; либо слишком громкие, выходящие за пределы динамического диапазона). Такое большое количество ручной работы потребует значительных затрат времени для сеанса работы с каждым спикером.  При этом неизбежно будет сделано большое число ошибок. Кроме того, при обработке большого количества wav-файлов нам хотелось бы для каждого файла иметь набор дополнительных атрибутов, которые обычно учитываются при распознавании: мужской или женский голос, есть или нет дефекты в речи, кому принадлежит голос: взрослому или ребенку?

Все сказанное выше привело к необходимости создания специализированной системы, предназначенной для записи словаря.  Главным отличием нашей системы от стандартных систем записи звука является автоматический контроль за качеством  результатов. Оператор должен вмешиваться в процесс записи лишь в чрезвычайных случаях, таких как приостановка либо прекращения сеанса записи, необходимость перезаписать какое-либо слово и т.п.

3. Предварительная обработка речи и выделение признаков.

Целью настоящего этапа работы является преобразование речевого сигнала в набор характерных признаков, которые в дальнейшем будут использованы для построения кодовой книги, обучения скрытых моделей Маркова (HMMs) и распознавания речи. Ниже приведено подробное описание последовательности преобразований, позволяющих получить наборы признаков из речевого сигнала.

3.1. Низкочастотная фильтрация  речевого сигнала.

Для спектрального выравнивания речевого сигнала его следует пропустить через низкочастотный фильтр. В простейшем случае фильтрацию осуществляют с использованием следующего соотношения:

,

где - исходный сигнал,  - отфильтрованный сигнал,  - параметр фильтрации. Цель этого преобразования - снизить влияние локальных искажений на характеристические признаки, которые в дальнейшем будут использоваться для распознавания.

3.2.  Нарезка сигнала перекрывающимися сегментами.

Для того, чтобы получить векторы признаков одинаковой длины, нужно «нарезать» речевой сигнал на равные части, а затем выполнять преобразования внутри каждого сегмента. Обычно сегменты выбирают таким образом, чтобы они перекрывались либо наполовину, либо на 2/3. Перекрытие используется для предотвращения потери информации о сигнале на границе. Если, например, выбран сегмент длиной отсчетов, то перекрытие наполовину означает сдвиг на :

Перекрытие на 2/3 означает сдвиг  каждого сегмента относительно предыдущего на отсчетов, при этом 2/3 сигнала у смежных сегментов является общей:

3.3. Обработка сигнала в окне.

Целью данного этапа обработки является снижение граничных эффектов, возникающих в результате сегментации. Для подавления нежелательных граничных эффектов принято умножать сигнал на оконную функцию :

.

В  качестве функции  чаще всего используется окно Хэмминга, которое задается следующей формулой:

.

Ниже приведен график оконной функции Хэмминга:

3.4. Выделение характеристических признаков.

В настоящее время в качестве признаков, описывающих речь, наиболее широко применяются кепстральные коэффициенты , которые формально определяются следующим образом:

 

где  и   - соответственно прямое и обратное преобразования Фурье, - исходный сигнал. Существует эффективный метод вычисления кепстра -  непосредственно из коэффициентов линейного предсказания :

, ,

,  .

Коэффициент  определяют по формуле:

,

 - коэффициент усиления, который можно вычислить в процессе применения алгоритма Левинсона-Дурбина.

Улучшить «динамические» свойства характерных признаков можно путем добавления «кепстральных производных» порядка , которые вычисляются по формуле:

,

где  - нормировочный множитель, а - порядок производной.

Таким образом, в результате проведенных преобразований для каждого сегмента речевого сигнала получается вектор признаков:

,

состоящий из компонентов. Эти признаки в дальнейшем будут использоваться для построения кодовой книги, обучения скрытых моделей Маркова, а также при распознавании речи.

4. Построение кодовой книги.

Конечной целью нашей работы является построение человеко-независимой распознающей системы. Это означает, что система должна обладать низкой чувствительностью к произношению различных людей. Запомнить всевозможные особенности произношения не представляется возможным, поскольку у нас есть жесткие технические ограничения на объем памяти распознающего устройства и на время отклика системы. Поэтому обычно оперируют с кодовой книгой – т.е. набором ограниченного числа «эталонных» признаков, являющихся словами кодовой книги. Число кодовых слов должно быть достаточно большим для однозначного кодирования речи любого человека. В то же время объем кодовой книги должен быть максимально компактным для сокращения времени распознавания. Это приводит к задаче об оптимальном выборе размера кодовой книги. Речь  преобразуется в набор характерных признаков , для которых отыскиваются наиболее близкие эталонные признаки из кодовой книги . В результате для каждого произнесенного слова можно построить последовательность из целых чисел, которые являются номерами признаков из кодовой книги  (см. рисунок ниже):

 

Для построения кодовой книги нами была проведена кластеризация исходных речевых сигналов, записанных от большого набора спикеров, с помощью модифицированного K-mean алгоритма.

5. Настройка скрытых моделей Маркова

Каждому слову из словаря должна соответствовать своя модель Маркова . В качестве модели мы будем использовать left-to-right модель, в которой допускаются переходы только в текущее или в следующее состояние:

Для left-to-right модели ,  при , поэтому будем писать просто .

Таким образом, мы должны построить следующее соответствие:

Поскольку каждое слово содержит свое уникальное сочетание звуков, то длина цепочки (количество состояний) у всех моделей, вообще говоря, различно.

Таким образом, для выбранной модели справедливо:

, .

.

5.1. Переоценка параметров модели.

После назначения параметрам модели начальных значений проводилась переоценка всех параметров с целью их улучшения. Для переоценки был использован алгоритм, основанный на методе Баума-Уэлша.

Введем вспомогательные переменные:

,

,

где  и  - прямая и обратная переменные.

Тогда формулы переоценки примут следующий вид:

,

,

,

.

Переоценка параметров проводится до тех пор, пока параметры не перестанут изменяться.

6. Тестирование распознающей системы.

Для проверки распознающей системы использовался словарь, состоящий из 500 слов.

6.1. Параметры процесса тестирования.

Для настройки HMMs использовались речевые данные, наговоренные 10 дикторами: 4 мужчинами (с нормальным голосом, с низким, с высоким, а также с гнусавым), 4 женщинами (с нормальным голосом, с низким, с высоким, а также с раздраженным голосом), и 2 детьми; всего 5000 слов.

Для тестирования были использованы данные, произнесенные 5 дикторами: двумя мужчинами (с нормальным и низким голосами), двумя женщинами (с нормальным и высоким голосами) и одним ребенком; всего 2500 слов.

Процесс тестирования был организован следующим образом:

  1.  Считывался очередной wave-файл
  2.  Осуществлялось преобразование звуковой волны в набор характеристических признаков в соответствие с выбранными параметрами.
  3.  Для каждой модели Маркова из базы данных вычислялась вероятность соответствия этой модели наблюдаемому набору характеристических признаков.
  4.  После сортировки по убыванию выбирались пять первых кандидатов – моделей HMM, имеющих наибольшие вероятности, так что 1-й кандидат имел наибольшую вероятность. При этом считалось, что система верно распознала слово, если первая модель соответствовала этому слову.
  5.  Собиралась статистика по всем словам и всем из пяти кандидатов.

6.2. Результаты тестирования.

В результате были достигнуты следующие показатели.

Вероятность распознавания – 87%.

Распределение вероятностей по словам изображено на следующей диаграмме:

Из этой диаграммы видно, что 225 слов были распознаны с вероятностью 100%, 216 слов – с вероятностью 80%, 55 слов – с вероятностью 60%, и 4 слова – с вероятностью 40%. Вероятность 80% означает следующее: данное слово, произнесенное пятью дикторами, было верно классифицировано 4 раза и один раз – неверно. Вероятность распознавания 60% означает, что это слово было первым кандидатом для трех дикторов и попало на место, отличное от первого для двух других дикторов. Таким образом, если бы наш словарь состоял из 225 «лучших» слов, то достоверность распознавания была бы 100% для всех дикторов!

Распределение верно классифицированных слов по кандидатам приведено на следующей диаграмме:

Из приведенной диаграммы видно, что предъявляемые слова  были верно распознаны первым кандидатом в 87% случаев, вторым кандидатом (т.е. имеющим вторую по величине вероятность) – в 5% случаев, третьим – в 2% случаев и по 1 % четвертым и пятым. То есть с вероятностью 95 % все предъявленные слова попали в первую пятерку претендентов. Это означает, что достоверность распознавания слов может быть повышена за счет учета апостериорной информации и применения тематических словарей.

Заключение.

На основе анализа численных экспериментов были намечены пути увеличения достоверности распознавания речи при одновременном сокращении требуемой памяти и увеличения быстродействия распознающей системы.

6


 

А также другие работы, которые могут Вас заинтересовать

65620. ФОРМУВАННЯ ПРОФЕСІЙНО-ЕТИЧНОЇ КУЛЬТУРИ МАЙБУТНІХ ЛІКАРІВ У ВИЩИХ НАВЧАЛЬНИХ ЗАКЛАДАХ 265 KB
  Практичне розв’язання завдань які постали перед системою медичної освіти України потребує належної підготовки лікарів компетентність яких відповідатиме міжнародним стандартам та які здатні на високому професійноетичному рівні у складних умовах сьогодення ефективно вирішувати...
65621. ЗАСТОСУВАННЯ ЧАСТОТНО-ЧАСОВИХ МЕТОДІВ ДО ОБРОБКИ НЕСТАЦІОНАРНИХ СИГНАЛІВ В РЕАЛЬНОМУ МАСШТАБІ ЧАСУ 5.84 MB
  Робота всіх радіотехнічних пристроїв супроводжується динамічними спотвореннями при обробці сигналів з маніпуляцією параметрів або з безперервною зміною цих параметрів. Дослідженню і розробленню методів аналізу динамічних режимів кіл та перетворень нестаціонарних сигналів в динамічних колах присвячено багато робіт.
65622. ПОВІСТІ Й РОМАНИ І. С. НЕЧУЯ-ЛЕВИЦЬКОГО: АРХЕТИПНИЙ АНАЛІЗ 149 KB
  Цей аспект його творчості довго замовчувався дослідниками. Об’єктивний аналіз написаного митцем засвідчує, що його українська сутність виявляється не лише на ідеологічному рівні, а й виринає із глибин підсвідомості. Через те він немовби зсередини бачив історію України, долю українців, душу українця.
65623. ЕКОЛОГІЧНІ ОСОБЛИВОСТІ ЛІХЕНОІНДИКАЦІЇ АНТРОПОГЕННО ТРАНСФОРМОВАНОГО СЕРЕДОВИЩА НА ПІВДЕННОМУ СХОДІ УКРАЇНИ 297 KB
  На відміну від центральних регіонів країни на південному сході України вивченість можливості ліхеноіндикації не була реалізована повною мірою. Оскільки біоіндикаційні властивості можуть бути обмежені екологічними факторами навколишнього середовища вплив яких викликає у індикаторного...
65624. ВПЛИВ НЕСТАБІЛЬНОСТІ ХАРАКТЕРИСТИК ШИН НА НЕРІВНОМІРНІСТЬ ЇХНЬОГО НАВАНТАЖУВАННЯ І СТІЙКІСТЬ РУХУ АВТОМОБІЛІВ 397 KB
  Традиційні способи комплектації шин (у тому числі і здвоєних) не забезпечують необхідної довговічності під час експлуатації. На складених колесах зі здвоєними шинами утворюються потоки паразитної потужності, що циркулює у замкненому контурі й спричинює додаткові втрати на тертя між рушієм і дорогою.
65625. ФОРМУВАННЯ ПРОГНОСТИЧНИХ УМІНЬ МАЙБУТНІХ МЕНЕДЖЕРІВ У ВИЩИХ АГРАРНИХ НАВЧАЛЬНИХ ЗАКЛАДАХ 309 KB
  У реалізації завдань гуманістичної трансформації менеджмент-освіти пріоритетна роль належить розвитку професійних умінь майбутніх управлінців. Одним із них є вміння правильно передбачати можливі напрями розвитку підприємства та розробляти його подальшу стратегію, що практично неможливо...
65626. ТЕХНОЛОГІЯ СОУСІВ З ДІЄТИЧНИМИ ДОБАВКАМИ ФУНКЦІОНАЛЬНОГО ПРИЗНАЧЕННЯ 9.48 MB
  Перспективним напрямом вирішення завдання щодо підвищення харчової цінності зниження дефіциту есенційних речовин є розроблення технології соусів функціонального призначення що передбачає поєднання традиційної сировини з дієтичними добавками.
65627. ПОТОКОВІ МОДЕЛІ ТА ДВОРІВНЕВІ МЕТОДИ УПРАВЛІННЯ ТРАФІКОМ В IP/MPLS-МЕРЕЖАХ З ПІДТРИМКОЮ ТЕХНОЛОГІЇ TRAFFIC ENGINEERING 577.5 KB
  Графові моделі пошуку найкоротшого шляху, що використовуються в сучасних протоколах маршрутизації, а також засновані переважно на адміністративному впливі механізми управління чергами мають досить обмежені можливості щодо врахування характеристик трафіка й вимог, що стосуються якості обслуговування та масштабованості.
65628. Інформаційне та технічне забезпечення екологічної безпеки критично небезпечних промислових об’єктів 397 KB
  На відміну від автоматичних установок пожежогасіння які розраховують виходячи з подачі об’єму рідини на одиницю площі за відрізок часу в якості параметрів ефективності зменшення установкою екологічно шкідливого впливу аварії автором запропоновано розраховувати нову установку виходячи з відношення об’єму розпорошеного...