23562

Проект Разработка программы распознавания русской речи Для процессора SuperH RISK (Hitachi)

Практическая работа

Иностранные языки, филология и лингвистика

Целью проекта является создание системы независимой от диктора системы распознавания речи. Использование этой системы предполагается в мобильных карманных устройствах поэтому наряду с требованием высокой достоверности распознавания к ней также предъявляются очень жесткие требования относительно компактности и быстродействия. Тестирование системы было проведено на словаре из 2500 слов произнесенных различными дикторами не принимавших участие в процессе настройки системы. Разработка системы состояла из следующих этапов: составление...

Русский

2013-08-05

196 KB

3 чел.

Проект

Разработка программы распознавания русской речи

Для процессора SuperH RISK (Hitachi)

Цель проекта.

Целью проекта является создание системы независимой от диктора системы распознавания речи. Использование этой системы предполагается в мобильных «карманных» устройствах, поэтому наряду с требованием высокой достоверности распознавания к ней также предъявляются очень жесткие требования относительно компактности и быстродействия. Система должна быть основана на полунепрерывных скрытых моделях Маркова (*), т.е. вероятности наблюдаемых символов задаются непрерывной функцией распределения, в то время как вероятности перехода из состояния в состояния остаются дискретными. Процесс распознавания основан на применении алгоритма Витерби (*). Тестирование системы было проведено на словаре из 2500 слов, произнесенных различными дикторами, не принимавших участие в процессе настройки  системы. Была достигнута достоверность распознавания не ниже 87%.

Разработка системы состояла из следующих этапов: составление словаря, разработка системы записи словаря, предварительная обработка речи и выделение признаков, построение кодовой книги, настройка скрытых моделей Маркова,  тестирование распознающей системы. Ниже приведено краткое описание этих этапов, а также приведены результаты тестирования созданной системы.

1. Составление словаря

Для составления кодовой книги русского языка очень важно учесть все фонемы, составляющие русскую речь. Фонема, или минимальная смыслоразличительная единица, является основным термином функциональной фонетики - фонологии. Фонемы позволяют, с одной стороны, различать, а, с другой стороны, отождествлять значимые единицы языка - слова и морфемы. На основе анализа словарного состава конкретного национального языка и его грамматической системы определяется фонемный состав данного языка. Для записи русских слов используются 33 буквы. Однако, число фонем, присутствующих в речи, намного превосходит это количество. В результате проведенной нами работы были выделены русские слова, в которых присутствуют всевозможные сочетания всех фонем, образующих русскую речь. Из этих слов был составлен словарь, который содержал порядка 1000 слов.

2. Система записи словаря.

В принципе, записать словарь можно с помощью любой стандартной программы звукозаписи. При этом на оператора (т.е. человека, который контролирует процесс записи) возлагается большая нагрузка. Он должен следить за тем, чтобы ни одно слово не было пропущено, придумывать имена файлам, в которые записывается звуковая волна, следить за уровнем записи (для нашей цели не подходят очень тихие, сравнимые с уровнем фона, записи; либо слишком громкие, выходящие за пределы динамического диапазона). Такое большое количество ручной работы потребует значительных затрат времени для сеанса работы с каждым спикером.  При этом неизбежно будет сделано большое число ошибок. Кроме того, при обработке большого количества wav-файлов нам хотелось бы для каждого файла иметь набор дополнительных атрибутов, которые обычно учитываются при распознавании: мужской или женский голос, есть или нет дефекты в речи, кому принадлежит голос: взрослому или ребенку?

Все сказанное выше привело к необходимости создания специализированной системы, предназначенной для записи словаря.  Главным отличием нашей системы от стандартных систем записи звука является автоматический контроль за качеством  результатов. Оператор должен вмешиваться в процесс записи лишь в чрезвычайных случаях, таких как приостановка либо прекращения сеанса записи, необходимость перезаписать какое-либо слово и т.п.

3. Предварительная обработка речи и выделение признаков.

Целью настоящего этапа работы является преобразование речевого сигнала в набор характерных признаков, которые в дальнейшем будут использованы для построения кодовой книги, обучения скрытых моделей Маркова (HMMs) и распознавания речи. Ниже приведено подробное описание последовательности преобразований, позволяющих получить наборы признаков из речевого сигнала.

3.1. Низкочастотная фильтрация  речевого сигнала.

Для спектрального выравнивания речевого сигнала его следует пропустить через низкочастотный фильтр. В простейшем случае фильтрацию осуществляют с использованием следующего соотношения:

,

где - исходный сигнал,  - отфильтрованный сигнал,  - параметр фильтрации. Цель этого преобразования - снизить влияние локальных искажений на характеристические признаки, которые в дальнейшем будут использоваться для распознавания.

3.2.  Нарезка сигнала перекрывающимися сегментами.

Для того, чтобы получить векторы признаков одинаковой длины, нужно «нарезать» речевой сигнал на равные части, а затем выполнять преобразования внутри каждого сегмента. Обычно сегменты выбирают таким образом, чтобы они перекрывались либо наполовину, либо на 2/3. Перекрытие используется для предотвращения потери информации о сигнале на границе. Если, например, выбран сегмент длиной отсчетов, то перекрытие наполовину означает сдвиг на :

Перекрытие на 2/3 означает сдвиг  каждого сегмента относительно предыдущего на отсчетов, при этом 2/3 сигнала у смежных сегментов является общей:

3.3. Обработка сигнала в окне.

Целью данного этапа обработки является снижение граничных эффектов, возникающих в результате сегментации. Для подавления нежелательных граничных эффектов принято умножать сигнал на оконную функцию :

.

В  качестве функции  чаще всего используется окно Хэмминга, которое задается следующей формулой:

.

Ниже приведен график оконной функции Хэмминга:

3.4. Выделение характеристических признаков.

В настоящее время в качестве признаков, описывающих речь, наиболее широко применяются кепстральные коэффициенты , которые формально определяются следующим образом:

 

где  и   - соответственно прямое и обратное преобразования Фурье, - исходный сигнал. Существует эффективный метод вычисления кепстра -  непосредственно из коэффициентов линейного предсказания :

, ,

,  .

Коэффициент  определяют по формуле:

,

 - коэффициент усиления, который можно вычислить в процессе применения алгоритма Левинсона-Дурбина.

Улучшить «динамические» свойства характерных признаков можно путем добавления «кепстральных производных» порядка , которые вычисляются по формуле:

,

где  - нормировочный множитель, а - порядок производной.

Таким образом, в результате проведенных преобразований для каждого сегмента речевого сигнала получается вектор признаков:

,

состоящий из компонентов. Эти признаки в дальнейшем будут использоваться для построения кодовой книги, обучения скрытых моделей Маркова, а также при распознавании речи.

4. Построение кодовой книги.

Конечной целью нашей работы является построение человеко-независимой распознающей системы. Это означает, что система должна обладать низкой чувствительностью к произношению различных людей. Запомнить всевозможные особенности произношения не представляется возможным, поскольку у нас есть жесткие технические ограничения на объем памяти распознающего устройства и на время отклика системы. Поэтому обычно оперируют с кодовой книгой – т.е. набором ограниченного числа «эталонных» признаков, являющихся словами кодовой книги. Число кодовых слов должно быть достаточно большим для однозначного кодирования речи любого человека. В то же время объем кодовой книги должен быть максимально компактным для сокращения времени распознавания. Это приводит к задаче об оптимальном выборе размера кодовой книги. Речь  преобразуется в набор характерных признаков , для которых отыскиваются наиболее близкие эталонные признаки из кодовой книги . В результате для каждого произнесенного слова можно построить последовательность из целых чисел, которые являются номерами признаков из кодовой книги  (см. рисунок ниже):

 

Для построения кодовой книги нами была проведена кластеризация исходных речевых сигналов, записанных от большого набора спикеров, с помощью модифицированного K-mean алгоритма.

5. Настройка скрытых моделей Маркова

Каждому слову из словаря должна соответствовать своя модель Маркова . В качестве модели мы будем использовать left-to-right модель, в которой допускаются переходы только в текущее или в следующее состояние:

Для left-to-right модели ,  при , поэтому будем писать просто .

Таким образом, мы должны построить следующее соответствие:

Поскольку каждое слово содержит свое уникальное сочетание звуков, то длина цепочки (количество состояний) у всех моделей, вообще говоря, различно.

Таким образом, для выбранной модели справедливо:

, .

.

5.1. Переоценка параметров модели.

После назначения параметрам модели начальных значений проводилась переоценка всех параметров с целью их улучшения. Для переоценки был использован алгоритм, основанный на методе Баума-Уэлша.

Введем вспомогательные переменные:

,

,

где  и  - прямая и обратная переменные.

Тогда формулы переоценки примут следующий вид:

,

,

,

.

Переоценка параметров проводится до тех пор, пока параметры не перестанут изменяться.

6. Тестирование распознающей системы.

Для проверки распознающей системы использовался словарь, состоящий из 500 слов.

6.1. Параметры процесса тестирования.

Для настройки HMMs использовались речевые данные, наговоренные 10 дикторами: 4 мужчинами (с нормальным голосом, с низким, с высоким, а также с гнусавым), 4 женщинами (с нормальным голосом, с низким, с высоким, а также с раздраженным голосом), и 2 детьми; всего 5000 слов.

Для тестирования были использованы данные, произнесенные 5 дикторами: двумя мужчинами (с нормальным и низким голосами), двумя женщинами (с нормальным и высоким голосами) и одним ребенком; всего 2500 слов.

Процесс тестирования был организован следующим образом:

  1.  Считывался очередной wave-файл
  2.  Осуществлялось преобразование звуковой волны в набор характеристических признаков в соответствие с выбранными параметрами.
  3.  Для каждой модели Маркова из базы данных вычислялась вероятность соответствия этой модели наблюдаемому набору характеристических признаков.
  4.  После сортировки по убыванию выбирались пять первых кандидатов – моделей HMM, имеющих наибольшие вероятности, так что 1-й кандидат имел наибольшую вероятность. При этом считалось, что система верно распознала слово, если первая модель соответствовала этому слову.
  5.  Собиралась статистика по всем словам и всем из пяти кандидатов.

6.2. Результаты тестирования.

В результате были достигнуты следующие показатели.

Вероятность распознавания – 87%.

Распределение вероятностей по словам изображено на следующей диаграмме:

Из этой диаграммы видно, что 225 слов были распознаны с вероятностью 100%, 216 слов – с вероятностью 80%, 55 слов – с вероятностью 60%, и 4 слова – с вероятностью 40%. Вероятность 80% означает следующее: данное слово, произнесенное пятью дикторами, было верно классифицировано 4 раза и один раз – неверно. Вероятность распознавания 60% означает, что это слово было первым кандидатом для трех дикторов и попало на место, отличное от первого для двух других дикторов. Таким образом, если бы наш словарь состоял из 225 «лучших» слов, то достоверность распознавания была бы 100% для всех дикторов!

Распределение верно классифицированных слов по кандидатам приведено на следующей диаграмме:

Из приведенной диаграммы видно, что предъявляемые слова  были верно распознаны первым кандидатом в 87% случаев, вторым кандидатом (т.е. имеющим вторую по величине вероятность) – в 5% случаев, третьим – в 2% случаев и по 1 % четвертым и пятым. То есть с вероятностью 95 % все предъявленные слова попали в первую пятерку претендентов. Это означает, что достоверность распознавания слов может быть повышена за счет учета апостериорной информации и применения тематических словарей.

Заключение.

На основе анализа численных экспериментов были намечены пути увеличения достоверности распознавания речи при одновременном сокращении требуемой памяти и увеличения быстродействия распознающей системы.

6


 

А также другие работы, которые могут Вас заинтересовать

22717. Політика США щодо СРСР у 1972 - 1974 рр 24.5 KB
  І лише 1973 року Сполучені Штати відмовилися від загальної військової повинності і перейшли до створення професійної армії на добровільній основі. В грудні 1969 року США зняли деяке обмеження у торговельній сфері з СРСР через місяць конгрес ратифікував підписаний 1968 року Сполученими Штатами Великобританією та Радянським Союзом Договір про непоширення ядерної зброї згодом розпочалися американорадянські попередні переговори в Гельсінкі а потім у Відні про обмеження систем протиракетної оборони та страіегічних озброєнь. 30 вересня 1971...
22718. Латиноамериканський курс адміністрації Дж. Буша (мол.) 26.5 KB
  Целью его второй поездки за пределы США будет запланированный на конец апреля в Квебеке Саммит Америк где главным вопросом значится экономическая интеграция в рамках Западного полушария. То что в случае прихода к власти Буша одним из основных направлений внешней политики США станет именно латиноамериканское не вызывало у серьезных аналитиков никаких сомнений. Уж слишком тесно переплелись в этом регионе стратегические интересы США и интересы семейства Бушей в том числе лично Джорджа Бушамладшего. С другой стороны фундаментальным...
22719. Нова ядерна стратегія адміністрації Дж. Картера 25.5 KB
  Зовнішньополітична діяльність адміністрації 39го президента США здобула суперечливі та неоднозначні оцінки. 1 нарешті за наполяганням США керівництво НАТО на Брюсельській нараді в грудні 1979 року прийняло рішення про розміщення в країнах Західної Європи починаючи з 1983 року ракет середнього радіусу Дії. 1977 року президент Джиммі Картер запропонував Міністерству оборони зменшити американські і радянські стратегічні носії на 200250 з кожної сторони внаслідок чого в США та Росії залишилося б приблизно по 2000 боєголовок.15 Цифра ця майже...
22720. Латиноамериканська політика США у період адміністрації Р. Рейгана 24 KB
  Латиноамериканська політика США у період адміністрації Р. Рейган был сторонником активизации внешней политики США и такая возможность вскоре представилась благодаря событиям в Центральной Америке. Одновременно США поддерживали демократические силы Сальвадора выступавшие против насилия и других нарушений прав человека эскадронами смерти карательными отрядами правых и способствовали приходу к власти правительства избранного демократическим путем. США помогали стабилизировать обстановку но разгул насилия в стране не прекращался и даже...
22721. Політика США щодо Японії у 90-х роках 43.5 KB
  Політика США щодо Японії у 90х роках. Все эти особенности существенно осложняют политику США в отношении Японии хотя мало влияют на сложившийся консенсус по вопросу о ее фактической безальтернативности. Сторонники сближения с Китаем в свою очередь также не ставят под сомнение необходимость наращивания сотрудничества с Японией отчасти в целях усиления американских позиций в Китае отчасти для сохранения самой Японии в орбите США. Немало американских политиков продолжают относиться к Японии с настороженностью не исключают ее эвентуальный...
22722. Політика США на Близькому та Середньому Сході у період адміністрації Дж. Буша (ст.) 30.5 KB
  Політика США на Близькому та Середньому Сході у період адміністрації Дж. Бюджетные проблемы о которых в основном и говорили средства массовой информации США освещая работу правительства и конгресса 2 августа 1990 г. Президент США отдал приказ о прекращении всех видов торговли с Ираком и о замораживании иракских и кувейтских активов в американских банках. Политика США в данном вопросе базируется на четырех принципах: требование вывода иракских войск из Кувейта; восстановление законного правительства этой страны; приверженность к миру и...
22723. Відносини між США та Російською Федерацією у 1992 р 27.5 KB
  Відносини між США та Російською Федерацією у 1992 р. Отношений США и СНД как таковых не существует так как СНД юридически не существует. В основном это отношения двусторонние США и стран СНД. После распада СССР внимание США было сосредоточено в основном на Росси.
22724. Еволюція відносин США з Російською Федерацією 29.5 KB
  Буш и Путин заявили что они осознают важность многосторонних контртеррористических усилий в том числе под эгидой ООН восьмерки Евросоюза Организации по безопасности и сотрудничеству в Европе ОБСЕ группы 6 2 и в формате НАТОРоссия а также такие региональные контртерроористические инициативы как Шанхайская организация сотрудничества. Публикуется в связи с саммитом НАТОРоссия 28 мая 2002 в Италии Ниже приводится текст справки Белого дома о новом Совете НАТОРоссия опубликованной в связи с проведением 28 мая саммита НАТОРоссия...
22725. Американсько-канадське військово-стратегічне співробітництво в роки холодної війни 24.5 KB
  Канада принимала активное участие в деятельности ООН и внесла значительный вклад в осуществление так называемого плана Коломбо программы по совместному экономическому и социальному развитию принятой на конференции стран британского Содружества в г. В то же время в вопросах обороны Канада полагалась в основном на систему военных блоков в первую очередь НАТО в создании которой в 1949 принимал участие премьерминистр Канады СенЛоран. В 1958 Канада заключила с США соглашение о создании Объединенного командования противовоздушной обороны...