11912

Оценка качества речи, передаваемой по каналу GSM

Лабораторная работа

Коммуникация, связь, радиоэлектроника и цифровые приборы

Лабораторная работа по курсу Проектирование информационных и телекоммуникационных систем Оценка качества речи передаваемой по каналу GSM Содержание Лабораторная работа Содержание Задание Теорети...

Русский

2013-06-03

704 KB

16 чел.

Лабораторная работа

по курсу «Проектирование информационных и телекоммуникационных систем»

Оценка качества речи, передаваемой по каналу GSM

Содержание

[0.0.1] Лабораторная работа

[1] Содержание

[2] Задание

[3]
Теоретическая часть

[3.1] Введение

[3.2] Субъективная оценка качества речи

[4] Алгоритм PESQ

[4.1] Основы PESQ

[4.2] Предпроцесс временного и уровневого выравнивания

[4.2.1] Вычисление общего усиления системы.

[4.2.2] IRS фильтрация (Intermediate Reference System)

[4.2.3] Временное выравнивание

[4.2.3.1] Кадровая коррекция

[4.2.3.2] Точная временная коррекция

[4.2.3.3] Разделение выражений

[4.2.3.4] Натуральная рекоррекция

[4.3] Натуральная модель

[4.3.1] Предварительный расчет постоянных величин

[4.3.1.1] Размер кадра для быстрого преобразования Фурье в зависимости от частоты (8 или 16 кГц)

[4.3.1.2] Абсолютный порог слышимости

[4.3.1.3] Коэффициент усиления мощности

[4.3.1.4] Коэффициент усиления громкости

[4.3.2] IRS-приемная фильтрация

[4.3.3] Вычисление активных интервалов речи.

[4.3.4] Короткое быстрое преобразование Фурье

[4.3.5] Расчет уровней плотностей мощности

[4.3.6] Частичная компенсация исходного уровня плотности частоты для уравновешивания функции преобразования.

[4.3.7] Частичная компенсация преобразованного уровня плотности мощности для непостоянных во времени вариаций усиления между исходным и кодированным сигналами.

[4.3.8] Расчет плотностей громкости

[4.3.9] Расчет плотности возмущения

[4.3.10] Кадрово–ориентированное умножение с асимметричным фактором

[4.3.11] Группировка плотности ошибок по частоте и фазе на тихих частях исходного сигнала

[4.3.12] Обнуление  возмущений кадров, в ходе которого значительно уменьшаются задержки

[4.3.13] Рекоррекция неудачных интервалов

[4.3.14] Группировка ошибки по вторичным интервалам

[4.3.15] Группировка ошибки по длительности речевого файла (около 10 с), включая фактор повторяемости

[4.3.16] Оценка PESQ

[5]
Практическая часть

[6]
Варианты заданий


Задание

Используя программную модель системы стандарта GSM900/1800, оценить качество передаваемой речи при помощи автоматической процедуры оценки качества речи PESQ (Perceptual Evaluation of Speech Quality).  


Теоретическая часть

Введение

К низкоскоростным системам относят системы передачи речи, в которых речевой сигнал в цифровой форме передается со скоростью от 16 кбит/с и меньше до 0,6-0,8 кбит/с вместо стандартной скорости цифрового потока 64 или 32 кбит/с. При этом, в зависимости от метода обработки речевого сигнала и скорости цифрового потока, обеспечивается большой диапазон градаций разборчивости и качества переданной речи.

Все методы низкоскоростной передачи речи основаны на параметрическом кодировании, т. е. ее представлении не речевым колебанием, а набором медленно изменяющихся параметров, определяющих понятность речи и в ряде случаев узнаваемость говорящего, требующих для своей передачи меньшей скорости цифрового потока.

При представлении речи параметрическими методами из речевого сигнала, исключается часть имеющейся в нем избыточности, но одновременно происходит и изменение его структуры, приводящее к изменению характера звучания переданной речи. Это изменение обычно тем сильнее, чем меньше скорость передачи представляющего речь цифрового потока. При скорости менее 2 кбит/с речь, как правило, имеет механическое, «роботоподобное» звучание.

Применение низкоскоростных систем передачи речи возможно только при условии обеспечения достаточно высокого качества передачи речи.

Основным элементом систем низкоскоростной передачи речи являются низкоскоростные кодеки, преобразующие речевой сигнал в низкоскоростные цифровые потоки, передаваемые по цифровым каналам связи.

При условии передачи этих потоков с малыми ошибками (за счет соответствующей энергетики или помехоустойчивого кодирования) единственным источником возможных искажений или изменений звучания передаваемых речевых сигналов являются речевые кодеки и их стык с сетью. Поэтому для упрощения испытаний при оценке качества речи, передаваемой в низкоскоростной системе, допускается использовать упрощенный тракт, составленный из двух кодеков, соединенных друг с другом по цифровым потокам, или одного кодека, у которого выходной цифровой поток кодера подается в качестве, входного цифрового потока на вход декодера.

Далее вместо термина «система низкоскоростной передачи речи» будем использовать термин «низкоскоростной кодек» или просто «кодек».


Субъективная оценка качества речи

Рассмотрим процедуры так называемой субъективной (или экспертной) оценки качества речи, в которых оценка производится на слух. Это, несомненно, более ресурсоемкий прием, но в то же время он позволяет оценить качество кодирования непосредственно.

Полный комплекс испытаний включает в себя:
-   измерение слоговой разборчивости речи методом артикуляционных испытаний;
-   измерение фразовой разборчивости при нормальном и ускоренном темпах произнесения;
-   оценку качества речи методом парных сравнений с качеством эталонного тракта по контрольным фразам;
-  абонентскую оценку качества речи.

Проведение испытаний основано на использовании артикуляционных таблиц звукосочетаний и слов. В ходе теста каждым оператором выставляются оценки, которые в итоге определяют классы качества. Субъективные методы являются определяющими, но в то же время они очень ресурсоемкие, так как проведение испытаний занимает продолжительное время. ГОСТ определяет проведение «обучения» аудиторов, которое также увеличивает общие затраты.

В настоящее время разработаны автоматические методы оценки качества, которые позволяют проводить испытание быстрее (в несколько сотен, тысяч раз). Основная задача заключается в сопоставлении оценок, получаемых автоматическими методами с субъективными классами качества.


Алгоритм PESQ

В качестве автоматического алгоритма оценки качества речи рассмотрим работу алгоритма PESQ.

Основы PESQ

PESQ сравнивает исходный сигнал X(t) с ухудшенным сигналом Y(t), который является результатом прохождения X(t) через систему связи. Результат PESQ - предсказание воспринятого качества Y(t), которое было бы получено экспертами при субъективном тестировании прослушиванием.

На первом этапе PESQ вычисляется ряд задержек между первоначальным входом и ухудшенным выходом для каждого интервала, в котором задержка отличается от предыдущего временного интервала. Для каждого из этих интервалов рассчитываются соответствующие точки начала и окончания. Алгоритм юстировки (выравнивания) основан на правиле сравнения вероятности наличия двух задержек в некотором временном интервале с вероятностью наличия единственной задержки для этого интервала. Алгоритм может обрабатывать задержки и в течение тишины и в течение активных речевых частей.

Основываясь на наборе найденных задержек, PESQ сравнивает первоначальный (входной) сигнал с выровненным ухудшенным выходом проверяемого устройства, используя интуитивную модель, как показано на рисунке 1.1. Суть этого процесса - преобразование исходного и ухудшенного сигналов к внутреннему представлению, которое является аналогичным психофизическому представлению сигналов звуковой частоты в человеческой акустической системе, принимая во внимание ощутимой частоты и громкости. Это достигается в несколько этапов: временное выравнивание, выравнивание уровня к калиброванному уровню восприятия, частотно-временное соответствие, частотное изменение масштаба, сжимающее масштабирование громкости.

Внутреннее представление обрабатывается, чтобы принять во внимание такие эффекты, как локальные вариации усиления и линейного фильтрования, которые могут иметь ощутимое значения. Это достигается ограничением компенсации, и созданием компенсации отставания от эффекта. Таким образом, установившиеся различия между исходным сигналом и ухудшенным сигналом компенсируются. Более неблагоприятные эффекты, или быстрые вариации, компенсируются только частично так, чтобы некомпенсированные остатки способствовали полному ощутимому возмущению. Это позволяет использовать малое число качественных индикаторов для моделирования всех субъективных эффектов. В PESQ вычислены два параметра ошибок в познавательной модели, и для того, чтобы дать объективное качество прослушивания, они объединяются.

Рисунок 1.1 – Основная идея PESQ

Точность соответствия между оценкой PESQ и субъективной оценкой может быть измерено путем вычисления коэффициента корреляции. Обычно это осуществляется на средних значениях оценки после отображения объективных оценок в субъективные. Коэффициент корреляции вычисляется с помощью формулы Персона:

 

Из-за того, что многие уровни в PESQ алгоритмически довольно сложны, описание PESQ невозможно выразить в математических формулах. Для более подробного изучения необходимо обратиться к исходным кодам, написанным на языке С. Далее итоговый (ухудшенный) сигнал будем называть также кодированным.

Предпроцесс временного и уровневого выравнивания

Вычисление общего усиления системы.

Характеристики системы не определены однозначно и могут сильно меняться. Кроме того, не имеется никакого единственного уровня, в котором сигнал будет сохранен. Таким образом, очень важно выровнять уровни исходного X(t) и кодированного Y(t) сигналов по мощности. Уровень слышимости в PESQ принят равным 79 дб. Алгоритм выравнивания в PESQ работает следующим образом:

Обрабатываются заранее отфильтрованные исходный и кодированный сигналы. Фильтр блокирует компоненты до 250 Гц, пассивен до 2000 Гц, и имеет резко уменьшающуюся пропускную характеристику проходя через следующие точки: {2000 Гц, 0 дб}, {2500 Гц, –5 дб }, {3000 Гц,10 дб}, {3150 Гц, 20 дб}, {3500 Гц, –50 дб}, {4000 Гц и выше, 500 дб}. Отфильтрованные сигналы используются только для подсчета усиления системы.

Подсчитываются квадраты средних величин выборок исходного речевого сигнала и кодированного сигнала.

Вычисляются коэффициенты усиления и применяются для выравнивания как исходного X(t), так и кодированного Y(t) речевых сигналов к одному уровню. Полученные сигналы обозначаются XS(t) и YS(t).

IRS фильтрация (Intermediate Reference System)

Допускается, что при проведении прослушивающих тестов (субъективной оценки) используются IRS приемные или модифицированные IRS приемные характеристики в телефонной трубке. Познавательная модель оценки человеком качества речи должна речи должна учитывать это для моделирования сигналов, которые фактически слышны субъектам.

В PESQ это осуществляется с помощью быстрого преобразование Фурье по длине файла, с фильтрацией в частотной области фильтром с кусочно-линейной характеристикой схожей с приемной характеристикой IRS, после чего следует обратное быстрое преобразование Фурье по всей длине речевого файла. Результатом этого процесса являются отфильтрованные XIRSS(t) и YIRSS(t) масштабированных входного и выходного сигналов XS(t) и YS(t). Одиночный IRS-подобный приемный фильтр используется в PESQ независимо от того, использовалась ли IRS или модифицированная IRS фильтрация в реальном субъективном эксперименте. Причина такого приближения заключается в том, что в большинстве случаев точное фильтрование не является известным, и если даже фильтр близок по характеристикам к идеальному, то восприятие сигнала человеком не изучено до конца. Следовательно, использование реальных методов не влияет на фильтрацию самого сигнала.

IRS-фильтрованные сигналы используются как для процедур временного выравнивания, так и для построения натуральных моделей.

Временное выравнивание

Процедуры временной коррекции формируют натуральную модель по величинам временных задержек, чтобы дать возможность сравнивать части исходного и кодированного сигналов. Процесс коррекции включает в себя несколько стадий:

  •  процесс оценки задержек исходного и ухудшенного сигналов, полученные на основе построения огибающих;
  •  разделение сигнала на несколько субсекций, так называемых выражений;
  •  определение задержек выражений;
  •  точная корреляционная идентификация задержки с ближайшим по характеристикам экземпляром;
  •   разделение выражений и рекоррекция временных интервалов для изучения изменений задержек в ходе речи;
  •  после составления натуральной модели, идентификация и рекоррекция блоков ошибок для поиска ошибок выравнивания.

Кадровая коррекция

Огибающие XES(t)k и YES(t)k выбираются из масштабированных сигналов XS(t) и YS(t). Огибающая определена как LOG (MAX(E(k)/Ethresh, 1)), где E(k) – это энергия кадра k за 4 мс, а Ethreshпорог чувствительности речи, воспринимаемый детектором голосовой активности. Корреляция огибающих исходного и кодированного сигналов используется для примерной оценки задержки между ними, с временным разрешением примерно равным 4 мс.

Точная временная коррекция

Вследствие того, что натуральные модели чувствительны к временным сдвигам, очень важно подсчитать точную величину задержки. Она подсчитывается следующим образом:

  •  На кадры длиной 64 мс (75% перекрытия) накладываются окна Ханна и вычисляется корреляция между исходным и кодированным сигналом, после того, как проведено выравнивание на основе огибающих.
  •  Максимум корреляции, в степени 0,125, используется в качестве доверительного интервала для коррекции в каждом из кадров. Значение максимума дает задержку, рассчитываемую для каждого кадра.
  •  Обрабатывается гистограмма оценки этих задержек, дополненных доверительным интервалом.
  •  Затем гистограмма сглаживается сверткой симметричными треугольными импульсами длительностью 1 мс.
  •  Максимум гистограммы вместе с предыдущей оценкой задержки дает итоговую оценку задержки.
  •  Максимум гистограммы, деленный на сумму гистограмм до свертки дает доверительный критерий между 0 (нет доверия) и 1 (полное доверие).

Результат точной временной коррекции представлен как величина задержки и доверительного интервала задержки для каждого выражения, а также расчет задержек в период тишины. Одновременно с известными точками начала и конца каждого выражения это позволяет определить задержку каждого кадра в натуральной модели.

Разделение выражений

Процесс изменения задержек во время речи тестируется с помощью разделения и рекоррекции временных интервалов в каждом выражении. Выравнивание, выполняемое на огибающих, применяется для вычисления оценки задержек для каждой части. Затем точная временная коррекция применяется для идентификации задержки и доверительных интервалов для каждой части. Процесс разделения повторяется в нескольких точках в каждом выражении, и разделение, которое дает наибольшую достоверность, идентифицируется. Если эта достоверность больше, чем достоверность без разделения, и части имеют различные задержки, выражение соответственно делится. Тест применяется рекурсивно к каждой части после того, как использовалось разделение для для тестирования на дальнейших измерениях задержки.

Таким образом, вычисляются изменения задержки как при активной речи, так и во время тишины, и рассчитается задержка по каждому временному интервалу (di) вместе с расчетом начала и завершения выборки. Количество временных интервалов определяется числом смены задержек.

Натуральная рекоррекция

После составления натуральной модели разделы, которые имеют очень большое отклонение (большее, чем пороговое значение), идентифицируются и повторно корректируются кросс-корреляцией. Этот этап улучшает точность модели с помощью небольшого количества файлов, трудных для корреляции, где задержки процесса предыдущей временной коррекции определены не точно предыдущей временной коррекцией (см. раздел Рекоррекция неудачных интервалов).

Натуральная модель

Натуральная модель PESQ используется для определения разницы между исходным и кодированным сигналом. Это может быть достигнуто с помощью монотонной функции для получения предсказания субъективной оценки для заданного субъективного теста. Оценка PESQ ограничена значениями от –0.5 до 4.5, в то же время в основном в большинстве случаев это значение лежит в пределах от 1 до 4.5.

Предварительный расчет постоянных величин

Определенные постоянные величины рассчитываются заранее. Для тех параметров, которые зависят от частоты дискретизации, предварительно записываются в программу их значения для частот 8 и 16 кГц.

Размер кадра для быстрого преобразования Фурье в зависимости от частоты (8 или 16 кГц)

В PESQ временные сигналы прикреплены к временно-частотным базисам, используя короткие преобразования Фурье с кадрами размером 32 мс. Для 8 кГц образуется 256 отсчета в каждом кадре и для 16 кГц – 512 отсчетов, перекрытие окон составляет 50%.

Абсолютный порог слышимости

Абсолютный порог слышимости P0(f) интерполируется, чтобы получить значения в центре используемых полос частот в барках1. Эти значения запоминаются и потом используются в формулах громкости Цвикера.

Коэффициент усиления мощности

Существует постоянная случайного усиления, следующая из быстрого преобразования Фурье для частотно-временного анализа. Эта постоянная вычислена для синусоидального колебания частотой 1 кГц с амплитудой 29.54 (40 дб), преобразованного в цифру с использованием обратного преобразования Фурье на 32 мс. Дискретная частотная ось впоследствии конвертируется в модифицированную шкалу Барка, постоянно регулируя полосы частот дискретного преобразования Фурье. Пиковая амплитуда спектра, отрегулированная к шкале частот в барках, названная «уровень плотности мощности», которая должна быть равна 40 дб. Это происходит из-за постмультипликации с коэффициентом усиления мощности Sp.

Коэффициент усиления громкости

Те же самые 40 дб используются для калибровки шкалы сонарной громкости. После применения модифицированной шкалы, частотная ось изменяется в шкалу громкости, используя закон Цвиклера, основанный на абсолютном пороге слышимости. Интеграл плотности громкости по частотной шкале с использованием сигнала калибровки частотой 1000 Гц и мощностью 40 дб далее формирует значение 1 сона. Путем умножения последнего на константу, получаем коэффициент усиления громкости Si.

IRS-приемная фильтрация

Как было сказано выше, все тесты проводятся с использованием IRS приемных либо IRS-модифицированных приемных характеристик обработки. Важно то, что фильтрация речи происходит уже в процессе предобработки.

Вычисление активных интервалов речи.

Если исходный или кодированном файл речи начинается или оканчивается большим интервалом тишины, это может вызвать подсчет определенных средних значений искажений по файлам. Поэтому производится оценка таких частей файла в начале и в конце. Сумма пяти следующих друг за другом успешных абсолютных значений отсчетов должна превышать 500 от начала и с конца исходного речевого файла в том порядке, пока позицию можно считать началом или концом активного интервала. Интервал между этими начальными и конечными выборками определен как интервал активной речи. Для того, чтобы сохранить расчетные циклы и/или хранимый размер, некоторые расчеты могут быть запрещены для активных интервалов.

Короткое быстрое преобразование Фурье 

Слух человека осуществляет временно-частотное преобразование. В PESQ это осуществляется с помощью короткого быстрого преобразования Фурье с размером окна 32 мс. Перекрытие между успешными временными блоками составляет 50%. Спектр мощности – сумма квадратов реальных и квадратов мнимых частей комплексных компонентов преобразования Фурье – хранится в отдельных массивах для исходных и кодированных сигналов. Информация о фазе кадра с одиночным окном Ханна в PESQ не сохраняется, и все вычисления основаны только на показателях мощности PXWIRSS(f)n и PYWIRSS(f)n.

Стартовые точки окон для кодированного сигнала сдвигаются в соответствии с вычисленными задержками. Ось времени исходного сигнала не изменяется. Если задержки увеличиваются, части кодированного сигнала изымаются из процесса обработки, в случае уменьшения задержек части повторяются.

Расчет уровней плотностей мощности

Шкала Барка отражает то, что на маленьких частотах слух человека имеет лучшее частотное разрешение, чем на низких. Это осуществляется с помощью выделения диапазонов преобразований Фурье и суммирования корреспондирующих мощностей в диапазонах преобразований с нормализацией суммированных частей. Функция деформирования, которая отображает частотную шкалу (в Гц) в уровневую шкалу (в Барках), точно не следует значениям, даваемым в литературе. Результирующие сигналы называют уровнями плотности мощности PPXWIRSS(f)n и PPYWIRSS(f)n.

Частичная компенсация исходного уровня плотности частоты для уравновешивания функции преобразования.

Чтобы осуществлять фильтрацию в ходе теста, уровни плотности мощности спектра исходного и кодированного сигналов усредняются по времени. Это среднее значение рассчитывается в активных кадрах речи с использованием только частотно-временных ячеек с мощностью, более чем 1000 раз превышающей абсолютный порог слышимости. На каждый модифицированный отсчет Барка рассчитывается фактор частичной компенсации из отношения кодированного спектра к исходному. Максимальная компенсация не должна быть больше чем 20 дб. Исходный уровень плотности мощности PPXWIRSS(f)n каждого кадра затем умножается на фактор частичной компенсации, чтобы соотнести исходный сигнал с кодированным.

Эта частичная компенсация используется для того, чтобы фильтрация не повлияла на воспринимаемость. Компенсация производится для исходного сигнала.

Частичная компенсация преобразованного уровня плотности мощности для непостоянных во времени вариаций усиления между исходным и кодированным сигналами. 

Короткие колебание между выборками показателей усиления частично компенсируются процедурами кадрирования уровня плотности мощности. Для уровня плотности мощности исходного и кодированного сигналов в каждом кадре n вычислена сумма всех значений, которые превышают абсолютный показатель порога слышимости. Отношение мощностей исходного и кодированного сигналов подсчитывается и ограничивается значениями [3·10–4, 5]. Фильтр нижних частот первого порядка (вдоль временной оси) применяется к этому отношению. Преобразованный шаг плотности мощности в каждом окне, затем умножается на это отношение, и в результате частично компенсирует усиление в величину PPY'WIRSS(f)n.

Расчет плотностей громкости

После частичной компенсации для осуществления фильтрации и краткосрочных колебаний усиления, исходный и кодированный уровни плотности мощности трансформируются в шкалу громкости с помощью закона Цвиклера:

где P0(f) - абсолютный порог, а Sl - фактор градации громкости. Выше 4 Барк мощность Цвиклера, , равна 0.23. Ниже этой составляющей мощность Цвиклера постепенно увеличивается вследствие так называемого эффекта увеличения. Результатом являются двумерные массивы LX(f)n и LY(f)n. Это так называемые плотности громкости.

Расчет плотности возмущения

Вычисляется разница между деформированной и исходной плотностью громкости. Когда эта разница положительная, компоненты, такие как шум, были добавлены. Если разница отрицательная, компоненты были удалены из исходного сигнала. Этот массив разностей называется плотностью возмущения.

Минимум плотности громкости для исходного и кодированного сигналов рассчитывается для каждой частотно-временной ячейки. Эти значения умножаются на 0.25. Соответствующие двумерные массивы называются массивами масок. Следующие правила применяются в каждой частотно-временной ячейке:

- Если необработанная плотность возмущения положительна и больше, чем значение маски, значения маски вычитаются из необработанного возмущения.

- Если необработанная плотность возмущения лежит в пределах абсолютного значения маски, плотность возмущения обнуляется.

  •  Если необработанная плотность возмущения отрицательна и по модулю больше маски, значение маски добавляется к необработанной плотности возмущения.

Сетевой эффект заключается в том, что необработанные плотности возмущения стремятся к 0. Это говорит о существовании мертвой зоны перед реальной временно-частотной ячейкой, воспринимаемой как искаженная. Это моделирует процесс небольших различий, неслышный в присутствии громких сигналов (маскирующих) в каждой частотно-временной ячейки. Результатом является плотность ошибки, функция от времени (окно номер n) и частоты, D(f)n.

Кадрово–ориентированное умножение с асимметричным фактором

Асимметричный эффект вызван наличием такого факта, что когда кодек искажает исходный сигнал, сложно образовать новый частотно-временной компонент, который бы интегрировал в себе исходный сигнал и результирующий выходной сигнал. Последний при этом также должен быть расщеплен на два разных объекта - входной сигнал и искажение - указывая на чистое звуковое искажение. Когда кодек выделяет временно-частотную компоненту, результирующий сигнал не может быть расщеплен и искажение меньше выражено. Этот эффект моделируется с помощью вычисления асимметричной плотности возмущения DA(f)n для каждого кадра с помощью умножения плотности возмущения D(f)n на фактор асимметричности. Фактор асимметричности равен отношению искаженного и исходного уровня плотности мощности, возведенные в степень 1.2. Если фактор асимметричности меньше 3, оно устанавливается равным 0. Если больше 12, то присваивается это значение. Таким образом, остаются только те временно-частотные ячейки, как ненулевые, для которых уровни плотности мощности кодированного сигнала превышают уровень исходного сигнала.

Группировка плотности ошибок по частоте и фазе на тихих частях исходного сигнала

Плотность возмущения D(f)n и асимметричная плотность возмущения DA(f)n интегрированы по оси частот с использованием двух разных норм Lp и весовых коэффициентов по кадрам:

 

 

где Mn – коэффициент умножения, 1/ ( мощность исходного кадра + константа)0,04 результирующая в фазу ошибок, которые возникают в течение периодов тишины в исходном речевом файле, а Wf - серия констант, пропорциональных ширине модифицированных Барк отсчетов. После этих умножений, значения ошибок в кадрах лимитированы числом 45. Эти сгруппированные значения, Dn , и DAn, так называемые ошибки кадров.

Обнуление  возмущений кадров, в ходе которого значительно уменьшаются задержки

Если кодированный сигнал содержит уменьшение задержки большее, чем 16 мс (половина окна), производится модификация, описанная выше (в пункте «Короткое быстрое преобразование Фурье»). Целесообразно игнорировать кадровые возмущения в таких случаях в ходе объективной (автоматической) оценки качества речи. Как следствие, кадровые возмущения в таких случаях обнуляются. Результирующие кадровые возмущения обозначаются D'n и DA'n. 

Рекоррекция неудачных интервалов

Следующие друг за другом кадры с возмущением кадра, большей чем порог, называют неудачными интервалами. В редких случаях реальные измерения предсказывают большие искажения при минимальном количество плохих кадров из-за неправильных временных задержек, полученных на этапе предварительной обработки. Для подобных, так называемых неудачных, интервалов оценивается новое значение задержки с помощью максимизации корреляции между исходным и кодированным сигналами, подстроенной под задержки, которые получены на предобработке. Когда максимальная корреляция меньше порога, делается заключение, что интервал удовлетворяет условиям, и его больше не считают неудачным, и обработка по интервалу прекращается. В других случаях кадровое возмущение в неудачных интервалах пересчитывается и, если она меньше, заменяет исходное кадровое возмущение. Результат заключен в итоговых кадровых возмущениях D''n and DA''n , которые используются для расчетов качества.

Группировка ошибки по вторичным интервалам

Вслед за этим значения возмущения кадра и асимметричные значения возмущения кадра группируются по разделенным вторичным интервалам из 20 кадров (перекрытие примерно 320 мс) используя L6 нормы, высшее p значение как группировка по длине файла речи. Эти интервалы также перекрываются на 50% и не используются кадровая функция.

Группировка ошибки по длительности речевого файла (около 10 с), включая фактор повторяемости

Возмущения в доли секунды и асимметричные значения возмущения в доли секунды группируются по активному интервалу речи (корреспондирующие кадры) с использованием L2 норм. Большее значение p используется для группировки интервалов доли секунды по сравнению с меньшим значением p группировки по файлу речи. Это связано с тем фактом, что при искажении вторичных интервалов они теряют смысл, в то время как, если первое предложение искажено, качество остальных неизменно.

Оценка PESQ

Конечная оценка PESQ – это линейная комбинация среднего значения ошибки и среднего значения асимметричного возмущения. Диапазон оценки PESQ от –0.5 до 4.5. Для большинства случаев эти значения лежат в пределах 1.0 до 4.5.

Рис. 1.2 Процедура юстировки, используемой в PESQ, для определения задержки на каждом временном интервале

Рис. 1.3 Обзор ядра натуральной модели

Рис. 1.4 Получения конечной оценки PESQ


Практическая часть

Часть 1.

  1.  В соответствии с выбранным вариантом задания из тестовых таблиц создать звуковые файлы *.wav для каждого слова.
  2.  Используя программную модель системы GSM 900/1800 получить звуковые файлы *.wv2 для каждого тестового слова. Установить значения вероятности ошибки от 0 до 10%. Для того, чтобы при работе программной модели с вероятностями ошибок более 2-3% компьютер не подвисал, необходимо заменить исходную библиотеку svertka.dll динамической библиотекой, взятой из папки SverkaQuickly, в которой ограничена глубина просмотра циклического кода
  3.  Обработать полученные результаты в программной модели PESQ. Для этого необходимо сменить расширение *.wv2 на *.wav и указать пути к исходному и кодированному файлу. Причем в первой строчке указывается исходный файл. Получить оценку PESQ.
  4.  Прослушать звуковые файлы, полученные на выходе кодека и сравнить акустическое качество речи с оценкой PESQ.
  5.  Построить графики зависимости оценки PESQ от вероятности ошибки в канале.
  6.  Сделать выводы

Часть 2.

Проделать вышеописанные пункты для тестовых фраз. Шаг изменения вероятности ошибки установить меньше.


Варианты заданий

Вариант1

бал  бур  док  ром  ваш

вол  май  душ  моль  ноль

гром  грамм краб  шик  рак

бор  дар  ком  пар  сам

корм  март  торф  плач  брань

бот  рот  мол  хор  ток

морс  пуд  муж  фон  месть

срам  брак  флюс  мал  хан

бук  вид  путь  пуст  туп

бант  мост  цен  сруб  млад

Штурман просил продолжать разворот.

Переднее колесо резко опущено.

Этот блок работает хорошо.

Вариант2

год  мол  дуй  мель  зад

дай   миг  лоб  марь  куб

путь  сень  сер  сук  лис

рожь  сок  тир  сыпь  лом

кросс  слой  брошь  скот  строй

ноль  бок  был  мой  лад

бить  пей  рак  сак  жар

жест  факт  соль  тик  май

мат  ром  тиф  ныл  пил

жнёт  крут  трап  гнут  драл

Командир корабля одобрил решение.

Фильм снимают целый год.

Директор сравнил доход с расходом.

Вариант3

вставь сноб  лень  груз  там

пол  знал  стар  весь  нам

трав  штос  рак  вас  быт

сов  чур  гроб  час  вон

толь  краг  гад  как  дыр

кум  гак  горд  нал  лет

мех  тень  бот  парт  хрен

бас  щель  сечь  быть  мот

рать  баз  баш  герб  порт

гам  печь   лай  вам  зол

Скоро начнется небольшой дождик.

Самолет оказался в воздушном яме.

Испорченный контакт нарушил цикл.

Вариант4

таз  груз  лес  снох  встань

нар  век  сталь  знак  пот

быль  вам  рак  шток  трал

воз  час  гроз  чур  сон

дыр  как  газ  кран  толь

лет  жал  лорд  мак  шум

хрен  парт  бот  лень  чех

рот  ныть  сечь  щель  фас

борт  серп  наш  лаз  рать

кол  нам  май  печь  зам

Летчик наблюдает слабые осадки.

Всю неделю идут дожди.

Оператор стирает старые записи.

Вариант5

зад  медь  дул  мор  гол

куль  мазь  лось  мим  дам

лик  сук  сев  семь  пух

лом  сыч  тишь  сор  рой

строй  скок  бром  слой  кровь

гад  мой  тыл  док  ноль

бар  сак  лак  вей  вить

бай  дик  толь  такт  шест

бил  мыл  риф  ром  мат

брал  кнут  храп  прут  гнёт

Руководитель потребовал прекратить посадку.

Учебным истребитель произвел взлет.

Кнопки стоят на сигнале «Стоп».

Вариант6

бак  босс  тушь  жал  чей

гуд  дал  граф  лад  шаль

драк  конь  пар  мусс  сын

вшит  вдень  сдай  спал  сдуй

враг  злим  плен  стол  сталь

дань  трут  пол  рыть  куй

век  кон  туз  поп  сушь

сей  пир  руль  риск  сук

мрём  льём  пьёшь  таз  пёк

месть  рис  врёт  вьют  полк

Взвод первым форсировал реку.

Апатиты недавно нашли в Хибинах.

Налаживаю ход мотора по схеме

Вариант7

ватт  ров  док  бук  бас

ночь  мот  душ  мат  воз

рак  шип  крах  граф  грог

сак  паз  кок  дар  бор

брат  план  торт  марс  корм

ток  хор  гол  рот  год

лесть  кон  муж  пуд  морс

сан  зал  шлюз  брак  храм

суп  густ  жуть  вид  сук

блат  сруб  ген  рост  кант

Солнце ещё находится в зените.

Руководитель разрешил произвести маневр.

Многие слышали победный возглас.

Вариант8

чей  жал  тут  бок  бал

шах  ларь  грач  дал  гуж

сыпь  муть  пат  кок  драп

сдут  спарь  сдам  вдеть  вшить

стан  стон  плешь  злишь  враг

суй  ныть  дол  трут  рань

куш  лоб  кус  гон  хек

сук  писк  пуль  нир  сей

тёк  час  пьёшь  пьём  трём

долг  пьют  трёт  лис  месть

Веселые гости дороги хозяину.

Зимняя природа очень красива.

Автокар быстро движется направо.

Вариант9

бал  чей  бур  жарь  док

воз  шаль  мак  лад  душ

гроб  сыр  граб . муж  край

боб  сдуй  дач  спал  ком

корт  сталь  март  стог  торг

дот  жуй  рот  быть  вол

форс  сушь  пуд  поп  куш

шрам  пук  мрак  визг  блюз

жук  сёк  гид  таз  жуть

бант  волк  мост  бьют  вен

Спортсмен должен пробежать дистанцию.

В школу приезжали герои фронта.

Зимовщик запустил сложный механизм.

Вариант10

год  мох  дул  меч  зал

дай  мир  лом  мазь  куб

путь  семь  сер  суд  лик

рожь  сон  тишь  сыпь  лоб

крот  слой  брошь  скот  строй

ноль  кок  тыл  вой  рад

вить  вей  лак  сак  бар

шест  такт  соль  дик  пай

мат  ром  тиф  ныл  бил

гнёт  трут  трап  гнут  крал

Химия и физика — интересные науки.

Экипаж танка понял задачу.

Монтер проверил новый выключатель.


Тестируемое устройство

ервичный сигнал

Ухудшенный выход

Субъект

Модель

Интуитивная

модель

Временное выравнивание

Интуитивная

модель

Оценки задержки di

Внутреннее представление первичного сигнала

Внутреннее представление ухудшенного сигнала

Разница во внутреннем представлении определяет слышимые различия

Познава-тельная

модель

качество

Первичный сигнал

Ухудшенный сигнал

1 Примечание:


Критические полосы (Critical Bands)


Человеческая система восприятия звука имеет ограниченное, зависящее от частоты разрешение. Равномерное, с точки зрения восприятия человеком измерение частоты может быть выражено в единицах ширины Критических Полос.
Их ширина менее 100 Hz для нижних слышимых частот, и более 4 kHz для наиболее высоких. Весь частотный диапазон может быть разделен на 25 критических полос.


Новый отсчет частоты был назван барк (bark, after Barkhausen):


1 Барк = ширина одной критической полосы
Для частот < 500 Hz, может быть рассчитан по формуле:   частота / 100  Барк,
Для частот > 500 Hz:   9 + 4log2(частота / 1000)  Барк


 

А также другие работы, которые могут Вас заинтересовать

36769. Изучение колебаний пружинного маятника 298 KB
  Изучение колебаний пружинного маятника. Цель работы: Изучение свободных и вынужденных колебаний системы с одной степенью свободы на примере пружинного маятника. Несмотря на различную физическую природу колебаний их можно описать одинаковыми уравнениями. Здесь А амплитуда колебаний; = круговая циклическая частота незатухающих свободных колебаний; t текущий момент времени...
36770. ИЗУЧЕНИЕ СВОБОДНЫХ КОЛЕБАНИЙ ФИЗИЧЕСКОГО МАЯТНИКА 169.5 KB
  Прибор, используемый в данной работе, представляет собой настенный кронштейн, на котором смонтированы подушки для опорных призм физического маятника. На том же кронштейне подвешен математический маятник, длину которого можно изменять, наматывая нить на соответствующий барабанчик. Физический маятник представляет собой цилиндрический стержень, на котором жестко закреплены две призмы 1 и 2
36771. Создание составных документов. Печать документов 364.5 KB
  Word уберет с экрана панель инструментов Формула и восстановит стандартное меню Word. Текстовые эффекты Применение текстовых эффектов к оформлению текста при помощи вставки объекта созданного в Wordrt. Пример объявления подготовленного с помощью Wordrt Попробуем подготовить самое банальное объявление для расклеивания на столбах рис. Создание заголовка объявления Продается компьютер с помощью Wordrt.
36772. Настройка аутентификации 43 KB
  htccess и в нем пропишите следующие директивы webсервера: uthNme ″Restricted re″ директива задает имя области аутентификации uthType Bsic директива задает тип аутентификации uthUserFile vr www ваша_фамилия users директива задает путь к файлу пользователей uthGroupFile vr www ваша_фамилия groups директива задает путь к файлу групп пользователей Создайте файл пользователей с помощью команды usr bin htpsswd c путь_к_файлу_пользователей имя_пользователя Здесь путь_к_файлу_пользователей – это путь указанный в...
36774. МЕДИЦИНСКАЯ СЛУЖБА ГРАЖДАНСКОЙ ОБОРОНЫ 128 KB
  В условиях войны с применением современных средств поражения потери среди мирного населения могут существенно возрасти, так как новейшие средства доставки позволяют вероятному противнику поражать не только прифронтовые
36775. Определение момента инерции махового колеса методом колебаний 161.5 KB
  Момент инерции тела I относительно произвольной оси равен сумме момента инерции I0 относительно оси, параллельной данной и проходящей через центр масс тела, и произведения массы тела т на квадрат расстояния а между осями
36777. ИССЛЕДОВАНИЕ СХЕМ НА ОСНОВЕ ОПЕРАЦИОННОГО УСИЛИТЕЛЯ 1.87 MB
  Интегральные микросхемы предназначены для выполнения различных операций как с аналоговыми так и с цифровыми электрическими сигналами. С помощью определенных внешних цепей часть выходного сигнала можно направить обратно на вход. Цель обратной связи в этом случае представляет собой единственный резистор RОС который служит для передачи части выходного сигнала обратно на вход.8 можно представить в виде: ...