20600

Речевые кодеки абонентских терминалов СПРС и ПСС

Лекция

Биология и генетика

Обработка речи осуществляется в рамках принятой системы прерывистой передачи речи DTX. DTX управляется детектором активности речи VAD который обеспечивает обнаружение и выделение интервалов передачи речи с шумом и шума без речи даже в тех случаях когда уровень шума соизмерим с уровнем речи. В состав системы DTX входит также устройство формирования комфортного шума который включается и прослушивается в паузах речи когда передатчик отключен.

Русский

2013-07-31

480.5 KB

29 чел.

Лекция №6

Речевые  кодеки  абонентских  терминалов СПРС и ПСС

ОБРАБОТКА РЕЧИ В СТАНДАРТЕ GSM

Процессы обработки речи в стандарте GSM направлены на обеспечение высокого качества передаваемых сообщений, реализацию дополнительных сервисных возможностей и повышение потребительских качеств абонентских терминалов. Обработка речи осуществляется в рамках принятой системы прерывистой передачи речи (DTX). Система DTX обеспечивает включение передатчика только в момент начала разговора и отключает его в паузах и в конце разговора. DTX управляется детектором активности речи (VAD), который обеспечивает обнаружение и выделение интервалов передачи речи с шумом и шума без речи даже в тех случаях, когда уровень шума соизмерим с уровнем речи. В состав системы DTX входит также устройство формирования комфортного шума, который включается и прослушивается в паузах речи, когда передатчик отключен. Применение комфортного шума в паузах считается необходимым, так как было доказано, что отключение фонового шума на выходе приемника в паузах при отключении передатчика раздражает абонента и снижает разборчивость речи. DTX процесс в приемнике включает также интерполяцию фрагментов речи, потерянных из-за ошибок в канале. Структурная схема процессов обработки речи в стандарте GSM показана на рис. 1, главным устройством в этой схеме является речевой кодек

Выбор речевого кодека для стандарта GSM

Рабочей группой по разработке стандарта GSM были предъявлены следующие основные требования к речевому кодеку [3]: - высокое качество речи, не уступающее качеству передачи речи в лучших существующих аналоговых сотовых системах связи; - низкая скорость передачи речи, обеспечивающая возможность эффективного канального кодирования и результирующую скорость передачи в канале связи не выше 16 кбит/с; - малую задержку сообщения в процессе преобразования речи; - устойчивость к ошибкам в канале передачи; - возможность работы в широком динамическом диапазоне входных воздействий как сигнала, так и шума; - большой динамический диапазон выходных сигналов; - незначительное снижение качества речи при каскадном соединении кодеков; - прозрачность для сигналов данных; прямое сопряжение со смежными устройствами терминалов; - простота реализации; - малое потребление; - низкая стоимость.

По совокупности технических характеристик для стандарта GSM был выбран RPELPC кодек с долговременным прогнозирующим устройством от MPE-LTP кодека, что позволило снизить скорость передачи для предложенного MPE-LTP кодека с 14,77 кбит/с до 13кбит/с в модернизированном, принятом в GSM, RPE/LTP кодеке. Алгоритм работы и структурная схема речевого RPE/LTP-LPC кодека Принцип выбранного метода кодирования речи состоит в извлечении основных характеристик речи в форме коэффициентов фильтра, по которым речь может быть восстановлена, используя низкоскоростную квантизацию. Структурные схемы кодера и декодера речи показаны на рис. 2 [4, 5].

Уменьшение скорости до 13 кбит/с достигается тремя этапами: 1. LPC - линейным кодированием с предсказанием; 2. LTP - долговременным предсказанием; 3. RPE – регулярным импульсным возбуждением. На первом этапе входной сигнал разделяется на сегменты 260бит по 20 мс. Затем в процессе LPC анализа вычисляются 8 коэффициентов r(i) цифрового LPC анализирующего фильтра, которые представляются как уровень, и минимизируется динамический диапазон d фильтрованной версии. На втором этапе происходит дальнейшее снижение динамического диапазона за счет долговременного предсказания, в процессе которого каждый сегмент выравнивается до уровня следующих друг за другом сегментов речи. В принципе, LTP фильтр вычитает предыдущий период сигнала из текущего периода. Этот фильтр характеризуется параметром задержки N и коэффициентом усиления b. Период вычисления этих параметров равен 5 мс. Восемь коэффициентов r(i) LPC анализирующего фильтра и параметры фильтра LTP анализа кодируются и передаются со скоростью 3,6 кбит/с. Для формирования последовательности возбуждения остаточный сигнал пропускают через фильтр нижних частот с частотой среза 3-4 кГц. Окончательно периодическая последовательность фрагментов передается со скоростью 9,4 кбит/с. Общая скорость передачи составляет3,6 + 9,4 =13 кбит/с. В декодере речевой сигнал восстанавливается по откликам последовательности регулярного импульсного возбуждения (RPE) двухступенчатым синтезирующим фильтром, как показано на рис. 2. При этом качество речи соответствует качеству речи, передаваемой по ISDN, и превосходит качество речи в аналоговых радиотелефонных системах.

Теоретически время задержки речевого сигнала в кодеке равно длительности сегмента и составляет 20 мс Реальное время задержки, с учетом операций канального кодирования и перемежения, а также физического выполнения рассматриваемых операций, составляет 70-80 мс.

Детектор активности речи

Детектор активности речи (VAD) играет решающую роль в снижении потребления энергии от аккумуляторной батареи в портативных абонентских терминалах. Он также снижает интерференционные помехи за счет переключения свободных каналов в пассивный режим. Реализация VAD зависит от типа применяемого речевого кодека. Главная задача при проектировании VAD - обеспечить надежное отличие между условиями активного и пассивного каналов. Если канал на мгновение свободен, его можно заблокировать, так как средняя активность речи говорящего ниже 50%, то это может привести к существенной экономии энергии аккумуляторной батареи. К устройствам VAD предъявляются следующие основные требования [6]: - минимизация вероятности ложной тревоги при воздействии только шума с высоким уровнем; - высокая вероятность правильного обнаружения речи низкого уровня; - высокое быстродействие распознавания речи, для исключения задержек включения; - минимальное время задержки выключения. В стандарте GSM принята схема VAD с обработкой в частотной области. Структурная схема VAD приведена на рис. 3. Ее работа основана на различии спектральных характеристик речи и шума. Фоновый шум является стационарным в течение относительно большого периода времени, его спектр также медленно изменяется во времени. VAD определяет спектральные отклонения входного воздействия от спектра фонового шума. Эта операция осуществляется инверсным фильтром, коэффициенты которого устанавливаются применительно к воздействию на входе только фонового шума. При наличии на входе речи и шума инверсный фильтр осуществляет подавление компонентов шума и, в целом, снижает его интенсивность. Энергия смеси сигнал+шум на выходе инверсного фильтра сравнивается с порогом, который устанавливается в период воздействия на входе только шума. Этот порог находится выше уровня энергии шумового сигнала. Превышение порогового уровня принимается за наличие на входе реализации (сигнал+шум). Коэффициенты инверсного фильтра и уровень порога изменяются во времени в зависимости от текущего значения уровня шума при воздействии на входе только шума. Поскольку эти параметры (коэффициенты и порог) используются детектором VAD для обнаружения речи, сам VAD не может на этой же основе принимать решение, когда их изменять. Это решение принимается вторичным VAD на основе сравнения огибающих спектров в последовательные моменты времени. Если они аналогичны для относительно длительного периода времени, предполагается, что имеет место шум, и коэффициенты фильтра и шумовой порог можно изменять, то есть адаптировать под текущий уровень и спектральные характеристики входного шума [6].

Кодирование речи

Кодер речи является первым элементом собственно цифрового участка передающего тракта, следующим после АЦП (рис.2.6). Основная задача кодера (английский термин encoder) -предельно возможное сжатие сигнала речи, представленного в цифровой форме, т.е. предельно возможное устранение избыточности речевого сигнала, но при сохранении приемлемого качества передачи речи. Компромисс между степенью сжатия и сохранением качества отыскивается экспериментально, а проблема получения высокой степени сжатия без чрезмерного снижения качества составляет основную трудность при разработке кодера. В приемном тракте перед ЦАП размещен декодер речи; задача декодера (английский термин decoder) - восстановление обычного цифрового сигнала речи, с присущей ему естественной избыточностью, по принятому кодированному сигналу. Сочетание кодера и декодера называют кодеком (английский термин - codec).

Прежде чем перейти к рассмотрению кодеров речи, используемых в сотовой связи, приведем некоторые общие сведения об основных методах кодирования.

Исторически сложилось два направления кодирования речи: кодирование формы сигнала (waveform coding) и кодирование источника сигнала (source coding). Первый метод основан на использовании статистических характеристик сигнала и практически не зависит от механизма формирования сигнала. Кодеры этого типа с самого начала обеспечивали высокое качество передачи речи (хорошую разборчивость и натуральность речи), но отличались меньшей по сравнению со вторым методом экономичностью. В методе кодирования формы сигнала используются три основных способа кодирования: импульсно-кодовая модуляция, ИКМ (английское наименование Pulse Code Modulation - PCM), дифференциальная ИКМ - ДИКМ (Differential PCM - DPCM) и дельта-модуляция - ДМ (Delta Modulation - DM). ИКМ соответствует цифровой сигнал непосредственно с выхода АЦП, в нем сохраняется вся избыточность аналогового речевого сигнала. При ДИКМ эта избыточность несколько уменьшается за счет того, что квантованию с последующим кодированием и передачей по линии связи подвергается разность между исходным речевым сигналом и его предсказанным значением, а при приеме разностный сигнал складывается с предсказанным значением, полученным по тому же алгоритму предсказания. Шкала квантования может быть равномерной, неравномерной или адаптивно изменяемой; предсказание сигнала может быть не зависящим от формы последнего или же зависеть от формы сигнала, т.е. быть адаптивным. Если при кодировании сигнала используются элементы адаптации, то соответствующую разновидность ДИКМ называют адаптивной ДИКМ - АДИКМ (Adaptive DPCM - ADPCM). ДМ - это ДИКМ с однобитовым квантованием, она также может быть адаптивной (АДМ). АДИКМ находит применение, например,   в беспроводном телефоне  с  коэффициентом  сжатия сигнала около 2. В сотовой связи используется исключительно второй метод кодирования, как более экономичный, - коэффициент сжатия порядка 5...8 с увеличением его в перспективе еще вдвое.

Второй метод - кодирование источника сигнала, или кодирование параметров сигнала, - первоначально основывался на данных о механизмах речеобразования, т.е. использовал своего рода модель голосового тракта и приводил к системам типа анализ-синтез, получившим название вокодерных систем или вокодеров (vocoder - сокращение от voice coder, т.е. кодер голоса или кодер речи). Уже ранние вокодеры позволяли получить весьма низкую скорость передачи информации, но при характерном «синтетическом» качестве речи на выходе. Поэтому вокодерные методы долгое время оставались в основном областью приложения усилий исследователей и энтузиастов, не находя широкого практического применения. Ситуация существенно изменилась с выходом на сцену метода линейного предсказания, предложенного в 60-х годах и получившего мощное развитие в 80-х, в том числе в прямой связи с разработкой речевых кодеков для цифровых систем сотовой связи. Именно вокодерные методы на основе линейного предсказания и применяются в сотовой связи, причем зависимость этих методов от данных о механизмах речеобразования отступает на второй или даже третий план, а оценка передаваемых по линии связи параметров производится на основе статистических характеристик сигнала по жестко определенному алгоритму, как и при кодировании формы сигнала. Поэтому фактически граница между двумя классическими методами кодирования - кодирования формы сигнала и кодирования источника сигнала - до некоторой степени стирается.

Перейдем непосредственно к кодерам речи, применяемым в сотовой связи, и рассмотрим следующие вопросы: принцип построения кодеров речи на основе метода линейного предсказания; сущность метода линейного предсказания; типы фильтров линейного предсказания, используемые в кодеках; практические схемы кодеков стандартов D-AMPS и GSM; методы оценки качества кодирования, позволяющие сопоставлять различные типы и варианты кодеков; перспективы развития методов кодирования.

Суть кодирования речи на основе метода линейного предсказания (Linear Predictive Coding - LPC) заключается в том, что по линии связи передаются не параметры речевого сигнала, как такового, а параметры некоторого фильтра, в известном смысле эквивалентного голосовому тракту, и параметры сигнала возбуждения этого фильтра. В качестве такого фильтра используется фильтр линейного предсказания. Задача кодирования на передающем конце линии связи заключается в оценке параметров фильтра и параметров сигнала возбуждения, а задача декодирования на приемном конце - в пропускании сигнала возбуждения через фильтр, на выходе которого получается восстановленный сигнал речи. Различные   варианты  алгоритмов  кодирования   отличаются   один   от другого   набором   передаваемых   параметров   фильтра,   методом формирования сигнала возбуждения и тому подобными деталями.

Метод линейного предсказания заключается в том, что очередная выборка речевого сигнала Sn с некоторой степенью точности предсказывается линейной комбинацией М предшествующих выборок:

где а, - коэффициенты линейного предсказания, М - порядок предсказания. Разность между истинным и предсказанным значениями выборки определяет ошибку предсказания {остаток предсказания):

В результате z-преобразования этого разностного уравнения получаем

где функция A(z)

интерпретируется как передаточная характеристика некоторого фильтра (инверсного фильтра или фильтра-анализатора), частотная характеристика которого обратна по отношению к частотной характеристике голосового тракта. При подаче речевого сигнала на вход инверсного фильтра на выходе фильтра получается сигнал возбуждения, подобный (с точностью до ошибок, определяемых конечностью порядка предсказания М и погрешностью оценки коэффициентов предсказания) сигналу возбуждения на входе фильтра голосового тракта.

Полученное выражение для A(z) соответствует структуре трансверсального фильтра (рис. 2.35). Порядок предсказания выбирается из условия компромисса между качеством передачи речи и пропускной способностью линии связи; практически М берется порядка 10.

Значения коэффициентов предсказания, постоянные на интервале кодируемого сегмента речи (на практике длительность сегмента составляет 20 мс), находятся из условия минимизации среднеквадратического значения остатка предсказания на интервале сегмента. 

Рис.2.35. Анализирующий трансверсальный фильтр при порядке предсказания М = 3

Рис 2 36 Анализирующий решетчатый фильтр

при порядке предсказания М = 3 (е+ и е" ~ остатки предсказания вперед и назад)

Для этого частные производные d(Zen2)/da, приравниваются к нулю, что приводит к системе М линейных уравнений с М неизвестными коэффициентами а,. Матрица системы и метод ее решения оказываются несколько различными в зависимости от того, какими свойствами наделяется речевой сигнал на интервале преобразуемого сегмента речи.

Если речевой сигнал на этом интервале считается стационарным случайным процессом (автокорреляционный метод оценки коэффициентов  предсказания),   то  матрица  системы  теплицева, система решается с помощью итерационной процедуры алгоритма Дарбина, и фильтр-синтезатор получается заведомо устойчивым. Если речевой сигнал считается нестационарным процессом (ковариационный метод оценки коэффициентов предсказания), то матрица системы симметрична, но не теплицева, система решается с использованием разложения Холецкого, а для обеспечения устойчивости фильтра-синтезатора ковариационный метод приходится соответствующим образом модифицировать.

В обоих случаях (как в автокорреляционном методе, так и в ковариационном) в качестве побочного результата решения получаются значения так называемых коэффициентов отражения, или коэффициентов частичной корреляции (partial correlation coefficients, или PARCOR coefficients) k,, i-1,...M, число которых равно числу коэффициентов линейного предсказания а, и которые связаны с коэффициентами а, взаимно однозначными нелинейными функциональными соотношениями. Коэффициенты отражения непосредственно связаны с другой формой фильтра линейного предсказания - так называемым решетчатым, или лестничным (lattice), фильтром (рис. 2.36). Коэффициенты отражения к, более удобны, чем коэффициенты линейного предсказания а„ для передачи по линии связи, так как в силу своих статистических характеристик в меньшей степени могут приводить к потере устойчивости фильтра при квантовании. Иначе говоря, они требуют меньшего числа разрядов при квантовании, т.е. приводят к более экономичному использованию линии связи. Иногда используются также функции от коэффициентов отражения - логарифмические отношения площадей (Log-Area Ratio - LAR):

название которых связано с моделью голосового тракта в виде набора акустических труб различных сечений.

Вернемся к выражению для A(z), определяющему передаточную характеристику фильтра-анализатора. Передаточная характеристика фильтра-синтезатора H(z) обратна ей с точностью до скалярного коэффициента усиления G .

Синтезирующий фильтр имеет ту же структуру, что и анализирующий (инверсный), и определяется тем же набором параметров (коэффициентов предсказания а„ или коэффициентов отражения kn или логарифмических отношений площадей г,), но входы и выходы в анализирующем и синтезирующем фильтрах меняются местами. Если на вход синтезирующего фильтра подать сигнал возбуждения, то на его выходе будет получен речевой сигнал с тем качеством, которое обеспечивается фильтром при принятом порядке предсказания, используемом числе дискретов для квантования параметров фильтра и прочих ограничениях и погрешностях того же характера.

Рис.2.37. Работа кодека речи в методе линейного предсказания

Таким образом, процедура кодирования речи в методе линейного предсказания сводится к следующему (рис.2.37):

оцифрованный сигнал речи нарезается на сегменты длительностью 20 мс (160 выборок по 8 бит в каждом сегменте);

для каждого сегмента оцениваются параметры фильтра линейного предсказания и параметры сигнала возбуждения;  в качестве сигнала возбуждения в простейшем (по идее) случае может выступать остаток предсказания, получаемый   при   пропускании   сегмента   речи   через фильтр линейного предсказания с параметрами,  полученными из оценки для данного сегмента;

параметры фильтра и параметры сигнала возбуждения кодируются  по определенному закону и  передаются  в канал связи.

Процедура декодирования речи заключается в пропускании принятого сигнала возбуждения через синтезирующий фильтр известной структуры, параметры которого переданы одновременно с сигналом возбуждения. Подчеркнем, что как анализирующий, так и синтезирующий фильтры являются цифровыми и процедуры кодирования и декодирования речи реализуются в соответствующих вычислителях (процессорах). Сигнал на вход анализирующего фильтра поступает непосредственно с выхода АЦП, а выходной сигнал синтезирующего фильтра попадает на вход ЦАП (рис. 2.6).

Приведенное описание процессов кодирования и декодирования речи не является исчерпывающим, оно объясняет лишь принцип действия кодека. Практические схемы заметно сложнее, и это связано в основном со следующими двумя моментами.

Во-первых, описанная выше схема линейного предсказания - кратковременное предсказание {Short-Term Prediction - STP ) -не обеспечивает достаточной степени устранения избыточности речи. Поэтому, в дополнение к кратковременному предсказанию, используется еще долговременное предсказание {Long-Term Prediction - LTP ), в значительной мере устраняющее остаточную избыточность и приближающее остаток предсказания по своим статистическим характеристикам к белому шуму.

Во-вторых, использование остатка предсказания в качестве сигнала возбуждения оказывается недостаточно эффективным, так как требует для кодирования слишком большого числа бит. Поэтому практическое применение находят более экономичные (по загрузке канала связи, но отнюдь не по вычислительным затратам) методы формирования сигнала возбуждения. В ранних кодеках линейного предсказания для формирования сигнала возбуждения передавались сигнал тон/шум (двоичный признак, указывающий, является ли передаваемый сегмент речи вокализованным, т.е. тональным, или невокализованным, т.е. шумовым), период основного тона и амплитуда сигнала. В начале 80-х годов была предложена модель многоимпульсного возбуждения, не использующая классификацию сегментов речи по признаку вокализованный/не вокализованный. С этой моделью связано значительное улучшение качества кодеков линейного предсказания, и в настоящее время используются исключительно различные варианты многоимпульсного возбуждения.

Остановимся на указанных двух моментах несколько подробнее. Передаточная характеристика инверсного фильтра долговременного предсказания имеет вид

где gk - коэффициенты долговременного предсказания, порядок предсказания равен М, +М2+1, а временная задержка d соответствует периоду основного тона (для вокализованных звуков). Обычно долговременный предсказатель имеет порядок 1, т.е. М1 = М2 = 0, так что передаточная характеристика фильтра определяется единственным коэффициентом предсказания g и задержкой d :

Если на вход инверсного фильтра долговременного предсказания подается остаток кратковременного предсказания е„, то на выходе получается остаток (ошибка) долговременного предсказания г,7, равный

Ошибка fn весьма близка к белому гауссовскому шуму, что облегчает экономичное формирование параметров сигнала возбуждения, о чем мы расскажем чуть ниже. Параметры долговременного предсказания g и d могуг быть определены, например, из условия минимизации среднеквадратического значения ошибки fn на некотором интервале, составляющем 20...25% от длительности передаваемого сегмента речи. Задержка d обычно заключается в пределах 20... 160 интервалов дискретизации сигнала, что соответствует диапазону частот основного тона 50...400 Гц. Передаточная характеристика R(z) долговременного фильтра-синтезатора обратно P(z) с точностью до скалярного коэффициента усиления F :

Сигнал возбуждения, аппроксимирующий (в смысле выхода фильтра-синтезатора) остаток долговременного предсказания fn, моделируется в виде определенного числа импульсов на интервале кадра возбуждения (excitation frame), составляющего обычно 20...50% от длительности передаваемого сегмента речи. Для оценки параметров последовательности импульсов сигнала возбуждения существует несколько методов [162]. В методе многоимпульсного возбуждения (Multi-Pulse Excitation - МРЕ) оптимизируется как положение, так и амплитуды импульсов. В методе возбуждения регулярной последовательностью импульсов (Regular-Pulse Excitation - RPE) взаимное расположение импульсов предопределено заранее - используется сетка равноотстоящих импульсов, а оптимизируется расположение этой сетки в пределах кадра возбуждения (так как обычно число импульсов возбуждения в 3...4 раза меньше числа выборок в кадре) и амплитуды импульсов. В методе стохастического кодирования, или методе линейного предсказания с кодовым возбуждением (Code-Excited Linear Prediction -CELP), с разновидностью возбуждения векторной суммой (Vector Sum Excited Linear Prediction - VSELP), наиболее подходящий вектор возбуждения выбирается из заранее составленной кодовой книги, или кодового словаря, содержащего обычно 2N, N = 7...10, квазислучайных векторов заданной длины с элементами, нормированными по амплитуде; амплитуда вектора возбуждения кодируется отдельно в соответствии с громкостью передаваемого элемента речи. Наконец, известен эффективный метод возбуждения последовательностью бинарных импульсов с преобразованием (Transformed Binary Pulse Excitation - ТВРЕ), в котором сигналом возбуждения является последовательность равноотстоящих по времени и квазислучайных по знаку (с амплитудами +1) импульсов, умноженных на некоторую матрицу преобразования. Ограничившись приведенными общими сведениями по методам формирования сигнала возбуждения, перейдем к рассмотрению конкретных схем кодеков речи стандартов D-AMPS и GSM.

В стандарте D-AMPS используется метод кодирования VSELP. Упрощенная блок-схема кодека представлена на рис. 2.38; посуществу, она является развитием и детализацией схемы рис. 2.37. Рассмотрим сначала схему кодера.

Блок предварительной обработки выполняет следующие функции:

предварительную цифровую фильтрацию входного сигнала с целью подъема верхних частот, на долю которых в спектре речевого сигнала приходится меньшая мощность;

нарезание сигнала на сегменты по 160 выборок (20 миллисекунд).

Затем для каждого 20-миллисекундного сегмента оцениваются параметры фильтра кратковременного линейного предсказания - 10 коэффициентов частичной корреляции к,, /= 1 ,...10 (порядок предсказания М = 10), которые непосредственно кодируются для выдачи в канал связи, без каких-либо дополнительных функциональных преобразований. Здесь же оценивается амплитудный множитель р, определяющий энергию сегмента речи.

Сигнал с выхода блока предварительной обработки фильтруется фильтром-анализатором кратковременного линейного предсказания в форме трансверсального линейного фильтра, для чего коэффициенты частичной корреляции к, преобразуются в коэффициенты линейного предсказания а,.

Выходной сигнал фильтра кратковременного предсказания (остаток предсказания еп) используется для оценки параметров долговременного предсказания - задержки d и коэффициента предсказания д, причем параметры долговременного предсказания оцениваются в отдельности для каждого из четырех подсегментов по 40 выборок, на которые разделяется сегмент из 160 выборок.

Далее для каждого из подсегментов по 40 выборок определяются параметры сигнала возбуждения. Для этого в составе кодера используется схема, аналогичная входящей в состав декодера, которая включает фильтры-синтезаторы кратковременного и долговременного предсказания и две кодовые книги и реализует метод «анализа через синтез» (эта часть кодера на схеме рис.2.38 подробно не раскрыта). Каждая из кодовых книг сигнала возбуждения содержит 128 кодовых векторов, по 40 элементов в каждом.

-

Рис.2.38. Упрощенная блок-схема кодека речи стандарта D-AMPS

Все кодовые векторы одной книги являются элементами 7-мерного линейного подпространства 40-мерного пространства, натянутого на 7 базисных векторов, причем коэффициенты линейных комбинаций, задающих кодовые векторы через векторы базиса, имеют значения +1 или -1. Таким образом, каждая кодовая книга, содержащая 128 векторов, задается семью базисными векторами и 128 кодовыми словами (7-элементными векторами коэффициентов линейных комбинаций) с однобитовыми элементами.

Сигнал возбуждения фильтра-синтезатора кратковременного предсказания, в соответствии со схемой декодера на рис. 2.38, является суммой векторов возбуждения из двух кодовых книг и вектора с выхода фильтра-синтезатора долговременного предсказания (отсюда и название метода - «с возбуждением векторной суммой»), причем векторы возбуждения из кодовых книг до подачи на сумматор умножаются на соответствующие коэффициенты усиления у, и у2, а входным сигналом фильтра-синтезатора долговременного предсказания является, в зависимости от участка сегмента, выходной сигнал того же фильтра или суммарный сигнал возбуждения фильтра-синтезатора кратковременного предсказания. Параметры сигнала возбуждения - номера векторов возбуждения /, и /2 из первой и второй кодовых книг и соответствующие коэффициенты усиления Yi и у2 - определяются по критерию минимума среднеквадратической ошибки на выходе фильтра-синтезатора кратковременного предсказания, входящего в состав кодера. Предварительно базисные векторы обеих кодовых книг ортогона-лизуются: для первой книги - по отношению к выходному вектору фильтра-синтезатора долговременного предсказания, для второй книги - по отношению к тому же выходному вектору и к базисным векторам первой книги.

В табл. 2 6 приведена сводка выходной информации кодера с указанием числа бит, используемых для кодирования. Общий объем информации, выдаваемой для 20-миллисекундного сегмента речи, составляет 159 бит. Поскольку исходный объем информации на входе кодера составляет 1280 бит (160 выборок по 8 бит), кодер речи осуществляет сжатие информации более чем в 8 раз (1280 : 159 = 8,05). Перед выдачей в канал связи выходная информация кодера речи подвергается дополнительно канальному кодированию, причем разные параметры, в зависимости от их важности для обеспечения качества передачи речи, кодируются с различной степенью избыточности.

Рассмотрим схему декодера, что представляется теперь уже достаточно простым делом. Сигнал возбуждения фильтра-синтезатора кратковременного предсказания формируется таким же образом, как и в синтезирующей схеме кодера: по номерам l1 и l2 из кодовых книг выбираются векторы возбуждения, которые умножаются соответственно на коэффициенты у-,, у2 и складываются с выходным вектором фильтра-синтезатора долговременного предсказания, определяемого параметрами д, d.

Далее сигнал возбуждения фильтруется фильтром-синтезатором кратковременного предсказания в форме трансверсального фильтра, т.е. параметры фильтра приходится преобразовывать -от коэффициентов частичной корреляции к, переходить к коэффициентам предсказания а,. Для улучшения субъективного качества синтезированной речи выходной сигнал фильтра-синтезатора подвергается цифровой адаптивной пост-фильтрации, и с выхода пост-фильтра получается восстановленный цифровой сигнал речи.

В стандарте GSM используется метод RPE-LTP (Regular Pulse Excited Long Term Predictor - линейное предсказание с возбуждением регулярной последовательностью импульсов и долговременным предсказателем). Упрощенная блок-схема кодека представлена на рис. 2.39.

Начнем с рассмотрения кодера. Блок предварительной обработки осуществляет:

предыскажение  входного  сигнала  при  помощи  цифрового фильтра, подчеркивающего верхние частоты;

нарезание сигнала на сегменты по 160 выборок (20 миллисекунд);

взвешивание каждого из сегментов окном Хэмминга  ( «косинус на пьедестале» - амплитуда сигнала плавно спадает отцентра окна к краям).

-

Далее для каждого 20-миллисекундного сегмента оцениваются параметры фильтра кратковременного линейного предсказания - 8 коэффициентов частичной корреляции к„ i = 1,...,8 (порядок предсказания М = 8), которые для передачи по каналу связи преобразуются в логарифмические отношения площадей гг причем для функции логарифма используется кусочно-линейная аппроксимация.

Сигнал с выхода блока предварительной обработки фильтруется решетчатым фильтром-анализатором кратковременного линейного предсказания, и по его выходному сигналу - остатку предсказания еп - оцениваются параметры долговременного предсказания: коэффициент предсказания д и задержка d. При этом 160-выборочный сегмент остатка кратковременного предсказания еп разделяется на 4 подсегмента, по 40 выборок в каждом, и параметры д, d оцениваются для каждого из подсегментов в отдельности, причем для оценки задержки d для текущего подсегмента используется скользящий подсегмент из 40 выборок, перемещающийся в пределах предшествующих 128 выборок сигнала остатка предсказания еп. Сигнал ел фильтруется фильтром-анализатором долговременного линейного предсказания, а выходной сигнал последнего - остаток предсказания fn - фильтруется сглаживающим фильтром, и по нему формируются параметры сигнала возбуждения, в отдельности для каждого из 40-выборочных подсегментов.

Сигнал возбуждения одного подсегмента состоит из 13 импульсов, следующих через равные промежутки времени (втрое большие, чем интервал дискретизации исходного сигнала), и имеющих различные амплитуды. Для формирования сигнала возбуждения 40 импульсов подсегмента сглаженного остатка fn обрабатываются следующим образом. Последний (сороковой) импульс отбрасывается, а первые 39 импульсов разбиваются на три последовательности: в первой - импульсы 1, 4, ...37, во второй - импульсы 2, 5, ...38, в третьей - импульсы 3, 6, ...39. В качестве сигнала возбуждения выбирается та из последовательностей, энергия которой больше. Амплитуды импульсов нормируются по отношению к импульсу с наибольшей амплитудой, и нормированные амплитуды кодируются тремя битами каждая при линейной шкале квантования. Абсолютное значение наибольшей амплитуды кодируется шестью битами в логарифмическом масштабе. Положение начального импульса 13-элементной последовательности кодируется двумя битами, т.е. номер последовательности, выбранной в качестве сигнала возбуждения для данного подсегмента.

Таким образом, выходная информация кодера речи для одного 20-миллисекундного сегмента речи включает:

- параметры фильтра кратковременного линейного предсказания - 8 коэффициентов логарифмического отношения площадей г„ / = 1.....8 - один набор на весь сегмент;

Перейдем к декодеру. Последовательность выполняемых им функций в общем понятна из нижней части блок-схемы рис. 2.39, и мы ограничимся небольшими пояснениями к ней. Блок формирования сигнала возбуждения, используя принятые параметры сигнала возбуждения, восстанавливает 13-импульсную последовательность сигнала возбуждения для каждого из подсегментов сигнала речи, включая амплитуды импульсов и их расположение во времени. Сформированный таким образом сигнал возбуждения фильтруется фильтром-синтезатором долговременного предсказания,  на выходе которого получается восстановленный остаток предсказания фильтра-анализатора кратковременного предсказания.

Последний фильтруется решетчатым фильтром-синтезатором кратковременного предсказания, причем параметры фильтра предварительно преобразуются из логарифмических отношений площадей г, в коэффициенты частичной корреляции к,. Выходной сигнал фильтра-синтезатора кратковременного предсказания фильтруется (в блоке пост-фильтрации) цифровым фильтром, восстанавливающим амплитудные соотношения частотных составляющих сигнала речи, т.е. компенсирующим предыскажение, внесенное входным фильтром блока предварительной обработки кодера. Сигнал на выходе постфильтра является восстановленным цифровым сигналом речи.

Таким образом, мы рассмотрели все намеченные вопросы, относящиеся к собственно кодированию речи в сотовой связи. Однако, прежде чем закончить этот раздел, остановимся еще на двух вопросах: методах оценки качества кодирования и непрерывно продолжающемся прогрессе в технике кодирования.

Из предшествующего изложения ясно, что создание экономичного и совершенного кодека речи является сложным творческим процессом, связанным с непрерывными поисками и находками, причем многие технические решения настолько разнородны, что их сопоставление само по себе оказывается непростой задачей. Поэтому совершенно необходимы методы и критерии, позволяющие более или менее объективно сопоставлять и оценивать различные методы кодирования и на основании этих оценок принимать обоснованные решения. Такие методы существуют, и основные критерии в них связаны с восприятием речи человеком' т.е. с экспертными оценками.

При оценке качества кодирования и сопоставлении различных кодеков оцениваются разборчивость речи и качество синтеза (качество звучания) речи. Для оценки разборчивости речи используется метод DRT (Diagnostic Rhyme Test - диагностический рифмованный тест). В этом методе подбираются пары близких по звучанию слов, отличающихся отдельными согласными (типа "дот -тот", "кол - гол"), которые многократно произносятся рядом дикторов, и по результатам испытаний оценивается доля искажений. Метод позволяет получить как оценку разборчивости отдельных согласных, так и общую оценку разборчивости речи.

Для оценки качества звучания используется критерий DAM (Diagnostic Acceptability Measure - диагностическая мера приемлемости). Испытания заключаются в чтении несколькими дикторами, мужчинами и женщинами, ряда специально подобранных фраз, которые прослушиваются на выходе тракта связи рядом экспертов-слушателей, выставляющих свои оценки по 5-балльной шкале. Результатом является средняя субъективная оценка, или средняя оценка мнений {Mean Opinion Score - MOS). Хотя этот метод является субъективным по своей сути, его результаты по сопоставлению различных типов кодеков при проведении испытаний одними и теми же группами дикторов и экспертов-слушателей являются, по-видимому, достаточно объективными, и на них основываются практически все выводы и решения.

В качестве примера в табл. 2.8 приведены результаты оценки четырех типов кодеков. Близкие к шкале MOS результаты дает объективный метод оценки качества с использованием понятия кепстрального расстояния (Cepstrum Distance - CD).

Из сказанного ясно также, что существует множество вариантов кодеков речи, в том числе в классе кодеков линейного предсказания, из числа которых приходится выбирать кодек для системы сотовой связи. В частности, при разработке стандарта GSM были тщательно исследованы шесть типов кодеков-кандидатов, после чего выбор был остановлен на кодеке RPE-LTP. Работа по выбору типа кодека для стандарта GSM была завершена в 1988 г., а в 1989 г. был предложен метод VSELP, принятый затем в стандарте D-AMPS. Интенсивные работы по совершениствованию кодеков речи продолжаются и в настоящее время. Обоими стандартами - и D-AMPS, и GSM - предусмотрено введение полускоростного кодирования, которое сможет увеличить пропускную способность канала связи еще вдвое.

В числе исследуемых вариантов для стандарта D-AMPS рассматривается возможность введения векторного квантователя параметров линейных спектральных пар с расщеплением и межкадровым предсказанием [96], а для стандарта GSM - использование метода кодирования CELP [121].

В стандарте D-AMPS уже начинает применяться усовершенствованный полноскоростной кодек - алгебраический кодек линейного предсказания с кодовым возбуждением (algebraic code-book excited linear prediction/enhanced full rate - ACELP-EFR), а в стандарте GSM - свой вариант усовершенствованного полноскоростного кодека .

91


 

А также другие работы, которые могут Вас заинтересовать

37951. ИЗУЧЕНИЕ ГАЗОВЫХ ЗАКОНОВ И ОПРЕДЕЛЕНИЕ КОЭФФИЦИЕНТА ПУАССОНА ГАЗА МЕТОДОМ КЛЕМАНА – ДЕЗОРМА 157.5 KB
  Теплоемкость и коэффициент Пуассона газа.14 лабораторная работа № 24 ИЗУЧЕНИЕ ГАЗОВЫХ ЗАКОНОВ И ОПРЕДЕЛЕНИЕ КОЭФФИЦИЕНТА ПУАССОНА ГАЗА МЕТОДОМ КЛЕМАНА – ДЕЗОРМА Цель работы Изучение различных процессов изменения состояния газа и определение коэффициента Пуассона воздуха. Теплоемкость и коэффициент Пуассона газа Удельной теплоемкостью вещества называется величина равная количеству теплоты которую надо передать единице массы этого вещества для увеличения его температуры на 1К а молярной теплоемкостью – количество теплоты которое...
37952. ОПРЕДЕЛЕНИЕ КОЭФФИЦИЕНТОВ ТЕПЛОПРОВОДНОСТИ МЕТАЛЛОВ 2.23 MB
  13 ЛАБОРАТОРНАЯ РАБОТА № 25 ОПРЕДЕЛЕНИЕ КОЭФФИЦИЕНТОВ ТЕПЛОПРОВОДНОСТИ МЕТАЛЛОВ Цель работы Изучение явления теплопроводности и определение коэффициентов теплопроводности чистых металлов и сплавов. Если в неравномерно нагретых жидкостях и газах тепловая энергия передается преимущественно за счет конвекции при которой происходит перемещение вещества между областями с различной температурой то в твердых телах тепло переносится только за счет теплопроводности. Распространение тепловой энергии путем теплопроводности обусловлено хаотическим...
37953. ИЗУЧЕНИЕ ВЗИМОСВЯЗИ ПАРМЕТРОВ СОСТОЯНИЯ ИДЕАЛЬНОГО ГАЗА И ГАЗОВЫХ ЗАКОНОВ 150.5 KB
  Экспериментальная проверка уравнения состояния идеального газа.13 лабораторная работа № 29 ИЗУЧЕНИЕ ВЗИМОСВЯЗИ ПАРМЕТРОВ СОСТОЯНИЯ ИДЕАЛЬНОГО ГАЗА И ГАЗОВЫХ ЗАКОНОВ Цель работы 1. Изучение взаимосвязи макропараметров определяющих состояние идеального газа. Экспериментальная проверка уравнения состояния идеального газа.
37954. Исследование электростатического поля и изображение его при помощи силовых линий и поверхностей равного потенциала 867.5 KB
  Исследование электростатического поля Цель работы Экспериментальное исследование электростатического поля и изображение его при помощи силовых линий и поверхностей равного потенциала. Напряженностью электрического поля называют силу действующую на единичный положительный пробный заряд. Если электрическое поле создается системой зарядов то напряженность поля в данной точке определяется по принципу суперпозиции...
37955. ИЗУЧЕНИЕ ЗАКОНОВ ПОСТОЯННОГО ТОКА 1.19 MB
  Электрическим током называют упорядоченное движение зарядов. Эти заряды называют носителями тока. Линия тока есть математическая линия, направление касательной которой в каждой точке совпадает с направлением скорости носителей тока. За положительное направление тока принято считать направление скорости положительно заряженных частиц.
37956. Девиантное поведение. Концепции девиантного поведения 17.59 KB
  Девиантное поведение – поведение, отклоняющееся от нормы; когда человек ведет себя не в соответствии с нормами и стандартами поведения, принятыми в данном обществе.
37958. Определение моментов инерции твердых тел методом трифилярного подвеса 318.5 KB
  Момент инерции.1] Список литературы Лабораторная работа № 1 Определение моментов инерции твердых тел методом трифилярного подвеса 1. Экспериментальное определение моментов инерции твердых тел. Момент инерции.
37959. ОПРЕДЕЛЕНИЕ МОМЕНТОВ ИНЕРЦИИ ТВЕРДЫХ ТЕЛ МЕТОДОМ ТРИФИЛЯРНОГО ПОДВЕСА 284.5 KB
  ОПРЕДЕЛЕНИЕ МОМЕНТОВ ИНЕРЦИИ ТВЕРДЫХ ТЕЛ МЕТОДОМ ТРИФИЛЯРНОГО ПОДВЕСА 1. Цель работы Экспериментальное определение моментов инерции твердых тел. Момент инерции. Теорема Штейнера Моментом инерции материальной точки...