20599

Основы кодирования речевых сигналов

Лекция

Биология и генетика

Существующие алгоритмы сжатия информации можно разделить на две большие группы: 1 алгоритмы сжатия без потерь: алгоритм ЛемпеляЗива LempelZiv LZ; RLE Run Length Encoding; кодирование Хаффмена Huffman Encoding; 2 алгоритмы сжатия с потерями: JPEG Joint Photographic Expert Group; MJPEG; MPEG Motion Picture Expert Group. MPEG ориентирован на обработку видео. Возникновение стандартов MPEG Активная разработка методов и стандартов сжатия видеоданных началась с появлением цифровых видеосистем. Но когда речь идет о...

Русский

2013-07-31

376.5 KB

95 чел.

Лекция №5

Основы кодирования речевых сигналов

Алгоритмы сжатия информации

С возникновением электрической связи ученые и инженеры начали неустанный поиск способов компактного представления данных, то есть хранения и передачи информации меньшим потоком цифровых данных или в более узком частотном диапазоне. Весьма важное место в технике связи занимает передача речи. Поэтому понятно стремление представить речь в возможно более компактной форме. Сформировался термин "компандирование речевых сигналов", т. е. КОМпрессия/эксПАНДИрование - сжатие/расширение. Существующие алгоритмы сжатия информации можно разделить на две большие группы:

1) алгоритмы сжатия без потерь:

  •  алгоритм Лемпеля-Зива (Lempel-Ziv, LZ);
  •  RLE (Run Length Encoding);
  •  кодирование Хаффмена (Huffman Encoding);

2) алгоритмы сжатия с потерями:

  •  JPEG (Joint Photographic Expert Group);
  •  M-JPEG;
  •  MPEG (Motion Picture Expert Group).

Алгоритм Лемпеля-Зива лежит в основе архиваторов (pkzip, arj, lha) и программ динамического сжатия дисков (Stacker, DoubleSpace). Основная идея: второе и последующие вхождения некоторой строки символов в сообщение заменяются ссылкой на ее первое появление в сообщении. Применяются варианты LZ77, LZSS, LZW (файлы формата GIF, TIFF), BTLZ (Рекомендация МККТТ V.42bis). Используется для сжатия текстов и графики.  RLE применяется для сжатия графики (файлы формата PCX) и видео. Последовательность одинаковых символов заменяется 2 байтами. В первом байте - символ, во втором - счетчик, то есть число, которое показывает, сколько таких символов идет подряд. Кодирование Хаффмена состоит в замене информационных символов кодовыми последовательностями различной длины. Чем чаще используется символ, тем короче кодовая последовательность. Aналогично построена азбука Морзе. К примеру, наиболее часто встречается латинская буква "е", которая передается одной точкой.   JPEG ориентирован на сжатие неподвижных изображений. Он базируется на дискретном косинусном преобразовании (ДКП) неподвижного изображения, отбрасывании малых высокочастотных компонентов получаемого спектра и последующем энтропийном сжатии полученных данных.    M-JPEG - алгоритм для компрессии видео, в котором каждый отдельный кадр сжимается по методу JPEG.    MPEG ориентирован на обработку видео. При формировании потока данных исходят из предположения о том, что два соседних кадра в видеопоследовательности мало отличаются. Опорные кадры сжимают по методу JPEG ипередают относительно редко. В основном передаются изменения между соседними кадрами.    Из приведенного краткого обзора алгоритмов сжатия очевидны два соображения:

  •  нет алгоритма, одинаково эффективного для данных разной природы;
  •  приведенные алгоритмы рассчитаны на сжатие данных, в которых есть последовательности одинаковых символов или одни символы встречаются чаще других.    Оцифрованный звук плохо поддается алгоритмам сжатия без потерь.Очевидно, что для сжатия речи в виде цифрового или аналогового сигнала надо применять алгоритмы сжатия с потерями, которые могут быть приемлемы. Наибольшее распространение получили:
  •  применение вместо линейной импульсно-кодовой модуляции (ИКМ) логарифмической (то есть с компандированием по А- и мю-закону), адаптивной ИКМ (АИКМ), дифференциальной ИКМ (ДИКМ), адаптивной дифференциальной ИКМ (АДИКМ), адаптивной дельта-модуляции (АДМ);
  •  клиппирование речевого сигнала;
  •  статистическое уплотнение;
  •  применение вокодеров (устройств для сжатия, кодирования и передачи речи).

Применяются также и алгоритмы сжатия без потери информации:

  •  сжатие за счет пауз в сигнале (паузы удаляются из исходного сигнала, а их длительность запоминается);
  •  при хранении и передаче музыки вместо оцифрованного звука - использование информации о том, какие ноты, когда и на каком инструменте нужно исполнять (интерфейс MIDI).

Разумеется, все эти алгоритмы можно реализовать и аппаратно, и программно. Первый пункт списка - варианты преобразования аналогового сигнала в цифровой, то есть применяется ИКМ и ее ближайшие "родственники" - АИКМ, ДИКМ, АДМ, АДИКМ.

ИКМ и связанные с ней методы сжатия информации

Компандирование для оцифровки телефонного сигнала описано в Рекомендациях МККТТ (Международный консультативный комитет по телефонии и телеграфии, CCITT) G.711 и G.712 для A- и мю-законов:

  •  частота дискретизации 8000 Гц;
  •  число двоичных разрядов на отсчет 8;
  •  скорость передачи 64000 бит/c.

Оно рассчитано на мгновенный охват всего динамического диапазона для каждого квантуемого отсчета. Поэтому его называют мгновенным компандированием.    Из различных систем АИКМ наибольшее распространение получила система блочной ИКМ (БИКМ), которую часто называют системой с почти мгновенным компандированием (NIC - Near Instantaneous Companding)     Отсчеты n-разрядного АЦП разбивают на блоки по N отсчетов (см. рис. 1). В каждом блоке находят отсчет с максимальным для данного блока уровнем (на рис. 1 это второй отсчет сверху). Этому уровню соответствует определенный номер старшего ЗНАЧАЩЕГО разряда (j), и все старшие разряды в комбинациях этого блока будут нулевыми (заштрихованы). Записанный в двоичном коде номер этого разряда образует масштабную информацию, которая из-за своей важности, как правило, защищается помехоустойчивым кодом. В результате масштабная информация вместе с проверочными символами образует m-значную комбинацию, которую добавляют к основной информации.

Основная же информация формируется выбором k разрядов из n исходных разрядов, причем первым (старшим) разрядом является разряд с номером, описанным в масштабной информации.    Основная информация для каждого из блоков объединяется с масштабной в единый цифровой поток. Результирующая скорость цифрового потока на выходе системы БИКМ

R = fд (k + m/N),

где fд - частота дискретизации. Используют следующие параметры:

fд = 8 кГц

n = 10...13

k = 6... 8

N = 8...16

m = 6... 8

При одинаковых условиях передачи БИКМ дает лучшее качество чем ИКМ. Поэтому можно снизить скорость передачи до 32-56 кбит/с.    При дифференциальной (разностной) ИКМ (ДИКМ, Differencial PCM, DPCM) вместо кодирования отсчетов кодируются разности между соседними отсчетами. Обычно разности отсчетов меньше самих отсчетов. Скорость передачи цифрового потока снижается до 48-56 кбит/c. В системах с логарифмической ДИКМ используют А- и мю-законы компандирования для реализации неравномерного квантования.    Адаптивная ДИКМ (АДИКМ, Adaptive Differencial PCM, ADPCM) - система ДИКМ с адаптацией квантователя (АЦП и ЦАП) и предсказателя. При АДИКМ оцифровывается не сам сигнал, а его отклонение от предсказанного значения (сигнал ошибки, ошибка предсказания). Применяются следующие разновидности АДИКМ:

  •  Рекомендация G.721 МККТТ (скорость передачи 32 кбит/c);
  •  Рекомендация G.722 МККТТ (fд = 16 000 Гц);
  •  Рекомендация G.723 МККТТ (скорость передачи 24 кбит/c);
  •  Creative ADPCM (4, 2,6 или 2 бита на отсчет);
  •  IMA/DVI ADPCM (4, 3 или 2 бита на отсчет);
  •  Microsoft ADPCM.

В компакт-дисках типа CD-I (Interactive) звук кодируется с использованием АДИКМ

  •  Level A (fд = 37 800 Гц, 8 бит на отсчет)
  •  Level B (fд = 37 800 Гц, 4 бит на отсчет)
  •  Level C (fд = 18 900 Гц, 4 бит на отсчет)

Дельта-модуляция (ДМ, Delta Modulation, DM) - при выбранном приращении передаются сведения только о его знаке. Для этого достаточно передавать 1 бит в каждый момент отсчета. ДМ можно рассматривать как частный случай ДИКМ, при котором ошибка предсказания квантуется только на 2 уровня. Кодек (то есть КОдер/ДЕКодер) ДМ реализуется довольно просто.    Использование одного разряда для представления ошибки предсказания приводит к специфическим особенностям (рис. 2.):

  •  при кодировании сигналов постоянного уровня аппроксимирующий сигнал "скачет" относительно кодируемого уровня (гранулярный шум);
  •  при кодировании быстроизменяющихся сигналов появляются ошибки, обусловленные невозможностью изменения аппроксимирующего сигнала более, чем на один шаг квантования (перегрузка по крутизне).

Рис. 2. Специфические ошибки ДМ-кодека

При одинаковых шумах квантования тактовая частота или скорость цифрового потока для ДМ будет больше, чем для ИКМ. Поэтому классическая ДМ практически не используется, а применяются ее разновидности:

  •  ДМ с задержкой,
  •  дельта-сигма-модуляция (ДСМ),
  •  ДМ с двойным интегрированием.

При использовании адаптивной ДМ на основе анализа передаваемой информации меняют шаг квантования. Например, в ДМ с непрерывно изменяющейся крутизной (continuousely variable slope) информация о размерешага квантования в кодере и декодере извлекается из передаваемого цифрового потока: если подряд идут 4 нуля или единицы, шаг квантования уменьшается/увеличивается вдвое. Эта идея реализована в серийно выпускаемых микросхемах.

Клиппирование речевого сигнала

Клиппирование - предельное амплитудное ограничение сигнала, которое применяется только для обработки речи. Речевой сигнал превращается в последовательность прямоугольных импульсов разной ширины, то есть передается информация только о моментах перехода сигнала через ноль (рис. 3.).

Рис. 3. Клиппирование

Цифровой вариант клиппирования можно назвать ИКМ с одним битом на отсчет: если сигнал в момент отсчета положителен, он кодируется единицей, если отрицателен - нулем.    Удивительно, что при таком, мягко говоря, компактном представлении речи ее разборчивость остается весьма высокой. Естественность, конечно, теряется. Речь приобретает специфичное жесткое звучание. Разработано много методов улучшения звучания клиппированной речи, например, дополнительная передача огибающей речи, выделенной до клиппирования.

Статистическое уплотнение

В процессе телефонного разговора между 2 абонентами каждое направление передачи по телефонному каналу (канал тональной частоты, канал ТЧ) в среднем используется только в течение половины времени разговора. Кроме того, время активного состояния канала сокращается за счет пауз между отдельными словами и фразами. Все это приводит к тому, что время активного состояния канала ТЧ составляет лишь 25%.    Для лучшего использования пропускной способности канала естественно занять остальные 75% времени, организовав во время пауз одного абонента передачу речевых сигналов других абонентов. Это и есть статистическое уплотнение, а системы, его использующие, называются статистическими системами передачи (ССП).    Примером аналоговых ССП являются системы типа TASI (Time Assignment Speech Interpolation):

  •  в TASI-A 72 абонента обслуживаются 36 каналами,
  •  в TASI-B 275 абонентов - 100 каналами.

Статистическое уплотнение применяется также в цифровых системах с ИКМ и временным разделением каналов. Например, система ИКМ-C2x30/30 предназначена для статистического объединения двух групповых потоков систем ИКМ-30 со скоростью передачи 2048 кбит/c в один цифровой поток с той же скоростью.    В цифровых системах спутниковой связи получили распространение два метода статистического уплотнения [1]:

  •  цифровая интерполяция речи (ЦИР, DSI) - цифровой вариант системы TASI;
  •  система с предсказанием речи (СПР, SPEC).

Избыточность речевого сигнала

При ИКМ с А- и мю-законами, ДИКМ, АДИКМ, АДМ, клиппировании сжатие речи достигается за счет компактного описания формы звукового сигнала. При этом не учитывается природа речеобразования. Если же при анализе и синтезе речи ее учесть, то речь можно сжать значительно сильнее. Это и делают ВОКОДЕРЫ.    В русском языке 42 фонемы: 6 гласных звуков, остальные - согласные. Чтобы закодировать их номера нужно 6 бит. Человек произносит в секунду около 10 звуков. То есть от центральной нервной системы к речевому аппарату сигналы управления передаются со скоростью

10 [log 2 42] = 60 бит/с.

В то же время в цифровой телефонии используется скорость 64 кбит/c (8 бит на отсчет, частота дискретизации 8 кГц). Как говорят в рекламе, почувствуйте разницу. Откуда же эта разница (то есть избыточность) берется? B речевой аппарат поступает сигнал небольшого объема, а создается сигнал с большим объемом. Причинa этого - способ образования речевого сигнала.    Линейная модель речеобразования представляет речь как систему, состоящую из генератора сигнала возбуждения (генераторная функция) и линейной системы с медленно изменяющимися параметрами (фильтровой функции), которая им возбуждается. В такой модели не учитывается взаимное влияние голосовой щели и голосового тракта. Это не соответствует действительности, зато сильно упрощает анализ и синтез.Для экономичной передачи или хранения речи надо определить параметры генераторной и фильтровой функции. У генераторной функции изменяются частота и амплитуда основного тона (то есть высота и громкость голоса) и происходит смена вида функции (основной тон или шум), а у фильтровой функции происходит непрерывное изменение коэффициента передачи, проявляющееся в форме огибающей спектра. Для передачи этих параметров достаточно скорости передачи 1000 бит/с.    Для воссоздания речи необходимо создавать "несущую" (с помощью генераторов основного тона и шума) и возбуждать полученным сигналом фильтр с передаточной функцией, соответствующей огибающей спектра и изменяющейся во времени со скоростью произнесения звуков речи.    Эта идея была осуществлена в конце 30-х годов Дадли (Dudley). Он разработал устройство, которое преобразовывало речь в аналоговый сигнал с полосой частот шириной 300 Гц для передачи по каналу связи, т.е. с компрессией речи в 10 раз. Это устройство было названо вокодером (VOice - голос, CODER - кодировщик) и давало синтезированную речь низкого качества. За прошедшие 60 лет вокодерыстали вполне пригодными для коммерческой телефонии (рис. 4.).

Анализатор
А - анализатор спектра
Т-Ш - выделитель сигнала тон-шум
ВОТ - выделитель основного тона
УО - устройство объединения сигналов

Синтезатор
УР - устройство разъединения сигналов
С - синтезатор спектра
П - переключатель вида спектра
ГОТ - генератор основного тона
ГШ - генератор шума

Рис. 4. Схема вокодера

Принцип действия вокодера

Bокодеры можно разделить на два класса:

  •  речеэлементные;
  •  параметрические.

В первых при передаче распознаются произнесенные элементы речи (например, фонемы) и передаются только их номера. На приеме эти элементы создаются по правилам речеобразования или берутся из памяти устройства. Область применения фонемных вокодеров - линии командной связи, речевое управление и говорящие автоматы информационно-справочной службы. В таких вокодерах происходит скорее автоматическое распознавание слуховых образов нежели определение параметров речи.    В параметрических вокодерах из речевого сигнала выделяют два типа параметров и по этим параметрам на приеме синтезируют речь:

  •  параметры, характеризующие огибающую спектра речевого сигнала (фильтровую функцию);
  •  параметры, характеризующие источник речевых колебаний (генераторную функцию) - частота основного тона, ее изменение во времени, моменты появления и исчезновения основного тона, шумового сигнала.

Принципы построения вокодеров с линейным предсказанием

   Для прогноза текущего отсчета речевого сигнала можно использовать линейно взвешенную сумму предшествующих отсчетов, то есть предсказываемый отсчет

где ak - коэффициенты предсказания (k = 1, 2,..., P).Ошибка предсказания e (n) = s (n) - s (n).   Kоэффициенты предсказания должны быть такими, чтобы для временного окна длиной N отсчетов сумма

была минимальна. Задача минимизации приводит к системе линейных уравнений относительно ak. Коэффициенты уравнения оказываются равными значениям автокорреляционной функции отрезка речи. В липредерах сначала для каждого кадра длиной 10 - 20 мс вычисляются коэффициенты корреляции, а по ним находят коэффициенты предсказания (или коэффициенты частной корреляции, или коэффициенты отражения), которые передаются на приемную сторону вместе с информацией о функции возбуждения. Коэффициенты линейного предсказания (КЛП) обретают простой смысл. Передаточная функция фильтра, который имеет только полюсы

где p - порядок фильтра.

   Алгоритмы, которые используют коэффициенты частной корреляции (PARtial CORrelation), называются PARCOR. 

Все методы анализа речи предполагают достаточно медленное изменение свойств речевого сигнала во времени. Характеристики голосового тракта можно считать неизменными на интервале 10-20 мс, то есть параметры надо измерять с частотой порядка 1/20 мс = 50 Гц.    Передающая часть вокодера называется анализатором, приемная - синтезатором. B вокодеры обязательно входят два типа блоков: фильтровой и генераторный. Обычно для создания генераторной функции в синтезаторе используются генераторы основного тона (ГОТ) и шумового сигнала (ГШ) с переключателем тон-шум (П). В анализаторе, соответственно, есть выделители основного тона (ВОТ) и сигнала смены вида спектра (ТШ). Для выделения и воссоздания фильтровой функции нужны устройства анализа и синтеза спектра речевых сигналов.
    При вводе в канал сигнал-параметры должны быть объединены в один сигнал. При выводе этого сигнала его надо разделить на отдельные сигнал-параметры, что и выполняют соответствующие устройства.    При разработке первых вокодеров использовались аналоговые сигналы на всем протяжении тракта - от микрофона до телефона. В последние годы вокодеры стали создавать целиком на цифровой основе. Из речевого сигнала после его преобразования в цифровую форму (то есть дискретизации, квантования и кодирования) выделяются сигнал-параметры (также в цифровой форме) и вводятся в канал связи. На приеме по сигнал-параметрам синтезируется дискретный речевой сигнал, превращаемый затем в непрерывный.    Применение цифровых сигнальных процессоров (ЦСП) несет новые возможности: так, на основе ЦСП TMS 32020 фирмы Texas Instruments создан вокодер с линейным предсказанием речи (липредер) со скоростью передачи 2400 бит/с.

Виды вокодеров

По принципу определения параметров фильтровой функции речи различают вокодеры:

  •  полосные (канальные, channel);
  •  формантные;
  •  ортогональные;
  •  липредеры (с линейным предсказанием речи);
  •  гомоморфные.

В полосных вокодерах спектр речи делится на 7 - 20 полос (каналов) аналоговыми или цифровыми полосовыми фильтрами. Большее число каналов в вокодере дает большую натуральность и разборчивость. С каждого полосового фильтра сигнал поступает на детектор и фильтр низких частот с частотой среза 25 Гц. Таким образом, сигналы на выходе каждого канала изменяются с частотой менее 25 Гц. Их передача возможна в аналоговом или цифровом виде.
    В формантных вокодерах огибающая спектра речи описывается комбинацией формант (резонансных частот голосового тракта). Основные параметры формант - центральная частота, амплитуда и ширина.    В ортогональных вокодерах огибающая мгновенного спектра раскладывается в ряд по выбранной системе ортогональных базисных функций. Вычисленные коэффициенты этого разложения передаются на приемную сторону. Распространение получили гармонические вокодеры, использующие разложение в ряд Фурье [3].    Вокодеры c линейным предсказанием (Linear Prediction Coding, LPC) или липредеры основаны на оригинальном математическом аппарате.    Гомоморфная обработка позволяет разделить генераторную и фильтровую функции, образующие речевой сигнал.    Из-за сложности определения параметров генераторной функции появились полувокодеры (Voice Excited Vocoder, VEV), в которых вместо сигналов основного тона и тон-шума используется полоса речевого сигнала. Полоса частот до 800 - 1000 Гц кодируется АДИКМ, АДМ или с помощью линейного предсказания малого порядка, а в некоторых моделях передается в аналоговом виде.    Есть разные типы полувокодеров-липредеров:

  •  вокодеры VELP (Voice Excited Linear Prediction);
  •  вокодеры RELP (Residual Excited Linear Prediction).

Гомоморфные вокодеры

   Гомоморфная обработка разделяет речевой сигнал на генераторную и фильтровую функции. Для этого последовательность отсчетов речевого сигнала длиной около 40 мс взвешивается временным окном и подвергается прямому дискретному преобразованию Фурье (ДПФ). Затем находится логарифм модуля спектра, к нему применяется обратное ДПФ. Результат называется кепстром.
   По области 4 - 40 мс кепстра можно определить признак "тон-шум" и частоту основного тона. Если участок вокализованный, то в кепстре будет пик в точке, равной периоду основного тона.   В начале кепстра (0 - 4 мс) содержится информация об огибающей спектра речи. Чтобы ее получить, нужно обнулить в кепстре участок 4 - 40 мс и подвергнуть кепстр прямому ДПФ.
Вокодеры VELP используют голосовое возбуждение (и коэффициенты линейного предсказания, КЛП). В вокодерах RELP по исходному сигналу также вычисляются КЛП. Так как КЛП описывает фильтровую функцию, то сигнал ошибки предсказания (сигнал-остаток предсказания, prediction residual) содержит информацию о генераторной функции речи. Он и передается на приемную сторону (возможно его сжатие АДИКМ, АДМ или с помощью линейного предсказания малого порядка).    В последнее время все шире используются липредеры с кодовым возбуждением (Code Excited Linear Prediction, CELP). Такие вокодеры имеют на приемном и передающем концах кодовую книгу (codebook). Кодовая книга - это матрица, строки которой являются последовательностями чисел (отсчетов сигналов генераторных функций, то есть это сигналы возбуждения).    По исходному сигналу вычисляются КЛП. Затем на фильтр с найденными КЛП подаются по очереди все сигналы возбуждения из кодовой книги. По каждому сигналу возбуждения синтезируется речь. На приемную сторону передаются КЛП и номер того сигнала из кодовой книги, для которого разница между исходным и синтезированным сигналом минимальна.    В США приняты два федеральных стандарта на применение CELP:

  •  1015 (LPC-10E, 2400 бит/c);
  •  1016 (E-CELP, 4800 бит/c).

ITU (Международный союз электросвязи, МСЭ) разработал Рекомендацию G.728 на алгоритм LD-CELP (16 кбит/c).    В таблице 1 [6] приведены основные виды вокодеров и требуемая пропускная способность канала связи.Сегодня вокодеры применяют для кодирования телефонных сигналов в военных и коммерческих цифровых системах связи. Перспективно применение вокодеров для организации служебной телефонной связи со скоростью передачи данных 1200 - 2400 бит/с. Формантные и полосные вокодеры находят применение также при цифровой передаче телефонных сигналов по КВ-каналам радиосвязи.

Вид вокодера

Полоса пропускания канала связи в режиме передачи

аналоговом, Гц

цифровом, бит/с

Фонемный

-

75

Формантный

140

1 200

Полосный, ортогональный, липредер

400

2 400

Полувокодер

900

9 600

Таблица 1. Основные виды декодеров

Современные вокодеры обеспечивают хорошее качество речи при скорости передачи 4 800 - 2 400 бит/с и качество речи, пригодное для ведения служебных переговоров, при скорости передачи 1 200 бит/с.    В таблице 2 приведен краткий список вокодеров, которые производятся в настоящее время.Зачем платить такие большие деньги за то, чтобы услышать речь, уступающую в натуральности и разборчивости естественной? Дело в том, что вокодеры используют в основном не для уплотнения каналов связи, а для их защиты от прослушивания. Только преобразовав речь в цифровую форму и применив шифрование, можно гарантированно защититься от перехвата. Аналоговые устройства для защиты речевых каналов связи (скремблеры) дают лишь временную, не криптостойкую защиту речи, что бы ни говорили их производители

Метод адаптивной дифференциальной импульсно-кодовой модуляции (ADPCM)

Метод адаптивной дифференциальной импульсно-кодовой модуляции (adaptive differential pulse code modulation - ADPCM) принят в качестве стандарта в 1984 г. под названием G.726. Он воспроизводит речь почти с такой же субъективной оценкой качества, как и PCM, используя только 32 Кбит/с., и обеспечивает на порядок более высокую помехоустойчивость. Однако они теряют работоспособность при вероятности одиночной ошибки, составляющей около 5 x 10-3, и передаче пакетов ошибок малой длительности.

Метод основан на том, что в аналоговом сигнале, передающем речь, невозможны резкие скачки интенсивности. Поэтому если кодировать не саму амплитуду сигнала, а ее изменение по сравнению с предыдущим значением, то можно обойтись меньшим числом разрядов. В ADPCM изменение уровня сигнала кодируется четырехразрядным числом, при этом частота измерения амплитуды сигнала сохраняется неизменной. Таким образом, ADPCM снижает скорость битового потока вдвое путем обработки разности между двумя соседними отсчетами, а не самих отсчетов.

G.726 Адаптивная дифференциальная импульсно-кодовая модуляция (ADPCM). Передает не абсолютные значения при каждом отсчете, а их приращение относительно предыдущего. Позволяет снизить требуемую для передачи голоса скорость с 64 кбит/с до 24-48 кбит/с (в зависимости от того, насколько точно передается приращение). Приводит к снижению отношения сигнал/шум и менее точному воспроизведению оригинального сигнала. На слух это может быть незаметно.

Метод адаптивной дельта-модуляции

Среди кодеров формы сигнала первыми появились методы дельта-модуляции. Аналитически они являются предельными случаями дифференциальной ИКМ, но по ряду причин могут быть выделены в отдельный класс. Скорость передачи при дельта-модуляции соответствует частоте дискретизации (одноразрядное квантование); при скоростях 40-30 Кбит/с. ДМ обеспечивает более высокое качество восстановления, чем ИКМ. Дельта-модуляция обладает наилучшими параметрами помехоустойчивости среди всех методов кодирования. Соответствующие системы не теряют работоспособности при возникновении одиночных ошибок и их пакетов малой длительности.

PCM и ADPCM - методы кодирования волновой функции речевого сигнала. Это означает, что они рассматривают входной речевой сигнал как чисто аналоговый. Однако для получения высокого качества сигнала при скоростях ниже 32 Кбит/с такое кодирование неэффективно. Природа человеческой речи и ее восприятия должна быть учтена в алгоритме кодирования.

Кодировании с линейным предсказанием (LPC)

При кодировании с линейным предсказанием (linear predictive coding - LPC) моделируются различные параметры человеческой речи, которые передаются вместо отсчетов или их разности, требующих значительно большей пропускной способности канала. LPC работает с блоками отсчетов, а не с отдельными отсчетами, как PCM или ADPCM. Для каждого блока алгоритм LPC вычисляет и передает частоту основного тона, его амплитуду, флаг речевого или неречевого происхождения сигнала и другие параметры.

При таком подходе к кодированию речи, во-первых, возрастают требования к вычислительным мощностям специализированных процессоров, используемых для обработки сигнала, а во-вторых, увеличивается задержка при передаче, поскольку кодирование применяется не к отдельным значениям, а к некоторому их набору, который перед началом преобразования следует накопить в определенном буфере. Подчеркнем, что задержка в передаче речи при использовании этого метода связана не только с необходимостью обработки цифрового сигнала (эту задержку можно уменьшать, увеличивая мощность процессора), а непосредственно следует из характера метода сжатия.

Этот метод позволяет, вообще говоря, достигать очень больших степеней сжатия, которым соответствует полоса пропускания 2,4 или 4,8 Кбит/с, однако качество звука здесь сильно страдает. Поэтому в коммерческих приложениях он не используется, а применяется в основном для ведения служебных переговоров.

Более сложные алгоритмы на базе LPC комбинируют LPC с элементами кодирования звуковой волны. Эти алгоритмы используют замкнутый LPC-кодер (называемый также "анализ через синтез" - analysis-by-synthesis -AbS), в котором при передаче сигнала осуществляется оптимизация кода. Ее выполняет аппаратура передачи, которая находит наилучшую аппроксимацию каждого речевого сегмента. Закодировав сигнал, процессор пытается восстановить его форму и сличает результат с исходным сигналом, после чего начинает варьировать параметры кодировки, добиваясь наилучшего совпадения. Достигнув такого совпадения, аппаратура передает полученный код по линиям связи; на противоположном конце происходит восстановление звукового сигнала. Ясно, что для использования такого метода требуются еще более серьезные вычислительные мощности.

Кодирование CELP

Примеры стандартных замкнутых LPC-алгоритмов - это метод линейного предсказания с кодовым возбуждением (code-excited linear prediction - CELP), метод регулярного импульсного возбуждения (Regular Pulse Excitation - RPE), используемый в европейских сотовых системах на 13,2 Кбит/с и метод LD-CELP с низкой задержкой (low delay CELP). LD-CELP принят ITU в 1992 г. как стандарт кодирования речи G.728 на 16 Кбит/с. Алгоритм LD-CELP применяется к последовательности цифр, получаемых в результате аналого-цифрового преобразования голосового сигнала с 16-разрядным разрешением. Пять последовательных цифровых значений кодируются одним 10-битовным блоком - это и дает те самые 16 Кбит/с. Для применения этого метода требуются очень большие вычислительные мощности, в частности, для прямолинейной реализации G.728 необходим процессор с быстродействием 44 mips.

Широкое распространение для различных приложений получило и множество нестандартных методов кодирования. В частности варианты адаптивного кодирования с предсказанием (adaptive predictive coding - APC), разработанные в лабораториях компании Bell; метод линейного предсказания с векторным возбуждением (vector-sum-excited linear prediction - VSELP), предложенный фирмой Motorola в качестве стандарта для цифровых сотовых систем США, работающих на скорости 8 Кбит/с; метод линейного предсказания с предиктивным кодовым возбуждением (predictive code-excited linear prediction - PCELP), созданный DSP Group в 1992 г.

Эти высокоэффективные кодеры обеспечивают отличное качество звука при низких скоростях (2,4 - 8 Кбит/с). Для кодирования погрешности предсказания в них используются кодовые книги, состоящие из блоков с конечным числом символов. Перечисленные разновидности кодеров различаются способами формирования и хранения этих последовательностей. Чаще всего последовательность хранится в сжатом виде. Дополнительные буквы в названии кодера (LD, V и др.) указывают на способ реализации предсказателя, синтеза квантователя или кодовой книги.

G.729 Алгоритм "сжатия голоса" работающий на принципе кодирования ACELP - Algebraic Code Excided Linear Prediction. Т.е. вместо оцифрованного голоса передаются номера выборок из хранящейся в памяти "кодовой книги", где описаны типичные элементы человеческого голоса. Позволяет передавать голос через канал со скоростью 8 или 16 кбит/с.

Другие методы кодирования

Работа кодеков с многополосным кодированием (SubBand Coder) основана на различной чувствительности слуха к звукам, принадлежащим к разным частотным полосам. Это позволяет кодировать сигналы в полосах с разной точностью. Число полос может колебаться от 3 до 16.

В кодерах с ортогональным преобразованием скорость передачи снижается за счет грубого квантования спектральных составляющих, полученных разложением в ряд в каком-либо базисе.

Особенностью помехоустойчивости систем, основанных на последних двух методах, является то, что благодаря различной точности кодирования в полосах отсутствует пороговый переход к области неработоспособности.

Последние достижения. MP-MLQ

В марте 1995 г. Международный союз по электросвязи (International Telecommunications Union - ITU) выбрал метод сжатия речи для своих будущих стандартов в области мультимедиа и видеотелефонов, подключаемых к коммутируемым телефонным сетям. Стандарт сжатия G.723 частично базируется на новом методе сжатия речи (Multipulse Maximum Likelihood Quantization - MP-MLQ), разработанном израильской фирмой AudioCodes, создателем передовых речевых и факсимильных технологий, и ее корпоративным партнером - американской фирмой DSP Group.

Метод MP-MLQ относится к семейству алгоритмов AbS. Речевой кодер MP-MLQ использует LPC-анализатор 10-го порядка и работает на скоростях 6,4; 7,2 и 8,0 Кбит/с. Его структура поддерживает перепрограммирование "на лету" для одной или нескольких скоростей. Масштабируемость алгоритма MP-MLQ позволяет разрабатывать производные реализации для скоростей вплоть до 4,0 Кбит/с и более низких коммуникационных задержек (до 20 мс), осуществлять кодирование на нескольких скоростях и с переменной скоростью, выполнять многоканальную обработку (благодаря низкой вычислительной нагрузке - менее 10 MIPS) и достигать высокого качества на Кбит/с.

В отличие от других кодеров с низкими битовыми скоростями MP-MLQ обеспечивает минимальный уровень искажений при парном кодировании, когда речевой сигнал проходит через два или более последовательных цикла компрессии/декомпрессии. Эта особенность имеет практическое значение в приложениях, в которых сеанс речевой связи в цифровом канале коммутируется через центральную АТС. Тесты, проведенные в AT&T Labs и France Telecom (CNET), показали, что оценка качества сигнала по шкале MOS после двух кодирований в тандеме методом MP-MLQ составила 3,409, что лучше оценки G.726 ADPCM на 32 Кбит/с после четырех кодирований в тандеме (3,102) и почти эквивалентно после двух кодирований в тандеме (3,491).

Реализация метода МР-МLQ

Фирма RAD Data Communications - первый производитель оборудования, внедривший МР- МLQ в модуль сжатия речи мультиплексора Kilomux-2000. Модуль низкоскоростной передачи речи KVC.3 представляет собой двухканальную плату, поддерживающую скорости 4,8; 6,4; 7,2; 8,0 и 9,6 Кбит/с. Установив несколько плат KVC.3 в корпус мультиплексора Kilomux-2000, можно обеспечить одновременно до 13 телефонных соединений по одному каналу на 64 Кбит/с, что делает применение KVC.3 экономически выгодным решением для связи между офисами. При использовании совместно со спутниковым сетевым интерфейсом, входящим в номенклатуру мультиплексора Kilomux-2000, кодеры KVC.3 обеспечат высококачественную передачу речи и при этом эффективное использование дорогостоящих спутниковых каналов.

Мультиплексор Kilomux-2000 с 12 гнездами расширения может обслуживать магистральные линии, работающие со скоростями до 768 Кбит/с. Модель Kilomux-2004 работает с магистралью со скоростью до 381 Кбит/с.

RAD поставляет и интерфейсы для подключения модуля KVC.3 к общественным коммутируемым сетям (РВХ), в том числе один для цифровых сетей.

В планах фирмы выпуск модуля с компрессией по методу МР-МLQ для серии мультиплексорной Megamux, который поддерживает выделенные линии с шириной полосы до Т1 (1,544 Мбит/с) и Е1 (2,048 Мбит/с), а также соединения primary-rate для сетей ISDN.

Возникновение стандартов MPEG

  Активная разработка методов и стандартов сжатия видеоданных началась с появлением цифровых видеосистем. Ведь для качественной оцифровки телевизионного сигнала с граничной частотой 6 МГц необходимо делать как минимум 12 млн. отсчетов в секунду. Поэтому при восьмибитном кодировании сигнала создается поток 100-120 Мбит/с. Для компьютерных систем - это трудно перевариваемый поток (если учесть уровень компьютерной техники 80-х). Поэтому многие фирмы и организации взялись за разработку стандартов сжатия цифрового видео. Так были созданы и H.263, и M-JPEG, и многие другие. Но когда речь идет о cовременном цифровом телевидении, то здесь подразумевается стандарт MPEG-2, который позволяет при высоком коэффициенте сжатия передавать качественное изображение и звук.

 

  Стандарты MPEG созданы и продолжают создаваться одноименной организацией Motion Picture Expert Group (далее в тексте MPEG означает и название стандартов, и название организации). MPEG входит в подкомитет Международной организации по стандартизации (ISO). Эта группа, как и большинство других современных мировых институтов стандартизации, весьма виртуальна. Работу над стандартами проводят эксперты, находящиеся в самых разных странах, и повседневным средством общения служит электронная почта. Основные решения и постановка новых задач проводятся на заседаниях (уже реальных) MPEG, на которые эксперты собираются обычно три раза в год (иногда чаще).

 

  В 80-х годах шли активные дебаты по принятию стандарта аналогового телевидения высокой четкости (ТВЧ, HDTV), который, хотя и был принят, распространения не получил. Одна из главных причин этого заключалась в том, что разработчики не могли отказаться от совместимости с обычным телевидением и не хотели переходить к цифровым технологиям.

 

  Тем временем, интересы многих компаний стали сосредотачиваться вокруг цифровых видеотехнологий. И малоизвестный, но напористый итальянец по фамилии Черильоне убедил Хироси Ясуду, возглавлявшего тогда JPEG (Joint Photographic Experts Group, входящая в тот же подкомитет ISO, что и MPEG), помочь в создании группы, которая бы занималась разработкой стандартов сжатия подвижного изображения.

 

  JPEG к этому моменту уже приняла одноименный стандарт сжатия неподвижных изображений и собиралась распространить его на подвижные изображения. Сделать это предполагалось очевидным образом: сжимать "по JPEG" каждый отдельный кадр видео. Так появился стандарт M-JPEG (Motion JPEG). Но два его существенных недостатка - невысокий коэффициент сжатия (не более 40:1) и отсутствие стандарта для компрессии звука - не  дали ему получить широкое распространение.

 

  Итак, группа Черильони под эгидой ISO была сформирована в 1988 году. В 1990 году на нее была возложена официальная миссия разработки стандартов для кодирования подвижного видеоизображения и сопутствующей информации для записи и считывания с цифровых носителей. С этого же времени она получила название MPEG, в котором подчеркивались и общность, и противоположность с родственной JPEG. Отметим, что MPEG во многом опиралась на разработки JPEG. Так, метод кодирования I-кадров в MPEG-1 и 2 практически совпадает с методом сжатия JPEG. (Пояснения см. в пункте "Анатомия стандартов MPEG-1 и MPEG-2".)

 

  Почему же MPEG смогла победить конкурентов и утвердить свой стандарт? Ведь в то время кроме M-JPEG параллельно продвигались еще не менее интересные методы компрессии видео. Скорее всего, своей победой стандарты MPEG обязаны грамотной политике руководства группы и личным качествам самого Черильоне. Во-первых, MPEG сразу начала искать альянсы с крупнейшими мировыми компаниями, которые могли бы поддержать будущие стандарты. Во-вторых, MPEG взяла курс на создание независимых стандартов.

 

  На первый взгляд, эти два стремления несколько противоречат друг другу, но их сочетание дало свои плоды. Так, к моменту окончательного утверждения MPEG-1 ряд производителей уже предлагали на рынке программные и аппаратные средства для его реализации. Другой пример: уже в начале 1998 года японская Toshiba объявила о выпуске чипа-кодека для еще не утвержденного (!)  MPEG-4.

 

  Кстати, еще одним секретом успешной деятельности MPEG является строгое следование графикам работы над стандартом. Но вернемся к началу.

 

  В 1988 году молодая и немногочисленная группа экспертов взялась за разработку формата хранения видеоинформации на CD-ROM и ее воспроизведения со скоростью около 1,5 Мбит/c. Поддержку оказала голландская фирма Philips (создавшая ранее технологию цифровых оптических дисков), которая и впоследствии играла в деятельности MPEG немалую роль. Постепенно MPEG из небольшой группы экспертов стала влиятельной организацией, в которой были представлены интересы десятков компаний. Среди них - производители телевизоров, компьютеров и микросхем, телевизионные и телекоммуникационные компании. Принятие MPEG-1 прошло успешно. В 1996 году стандарт получил престижную премию "Эмми". В том же году в Китае было продано 2 млн. декодеров MPEG, в следующем - 4 миллиона.

 

  Вслед за MPEG-1 группа приступает к работе над MPEG-2, который задумывался как стандарт для передачи (а не хранения и воспроизведения, как MPEG-1) в цифровом виде телевизионного изображения. Примерно в это же время начинает прорабатываться и MPEG-3, который предназначался для кодирования сигналов HDTV. Позже он вошел в MPEG-2.

 

  MPEG-2 в основном сформировался в 1992-1993 годах. Очень важной оказалась победа, которую одержал MPEG-2 над разработкой, предложенной AT&T. По признанию экспертов, хотя качество варианта AT&T в чем-то даже превосходило MPEG-2, все-таки последний был более прост и дешев в реализации. Отчасти, победе группы MPEG сопутствовал тот факт, что некоторые ее члены участвовали и в проекте AT&T. Поэтому наиболее рациональные идеи американского проекта перекочевывали в MPEG. Если до 1994 года MPEG имела влияние в основном в Европе и Азии, то победа над AT&T, а также над интересными разработками отдельных изобретателей (Woo Paik из General Instrument, Jae Lim из Массачусетса) открыла для MPEG богатый американский рынок. Немаловажным фактором стало и удачное подключение MPEG-2 к созревавшей технологии DVD. Хотя весьма странным может показаться тот факт, что для кодирования звукового сопровождения в DVD-ROM предпочтение почему-то отдается Dolby AC-3 вместо популярного MPEG Layer 3.

Анатомия стандартов MPEG1 и MPEG2

   Исторически MPEG-1 - одна из первых удачных попыток создания стандарта сжатия видеоданных. Он используется до сих пор, а появившаяся спецификация Layer 3 сжатия звукового сигнала - сегодня один из самых популярных стандартов в Интернете.    Именно в MPEG-1 были впервые использованы 12-кадровые группы GOP. Только Y-слой изображения, в отличие от U, V-слоев, разбивался на блоки не 8х8 (как в MPEG-2), а 16х16 точек. (Пояснения смотрите ниже.) Однако и те, и другие блоки подвергались дискретному косинус-преобразованию (ДКП) и квантованию. Вообще, ДКП, несмотря на то, что использовалось еще в системах связи американской армии во время вьетнамской войны, переживало в середине 80-х подлинный бум. Такая же судьба позже постигла и вейвлет-преобразование, так что его даже предполагалось использовать в MPEG-2. Однако в MPEG-2 сохранили ДКП.    MPEG-1 обеспечивал разрешение 352х240 точек, что по качеству близко к VHS, используемому в бытовой видеотехнике. Таким образом, при переходе от MPEG-1 к MPEG-2 надо было не просто повысить качество изображения. (Хотя в первую очередь MPEG-2  должен был обеспечить разрешение по крайней мере 720х486 точек.)  MPEG-1 работал с идеальным цифровым видеопотоком (стандарт цифрового телевидения CCIR-601). А для использования в цифровом телевидении требовалось кодировать чересстрочный сигнал, который использовался почти во всех телевизионных студиях. Это означает, что сначала приходят нечетные строки одного кадра, а затем - четные. Как кодировать такое изображение?    Можно совместить в один кадр четные и нечетные строки соседних полукадров, но для подвижного изображения идеально их совместить невозможно. Более того, нечетные строки могут принадлежать одному кадру (в смысле съемки), а четные - другому. Другой путь - кодировать отдельно поля четных и нечетных строк - также неприемлем: добиться высокой степени сжатия будет невозможно. Поэтому разработчики MPEG-2 все-таки создали адаптивный к движению объектов метод построения кадров из полей (так называемая компенсация движения).    Как и при разработке MPEG-1, при создании MPEG-2 большое внимание уделялось преодолению полувекового разрыва между европейской (625 строк, 50 полей [полукадров] в секунду) и американской (525 строк, 60 полей в секунду) телевизионными системами. MPEG-2 не только успешно интегрирует любые системы телевидения  (в том числе и  HDTV - цифровое телевидение высокой четкости), но и преодолевает разрыв между принципами телевизионного и компьютерного изображения. А это не меньшая пропасть, чем между NTSC и PAL. Главное отличие в принципе развертки: чересстрочная в телевизоре - и прогрессивная в мониторе. Плюс такие мелочи, как разные методы кодирования цвета и разная геометрическая форма пикселя.    Не углубляясь в проблемы перехода от аналогового телевизионного сигнала к цифровому (над чем изрядно пришлось потрудиться экспертам MPEG), будем считать, что на вход MPEG-кодера поступает цифровой поток цветных кадров. Его скорость - 30 или 25 кадров в cекунду для США и Европы/Азии соответственно. Основная идея сжатия MPEG состоит в том, что из всего потока полностью передаются только избранные (опорные) кадры, для остальных же передаются их изменения по отношению к опорным.    На самом деле в подвижном изображении от кадра к кадру в большинстве случаев меняется только его часть. Например, при выступлении диктора в новостях меняется только его мимика. Полная же смена кадра, когда очередной кадр нельзя восстановить как изменение предыдущего (в этом случае проще передать сам кадр), происходит относительно редко. Например, в американских фильмах это обычно 4-5 секунд, в европейских (и особенно советских) - значительно больше.    По этой причине в MPEG-2 определено три типа кадров:

I-кадры (intra frames);

P-кадры (predicted frames);

B-кадры (bi-directional frames).

   I-кадры несут полноценное неподвижное изображение и вдобавок используются для построения P- и B-кадров. P-кадры, то есть "предсказуемые", строятся на базе последнего (с точки зрения приемника) принятого I- или P-кадра. Правда, если он сильно от него отличается (например, произошла смена плана), то P-кадр кодируется как I-кадр.    Наиболее сложно восстанавливаются B-кадры или "интерполируемые". Такой кадр может строиться либо как продолжение предыдущего I(P)-кадра, либо как предшественник следующего за ним I(P)-кадра, либо как интерполяция между обоими. Опять же, если B-кадр значительно отличается и от первого, и от второго, то он кодируется как I-кадр.    Все типы кадров группируются в последовательности, показанной на рис. 1. Группа из 12 кадров образует так называемую GOP (Group of Pictures). Таким образом, при частоте 25 кадров в секунду, новый I-кадр приходит максимум через 12х(1/25)=0,48 секунды. Вместе с ним восстанавливается полная (в известном смысле) идентичность передаваемого и принимаемого изображения). В связи с тем, что при декодировании для получения B-кадров необходимо уже иметь следующий за ним P-кадр, то при передаче последовательность кадров должна быть такой, как показано на рис. 1.

    Рис.1. Типы кадров в MPEG-2.

   Рассмотрим более подробно, как кодируются отдельные кадры (рис. 2). Для кодирования цветного изображения используется схема YUV, применяемая в обычном телевещании. То есть изображение раскладывается не по трем каналам цветности (схема RGB), а по двум каналам цветности (U, V) и по каналу яркости (Y).

                         Рис.2. Последовательность преобразований в MPEG-2.  

   Изображение в канале яркости - это, по существу, черно-белое изображение. Подмечено, что одна из особенностей восприятия изображения человеческим глазом состоит в том, что он обладает большим разрешением (рис. 3) по каналу яркости (Y), чем по каналам цветности (U, V). Поэтому, расслаивая цветной кадр на эти три составляющие, мы можем подвергнуть слои U и V большему сжатию, чем слой Y. Как было сказано в начале, этот принцип был использован еще при создании цветного аналогового телевидения, где U, V передаются не одновременно, а поочередно.

                      Рис.3. Разрешающая способность человеческого глаза.

   I-кадр кодируется как статическое изображение следующим образом. Каждый слой кадра разбивается на блоки размером 8х8 точек и повергается дискретному косинус-преобразованию (ДКП, DCT). ДКП является полностью обратимым преобразованием. По сути ДКП - это частный случай преобразования Фурье для
четной функции, когда функция раскладывается только на косинусные гармоники.    Итак, при ДКП вместо значения пикселя (то есть уровня цветности и яркости) в ячейке блока ставится коэффициент ДКП (рис. 4). То есть блок преобразуется в свой двумерный спектр. Как правило, энергетический спектр изображения сосредотачивается в низкочастотных гармониках, поэтому коэффициенты, расположенные ближе к верхнему левому углу, имеют большие значения, чем остальные. Чем меньше соседние пиксели отличаются друг от друга в исходном блоке, тем ближе к нулю значения большинства коэффициентов ДКП.
                             Рис.4. Дискретное косинус-преобразование (ДКП).

   Для пикселей монотонного изображения коэффициенты ДКП равны нулю, за исключением коэффициента в левом верхнем углу, который задает интенсивность изображения.   Полученные коэффициенты квантуются (то есть округляются до некоторой степени 2). Главная задача при этом - увеличить количество нулевых коэффициентов. По сути отбрасываются высокочастотные гармоники. Как показывает опыт, обычно это практически не влияет на качество изображения.    Полученный набор двоичных векторов (коэффициентов) сжимается известным кодом Хаффмана. Так формируется сжатый  I-кадр, который с известной потерей качества можно восстановить независимо от других кадров.    P- и B-кадры кодируются с учетом их отличия от опорных  I- и P-кадров. Поэтому они поддаются более сильному сжатию, чем  I-кадры.    При кодировании P-кадра (B-кадры кодируются практически аналогичным образом), он также разбивается на блоки 8х8 и сравнивается с исходным кадром (будем считать, что это  I-кадр, хотя может быть и предшествующий P-кадр). Если некоторый блок в кодируемом P-кадре совпадает с аналогичным блоком в опорном кадре, то достаточно указать, что он тот же самый. Другим случаем является нахождение точно такого же блока в опорном  I-кадре, но в другой позиции, поэтому вместо блока P-кадра можно указать лишь ссылку на другой блок  I-кадра в виде вектора смещения. Остальные блоки кодируются так же, как в случае  I-кадра.    Заметим, что если в подвижном изображении часть объектов будет двигаться поступательно (а это бывает часто), то несколько блоков будут закодированы одним и тем же вектором смещения. При последующем сжатии по методу Хаффмана это даст дополнительное увеличение степени компрессии P-кадра.    Для кодирования звукового сопровождения может использоваться несколько методов. Это MPEG Layer 3 (наследство MPEG-1), MPEG AAC или Dolby AC-3. Основная идея сжатия, по крайней мере, в MPEG Layer 3, построена на упрощении формы звукового сигнала, которое производится с учетом свойств человеческого слуха и практически не влияет на качество закодированного звука. Это позволяет при потоке оцифрованного и сжатого сигнала 128 кбит/с получить качество звука, близкое к CD Audio.    Надо только добавить, что в MPEG-2 предусмотрено использование не одного (как в MPEG-1), а нескольких звуковых сигналов. Благодаря этому возможно создание эффектов объемного звучания, а также многоязычного сопровождения фильмов.   Если заглянуть более подробно в MPEG-2, то оказывается, что это целое семейство стандартов. Например, MPEG-2 позволяет использовать в качестве исходных телевизионные сигналы разных систем. Для этого в стандарте введены понятия уровней (level) и профилей (profile).

 

 Число отсчетов 
в строке 

 Число строк  в  кадре 

 Число кадров в секунду 

 Максимальный поток, Mбит/c

высокий (HL)

          1920

          1152

            60

            80 
(100 для 422P)

высокий 1440 
(H1440)

1440

1152

60

80

главный (ML)

720

576

30

15 
(20 для
422P)

низкий (LL)

352

288

30

4

                                   Табл. 1. Характеристики уровней MPEG-2.

     Профиль определяет набор операций по сжатию данных. Различают шесть профилей:

1. Профессиональный (4:2:2 profile, 422P) - высокий кодированием 4:2:2;

2. Высокий (high profile, HP) - масштабируемый пространственно и по отношению сигнал/шум;   3. Пространственно масштабируемый (spatially scalable profile);

4. Масштабируемый по отношению сигнал/шум (SNR scalable profile);

5. Главный (main profile, MP) - без масштабирования;

6. Простой (simple profile, SP) - без B-кадров.

Для каждого из профилей определено до пяти наборов операций. Все профили, кроме профессионального, используют кодирование сигналов цветности по схеме 4:2:0, при котором число отсчетов сигналов U, V по сравнению с сигналом яркости (Y) уменьшено в два раза по вертикальному и в два раза по горизонтальному направлениям. Лишь в профессиональном профиле используется схема 4:2:2, где число отсчетов сигналов цветности в два раза реже, чем для яркости только в горизонтальном направлении.    Кроме профилей, определены четыре уровня: высокий (HL); высокий 1440 (H1440); главный (ML);  низкий (LL).    Каждый уровень соответствует тому или иному классу телевизионных систем. Например, уровни HL и H1440 предусмотрены для HDTV. Уровень ML соответствует обычному телевидению, а LL так называемому телевидению ограниченной четкости.

 

 Simple profile

 Main profile

 SNR scalable 
 profile

 Spatially 
scalable profile

 High rofile 

 4:2:2 Profile

HL

 

     x

 

 

    x

 

H1440

 

     x

 

      x

    x

 

ML

     x

     x

      x

 

    x

    x

LL

 

     x

      x

 

 

 

                                           Табл. 2. Профили и уровни MPEG-2.
 
   MPEG-2 предусматривает ограниченное число вариантов профиль-уровень (таблица 2), всего их 12. Каждый вариант обозначается сокращением типа MP@ML (главный профиль, главный уровень). Вариант 422P@ML, например, удовлетворяет требованиям к системам доставки сигнала на телецентры и стал основой принятого в 1996 году цифрового телевещания.    Вариант профиль-уровень является основной характеристикой конкретного декодера. Все декодеры MPEG-2 должны быть совместимы вверх, то есть декодер должен декодировать не только "родной" поток, но все потоки с меньшим уровнем и/или профилем.    MPEG-2 включает синхронизацию изображения, передачу сопровождающей текстовой информации, помехоустойчивое кодирование, защиту телепрограмм от нелегального просмотра и др. Благодаря этому MPEG-2 в первую очередь стал активно использоваться в спутниковом телевидении.

Дискретизация сигнала во времени

В процессе формирования АИМ сигнала осуществляется дискретизация непрерывного (аналогового) сигнала во времени в соответствии с известной теоремой дискретизации (теоремой В.А.Котельникова): любой непрерывный сигнал, ограниченный по спектру верхней частотой FВ полностью определяется последовательностью своих дискретных отсчетов, взятых через промежуток времени Tд=1/2 FВ, называемый периодом дискретизации. В соответствии с им частота дискретизации, т.е. следования дискретных отсчетов, выбирается из условия FД³ 2FВ.

Поскольку все реально существующие непрерывные сигналы связи представляют собой случайные процессы с бесконечно широким спектром, причем основная энергия сосредоточена в относительно узкой полосе частот, перед дискретизацией необходимо с помощью фильтра нижних частот ограничить спектр сигнала некоторой частотой FВ. Для телефонных сигналов необходимо использовать ФНЧ с частотой среза FВ=3,4 кГц. Частота дискретизации для телефонных сигналов выбрана равной 8 кГц.

Устройство, выполняющие дискретизацию во времени, называют устройством выборки и хранения (УВХ) (Рис. 8.21). УВХ могут выпускаться в интегральном исполнении. Вид сигналов в точках 1, 2 и 3 УВХ показан, соответственно, на Рис. 8.22, Рис. 8.23 и Рис. 8.24.

Рис. 8.21. Устройство выборки и хранения

Рис. 8.22. Аналоговый сигнал

Рис. 8.23. Сигнал АИМ1

Рис. 8.24. Сигнал АИМ2

Квантование мгновенных значений сигнала

В процессе квантования по уровню значение каждого АИМ-отсчета заменяется ближайшим разрешенным значением.

Характеристиками квантующего устройства являются следующие:

  •  число уровней квантования NКВ;
  •  шаг квантования d - разность между двумя соседними разрешенными уровнями;
  •  напряжение ограничения UОГР - максимальное значение амплитуды отсчета, подвергаемого квантованию.

Если d =const, то квантование называют равномерным. Амплитудная характеристика равномерного квантователя показана на Рис. 8.25.

Рис. 8.25. Амплитудная характеристика равномерного квантователя

Ошибка квантования - разность между истинным значением отсчета и его квантованным значением. При равномерном квантовании величина ошибки квантования не превышает половины шага квантования.

При квантовании возникает так называемый шум квантования, мощность которого определяется выражением PШ.КВ=d 2/12. Защищенность от шумов квантования определяется как
А
З.КВ=10lg(PС/PШ.КВ).

Если входное напряжение выше порогового, на выходе квантователя формируются отсчеты с амплитудой UОГР - такой режим работы квантователя называется перегрузкой. При этом возникают шумы ограничения, мощность которых значительно превышает мощность шумов квантования. Необходимо применять специальные меры, предотвращающие перегрузку квантователя.

Недостатком равномерного квантования является меньшая защищенность от шумов квантования малых уровней сигнала.

Для обеспечения АЗ.КВ не менее 30 дБ во всем динамическом диапазоне речевого сигнала требуется 212=4096 уровней квантования.

Большое число разрядов в коде (m=12) при равномерном квантовании приводит к усложнению аппаратуры и неоправданному увеличению тактовой частоты. Устранить указанный существенный недостаток можно, осуществляя неравномерное квантование, которое используется в современных ЦСП. Сущность неравномерного квантования заключается в следующем. Для малых значений сигналов шаг квантования выбирается минимальным и постепенно увеличивается, достигая максимального для больших значений сигналов. Амплитудная характеристика неравномерного квантователя показана на Рис. 8.26.

Рис. 8.26. Амплитудная характеристика неравномерного квантователя

При этом для слабых сигналов РШ.КВ уменьшается, а для сильных - возрастает, что приводит к увеличению АЗ.КВ для слабых сигналов и снижению АЗ.КВ - для сильных, которые имели большой запас по помехозащищенности. В результате удается снизить разрядность кода до m=8 (NКВ=256), обеспечив при этом выполнение требований к защищенности от шумов квантования в широком динамическом диапазоне сигнала DС, составляющем около 40 дБ. Таким образом происходит выравнивание АЗ.КВ в широком диапазоне изменения уровней сигнала.

Эффект неравномерного квантования может быть получен с помощью сжатия динамического диапазона сигнала с последующим равномерным квантованием. Сжатие динамического диапазона сигнала осуществляется с помощью компрессора, обладающего нелинейной амплитудной характеристикой. Чем большей нелинейностью обладает компрессор, тем больший выигрыш может быть получен для слабых сигналов.

Для восстановления исходного динамического диапазона сигнала на приеме необходимо установить экспандер (расширитель), амплитудная характеристика которого должна быть обратной амплитудной характеристике компрессора. Таким образом, результирующая (суммарная) амплитудная характеристика цепи компрессор-экспандер (компандер), должна быть линейной во избежание нелинейных искажений передаваемых сигналов.

В современных ЦСП находят применение две логарифмические характеристики компандирования (типов А и m ), которые удобно изображать и описывать в нормированном виде у=f(х), где у = UВЫХ/UОГР, x = UВХ/UОГР:

где А=87,6 и m =255 - параметры компрессии.

Характеристика компандирования типа А используется в ЦСП, соответствующих европейской ПЦИ, а типа m - в ЦСП, соответствующих североамериканской ПЦИ.

Кодирование и декодирование сигналов

В процессе кодирования амплитуда каждого квантованного по уровню АИМ отсчета представляется в виде двоичной последовательности, содержащей m символов.

Как говорилось выше, для качественной передачи телефонного сигнала при равномерном и неравномерном квантовании нужно иметь соответственно 4096 и 256 уровней квантования, т.е. необходимо использовать 12- и 8-разрядный двоичный код.

Линейным кодированием называется кодирование равномерно квантованного сигнала, а нелинейным - неравномерно квантованного сигнала.

Код, формируемый в кодере, называется параллельным, если импульсные сигналы (1 и 0), входящие в состав m-разрядной кодовой группы, появляются на разных выходах кодера одновременно, причем каждому выходу кодера соответствует сигнал определенного разряда. Код называется последовательным, если все сигналы, входящие в состав m-разрядной кодовой группы, появляются на одном выходе кодера поочередно со сдвигом по времени (обычно начиная со старшего по весу разряда). Параллельный код может преобразовываться в последовательный и наоборот.

Часто функции квантования и кодирования (соответственно декодирования и деквантования) выполняет одно устройство.

При кодировании с неравномерной шкалой квантования могут использоваться следующие способы:

  •  аналоговое компандирование, характеризующееся компрессией (сжатием) динамического диапазона сигнала перед линейным кодированием, и экспандированием (расширением) динамического диапазона сигнала после линейного декодирования;
  •  нелинейное кодирование, характеризующееся кодированием сигнала в нелинейных кодерах, сочетающих функции аналого-цифрового преобразования и компрессора;
  •  цифровое компандирование, характеризующееся кодированием сигнала в линейном кодере с большим числом разрядов с последующей нелинейной цифровой обработкой результата кодирования.

На практике наиболее часто используется нелинейное кодирование.

При частоте дискретизации FД=8кГц (TД=125 мкс) и разрядности кода m=8 получаем скорость передачи сформированного ИКМ-сигнала 64 кбит/с, которая и является скоростью основного цифрового канала (ОЦК). Преобразование аналогового сигнала в сигнал ИКМ стандартизировано МСЭ-Т Рекомендацией G-711.

Устройства, в целом выполняющие преобразования аналоговых сигналов в цифровые и обратно, называются, соответственно, аналого-цифровыми (АЦП) и цифро-аналоговыми преобразователями (ЦАП).

Примеры построения ЦАП и АЦП приведены на Рис. 8.27 и Рис. 8.28 соответственно.

Рис. 8.27. Структурная схема ЦАП

Рис. 8.28. Структурная схема АЦП

Методы разностного квантования аналоговых сигналов

Между соседними отсчетами речевого сигнала имеется значительная корреляция, которая слабо убывает по мере увеличения интервала между отсчетами. Это означает, что речевой сигнал изменяется медленно и разность между соседними отсчетами будет иметь меньшую дисперсию, чем исходный сигнал, что позволяет применять методы разностного квантования речевого сигнала (Рис. 8.29), где z - входной сигнал; - оценка предсказанного значения входного сигнала; z - квантованный входной сигнал; d - ошибка предсказания; d - квантованная ошибка предсказания; e - ошибка квантования;

; . Учитывая, что и получим

Линейная дельта-модуляция (Рис. 8.30) использует одноразрядный (двухуровневый) квантователь и предсказатель 1 порядка .

При этом входной сигнал квантователя имеет вид .

Восстановление аналогового сигнала из сигнала линейной ДМ осуществляется суммированием шага квантования.

Линейная ДМ технически реализуется относительно просто, но обладает рядом недостатков:

  •  перегрузка по крутизне;
  •  шум дробления (шум незанятого канала).

Кроме того, для обеспечения приемлемого качества восстановления речевого сигнала требуется высокая скорость преобразования (передачи) - порядка 200 кбит/с.

Адаптивная ДМ. Шаг квантования меняется в зависимости от крутизны исходного сигнала от минимального до максимального значения. Возможны различные схемы (алгоритмы) адаптивной модуляции. Отслеживается выходной поток квантователя - при чередовании 0 и 1 шаг уменьшается, при последовательных 0 или 1 шаг увеличивается. Данный вид модуляции не получил широкого применения.

Рис. 8.29. Структурная схема кодера разностного квантования

Рис. 8.30. Линейная дельта-модуляция: аналоговый сигнал (кривая 1) и сигнал квантователя линейной ДМ (кривая 2)

Дальнейшим развитием систем разностного квантования является адаптивная дифференциальная ИКМ. Методы адаптации распространяются как на квантователь, так и на предсказатель. Осуществляется передача цифровых представлений адаптивного шага и коэффициентов предсказателя. Удовлетворительные результаты при скорости передачи 32 и 24 кбит/с. МСЭ-Т стандартизировал данный вид модуляции в Рекомендации G.726 для скорости передачи 32 кбит/с.

71


 

А также другие работы, которые могут Вас заинтересовать

49287. Привод к кормораздаточному цепному транспортёру 1.53 MB
  Данный курсовой проект заключается в проектировании привода к транспортеру. И состоит из: подбора двигателя, который способен приводить в движение весь механизм; подбора муфты; разработки редуктора (определение частоты вращения валов, крутящего момента на валах, мощности на валах, расчёт необходимых передаточных чисел, проектирование зубчатых и гибких передач, и проверка их на прочность, а так же расчёт корпуса редуктора).
49292. Составление математической модели турбокомпрессора по заданным расходным характеристикам 149.54 KB
  В качестве недостатка таких методов можно привести пример когда для вновь создаваемого или форсируемого двигателя основной технической проблемой становится к примеру выбор параметров турбокомпрессора или топливного насоса высокого давления ТНВД. Применительно к турбокомпрессорам это могут быть расходные характеристики которые широко распространяются их производителями с целью увеличения рынка сбыта. 1 составить математическую модель турбокомпрессора.
49293. Учет заработной платы сотрудников предприятия 354.85 KB
  Задача «Учет заработной платы сотрудников предприятия» решается с целью получения сведений о средней и суммарной заработной плате каждого сотрудника с начала года до указанного месяца, упорядоченные по алфавиту.