21734

Обработка видеоизображений

Лекция

Коммуникация, связь, радиоэлектроника и цифровые приборы

Стандарты кодеков изображений MPEG. Более совершенные устройства позволяют записывать в реальном времени последовательность видеокадров выполняя их сжатие методами MJPEG DVI или INDEO MPEGкодирование требует слишком больших ресурсов для выполнения преобразования в реальном времени. MPEG ряд кодеков MPEG1 MPEG2 MPEG4 MPEG7. Стандарты кодеков изображений MPEG.

Русский

2013-08-03

128.5 KB

17 чел.

Лекция 4. Обработка видеоизображений

Вопросы:

  1.  Принципы передачи цветных телевизионных изображений.
  2.  Объединение компьютерной графики и телевизионного изображения.
  3.  Стандарты кодеков изображений MPEG.

Литература: 1. Гук. М. Аппаратные средства IBM PC. Питер, 2005, с. 487-498.

  1.  Принципы передачи цветных телевизионных изображений.

Растровая система изображений основана на представлении изображения в телевидении. Изображение в телевидении получается с помощью широкополосной обработки КЗС – сигналов. Однако передавать эти сигналы по радиоканалам в таком виде технически невозможно. Кроме того, телевизионный сигнал должен быть совместим и с черно-белыми телеприемниками. Поэтому в телевидении сигналы трех первичных цветов К, З, С проходят через преобразователь координат, на выходе которого получают сигнал Y, несущий информацию о яркости точек (luminance), и два цветоразностных сигнала U и V, несущих информацию о цвете (chrominance) — о соотношениях яркостей красного и синего цвета относительно зеленого. Зеленый выбран основным, поскольку зрение людей к нему наиболее чувствительно. Далее, эти сигналы пердаются по телевизионному тракту до телеприемника разными путями в зависимости от используемого вещательного стандарта. Сигнал Y всегда передается на основной (несущей) частоте телевизионного канала, цветоразностные сигналы, специальным образом закодированные, передаются на поднесущей частоте канала. Потеря цветоразностного сигнала приведет к тому, что принятое изображение оказывается черно-белым. Поскольку проблема полосы пропускания видеотракта стоит остро, во всех вещательных системах принята чересстрочная развертка.

В первой системе цветного телевещания — NTSC принята частота кадров 30 Гц (частота полей — 60 Гц), а количество строк — 525, из которых видимых — 480. При полосе канала яркости в 4,5 МГц в строке может быть различимо до 640 пикселов (вот откуда формат 640 х 480). Однако для передачи цветоразностных сигналов используется поднесущая частота 3,58 МГц, и горизонтальное разрешение снижается до 400-450 пикселов. Реально же домашний телеприемник обеспечивает примерно половину этого разрешения. Это разрешение лишь по яркостному каналу. Цветоразностная информация (два сигнала) втискивается в подканал с поднесущей 3,58 МГц, да еще для экономии полосы, оставляемой яркостному каналу, после модуляции подавляют саму поднесущую и нижнюю часть спектра сигнала. Так что цветовые сигналы после таких преобразований, передачи по радиоканалу и обратного восстановления в телеприемнике поступят на входы видеоусилителей К, З, С с существенно урезанной, по сравнению даже с яркостным каналом, полосой частот. Видеосигнал, состоящий из яркостной составляющей и поднесущей, модулированной цветоразностными сигналами, называется композитным (Composite Video). Поскольку наибольшие потери информации цветоразностного сигнала происходят при модуляции и демодуляции его поднесущей, лучшее качество передачи изображения даст сигнал, взятый сразу после цветоразностного преобразователя на приемной стороне. Интерфейс S-Video (Separate Video) использует раздельные сигнальные линии для яркостного канала (Y) и модулированного сигнала цветности (С). Стандартный 4-контактный разъем S-Video типа mini-DIN используется как интерфейс высококачественных видеосистем, его синонимами являются и названия S-VHS и Y/C. Наивысшее качество передачи обеспечивает профессиональный (студийный) интерфейс YUV (professional video) на трех сигнальных линиях: здесь цветоразностные сигналы U и V передаются в немодулированном виде.

Кроме стандарта NTSC существуют еще два популярных в мире стандарта: PAL и SECAM.

В стандарте PAL фаза одного из цветоразностных сигналов (К-Y) меняется от строки к строке, что и дало название этому методу (Phase Alternating Line). Такое решение позволило повысить стабильность декодирования. Для увеличения горизонтального разрешения поднесущая частота цветоразностного сигнала повышена до 4,43 МГц. Частота кадров — 25 Гц (при частоте полей 50 Гц), количество строк — 625. Стандарт PAL обеспечивает разрешение 800 х 600. В варианте PAL-M принят формат кадра NTSC (60 Гц и 525 строк), а в PAL-N при 625 строках (50 Гц) вернулись к поднесущей 3,58 МГц.

SECAM - система французского происхождения. В этой системе вместо квадратурной модуляции поднесущей применены две поднесущие цветоразностных сигналов с частотной модуляцией. Частота кадров — 25 Гц (при частоте полей 50 Гц), количество строк — 625.

Говоря о телевизионных стандартах, не следует забывать и о канале звукового сопровождения. Во всех этих системах для звука используется частотная модуляция дополнительной поднесущей частоты

6,5 МГц для SECAM;

5,5 МГц для PAL (но иногда и 6,5 МГц);

4,5 МГц для NTSC и PAL-M;

может встречаться и 6 МГц..

Все перечисленные системы в цветном режиме между собой несовместимы, хотя для них и существуют устройства-конверторы. Устройства обработки видеосигналов в ПК могут поддерживать все системы или только некоторые из них.

  1.  Объединение компьютерной графики и телевизионного изображения.

Вывод компьютерной графики на экран обычного телевизора представляет интерес как средство презентаций. Кроме того, транслировать один и тот же сигнал на несколько телевизоров проще, чем на несколько компьютерных мониторов. Ряд моделей современных графических карт имеют выход телевизионного сигнала, причем независимый от выхода на основной монитор. Есть и преобразователи форматов (например, конвертор VGA-TV) в виде отдельных внешних устройств со стандартным интерфейсом компьютерного монитора на входе и каким-либо телевизионным сигналом на выходе. В простейшем варианте конвертор только преобразует сигналы из КЗС в один из интерфейсов телеприемника, но при этом требуется установка разрешения и частот синхронизации графического адаптера, совпадающих со стандартом телеприемника. Для ПК эти ограничения малоприятны, а иногда и невыполнимы.

Более сложные конверторы имеют собственную буферную память, которая заполняется вновь оцифрованным видеосигналом, снятым с выхода графического адаптера. На телевизионный выход информация из буфера выдается уже с телевизионной частотой. Буфер может хранить одну, несколько или все строки экрана. От этого зависят ограничения на режим разрешения и соотношения частот регенерации графического адаптера и телевизионного монитора (в последнем случае они вообще могут быть несвязанными). Естественно, эти варианты сильно отличаются по сложности и цене (конвертор с полноэкранным буфером самый дорогой). Однако когда графический адаптер выводит движущееся изображение, смена которого привязана к кадровой синхронизации, при несовпадении кадровых частот на телевизионном экране движение будет искажаться. Общей проблемой конверторов является необходимость борьбы с мерцанием (flickering): поскольку в телеприемниках используется чересстрочная развертка, горизонтальная полоса шириной в пиксел будет отображаться с частотой 25 или 30 Гц, что улавливается глазом.

Возможны и варианты внутренних адаптеров (карт расширения), подключаемых к шине расширения ПК и внутреннему разъему графической карты (VFC или VAFC). Некоторые модели конверторов позволяют накладывать графическое изображение на внешний видеосигнал (например, для создания титров). Ввиду ограниченной горизонтальной разрешающей способности телеприемников (полоса пропускания шире 5 МГц для телевизора как такового бессмысленна), возможность замены монитора телевизором для регулярной работы сомнительна. В стандарте NTSC обеспечивается разрешение 640 х 480, в PAL и SECAM — 800 х 600. Однако такое разрешение реально достижимо только при использовании интерфейса S-Video. Композитный сигнал, как было сказано выше, не обеспечивает столь высокого разрешения. Выход телевизионного сигнала имели адаптеры CGA и EGA, с приходом VGA этот интерфейс на графических картах применять перестали. Однако на новом витке развития техники об интерфейсе с телевизионным приемником снова вспомнили. Microsoft рекомендует устанавливать на новых графических картах кроме стандартного интерфейса VGA (RGB-Analog) выход композитного сигнала и S-Video. Более того, рекомендуется предусмотреть возможность одновременной работы VGA-монитора и TV-приемника, что не так-то просто обеспечить из-за различия параметров синхронизации.

Гораздо чаще используют обратное «скрещивание» — вывод видеоизображения на экран компьютерного монитора. Видеоизображение выводится в окно, занимающее весь экран или его часть. Поскольку вывод видео перекрывает часть графического изображения, такой способ вывода называют видеооверлеем (Video Overlay), а платы, обеспечивающие данный режим, называют видеооверлепными (overlay board). Эти платы позволяют изменять размер окна видео так же, как и размер любого окна в Windows. В оверлейной плате для видеоизображения имеется специальный «слой» видеопамяти, независимой от видеобуфера графического адаптера. В этом слое содержится оцифрованное растровое отображение каждого кадра видеосигнала. Поскольку для видеосигнала принято цветовое пространство в координатах Y-U-V, в этом слое памяти пикселы также отображаются в этом пространстве, а не в К-З-С, свойственном графическим адаптерам. В такой системе движущееся видеоизображение, видимое на экране монитора, существует лишь в оверлейном буфере, но никогда не попадает в видеопамять графического адаптера и не передается ни по каким внутренним цифровым шинам компьютера. В видеопамяти графического адаптера «расчищается» окно, через которое «выглядывает» видеоизображение из оверлейного буфера. Некоторый цвет (комбинация бит RGB) принимается за прозрачный. Оверлейная логика сравнивает цвет очередного пиксела графического буфера с этим прозрачным, и если он совпадает, вместо данного пиксела выводится соответствующий пиксел видеооверлея. Если цвет не совпадает с прозрачным, то выводится пиксел из графического буфера. Таким образом, имея доступ к пикселам графического буфера, можно на видеоизображение накладывать графику для организации видеоэффектов или вывода в видеоокне «всплывающих» (PopUp) меню. Наложение производится на уровне потока бит сканируемых пикселов, который может передаваться в оверлейную плату через разъем Feature Connector . Оверлейная плата обычно имеет несколько входов для источников аналогового видеосигнала и программно-управляемые средства выбора одного из них. В составе такого устройства обычно есть и фрейм-граббер (Frame Grabber) — средство захвата видеокадра. Его другое название — Video Capture. По команде оператора движущееся изображение может быть мгновенно зафиксировано в оверлейном буфере, после чего захваченный кадр может быть записан на диск в каком-либо графическом формате для последующей обработки и использования.

Более совершенные устройства позволяют записывать в реальном времени последовательность видеокадров, выполняя их сжатие методами M-JPEG, DVI или INDEO (MPEG-кодирование требует слишком больших ресурсов для выполнения преобразования в реальном времени).

Фрейм-граббер - это отдельное устройство, подключаемое к источнику видеосигнала и какому-либо интерфейсу компьютера. В этом случае видеоизображение наблюдается уже не на мониторе компьютера, а на обычном телевизоре, подключенном к тому же источнику видеосигнала или фрейм-грабберу. По команде оператора требуемый кадр фиксируется в буферной памяти фрейм-граббера, откуда по интерфейсу поступает в компьютер для обработки или(и) хранения.

TV-тюнер — это устройство приема видеосигналов с радиочастотного входа (антенны), в сочетании с оверлейной платой позволяет просматривать телепрограммы на обычном мониторе компьютера. Тюнер может поддерживать стандарты цветопередачи PAL, SECAM и NTSC, но из-за несовпадения стандартов на промежуточную частоту звукового сопровождения некоторые карты не принимают звуковое сопровождение отечественных телеканалов.

2.1. Особенности передачи видеоизображения в цифровых кодах графической системы

Рассмотрим особенность передачи видеоизображения в цифровом виде, естественном для графической системы компьютера (Bitmap). Пусть разрешение видеоэкрана составит 640 х 480 — максимально возможное для телевизионного изображения NTSC. Поскольку аналоговый телевизионный сигнал позволяет передавать в принципе неограниченное число цветов, примем глубину цвета True Color — 24 бита на пиксел. Тогда одному кадру изображения будет соответствовать битовый образ объемом 640 х 480 х 24 = 7 372 800 бит или около 7 Мбит на кадр. В телевидении полные кадры сменяются с частотой 25 Гц (30 Гц в NTSC), так что для непосредственной передачи телевизионного изображения в формате Bitmap требуется обеспечить поток данных в 7 х 25 = 175 Мбит/с, или около 22 Мбайт/с. О том, чтобы записывать такой поток данных даже на самый быстрый винчестер, раньше не было и речи; но современные диски уже могут его выдержать. Но этот поток заполняет 1 Гбайт диска всего за 44 секунды. Конечно, если пожертвовать количеством цветов и «опуститься», например, до режима High Color (16 бит на пиксел), то требуемый поток уменьшится до 116 Мбит/с. Но и такой поток слишком велик. Выходом может быть только сжатие передаваемой информации.

Так как, формат Bitmap является довольно подробным способом описания изображений. Соседние (по вертикали и горизонтали) элементы реального изображения обычно между собой сильно взаимосвязаны, поэтому имеются богатые возможности сжатия описания. Иллюстрация этому — очень большой коэффициент сжатия BMP-файлов любым архиватором. Если сжатие файлов данных при архивации обязательно требует возможности точного восстановления исходных данных при распаковке, то при сжатии изображений в большинстве случаев можно позволить некоторые вольности, когда восстановленное изображение не совсем точно соответствует оригиналу. И наконец, соседние кадры движущегося изображения между собой в большинстве случаев тоже сильно связаны, что наводит на мысль о применении дифференциального описания кадров. Все эти рассуждения подводят нас к пониманию возможностей сжатия видеоинформации и принципов действия кодеков — компрессоров-декомпрессоров видеосигнала. Как и в случае программного сжатия и восстановления данных, задача компрессии оказывается сложнее задачи восстановления (легко заметить, что распаковка файлов, например, архиватором ARJ, происходит гораздо быстрее упаковки).

Процедура сжатия может выполняться как одноступенчатым, так и двухступенчатым способом.

В первом случае сжатие выполняется одновременно с записью в реальном масштабе времени.

Во втором случае поток несжатых данных интенсивностью в несколько десятков мегабайт в секунду записывается на специальный (очень большой и очень быстрый) диск. По окончании записи фрагмента выполняется его сжатие, которое может занимать на порядок больше времени, чем сама запись.

Декомпрессия, естественно, представляет интерес лишь в том случае, если она выполняется в реальном масштабе времени (она и реализуется проще). Ряд кодеков позволяет осуществлять декомпрессию в реальном времени чисто программными способами, используя стандартный графический адаптер SVGA. Однако программная декомпрессия сильно загружает процессор, что неблагоприятно сказывается на многозадачном использовании компьютера. Ряд современных дисплейных адаптеров имеют специальные аппаратные средства декомпрессии, разгружающие центральный процессор. На долю процессора остается лишь организация доставки сжатого потока данных к плате адаптера.

А) компрессия видео изображения

Сжатие движущихся изображений включает внутрикадровое (intraframe compression) и межкадровое (interframe compression) сжатие. Для внутрикадрового сжатия используются методы, применяемые для сжатия неподвижных изображений. В межкадровом сжатии применяется система ключевых кадров (key frame), содержащих полную информацию о кадре, и дельта-кадров (delta frame), содержащих информацию о последовательных изменениях кадров относительно ключевых. Благодаря корреляции соседних кадров дельта-кадры в общем случае несут гораздо меньше информации, чем ключевые, и, следовательно, поток их данных не так интенсивен. Периодическое вкрапление ключевых кадров позволяет избежать накопления ошибки в изображении, а также начинать прием потока в любой момент (дождавшись ближайшего ключевого кадра).

При съемке различных сюжетов межкадровая корреляция, конечно же, будет существенно варьироваться. Поэтому, чтобы оценить качество работы кодека, применяют, например, сюжеты типа «говорящие головы» (Talking heads) с высокой степенью корреляции кадров и более сложные полнодвижущиеся изображения (Actions) — например, карусель, где все элементы перемещаются. Оценка качества ведется как по объективным показателем, так и по субъективному восприятию. Объективными показателями является максимальная частота кадров (Frame Rate), которая обеспечивается без отбрасывания кадров, и процент отбрасываемых кадров (Drop Frames) при обработке потока со стандартной частотой кадров. Эти показатели характеризует производительность декомпрессора, которая может оказаться и недостаточной для обработки потока данных без потерь. Важен также и коэффициент загрузки центрального процессора (CPU Utilization) при отработке стандартного потока, по которому можно судить о возможности исполнения других задач во время воспроизведения видео.

В) декомпрессия видеоизображения

В процессе декомпрессии может потребоваться масштабирование кадров, для того чтобы вписать изображение в окно заданного размера. В простейшем случае декомпрессия производится в масштабе 1:1, при этом видеоизображение обычно занимает лишь часть экрана. Примитивное масштабирование достигается дублированием пиксела — один пиксел видео копируется в несколько (например, 4) смежных пикселов графического экрана. Однако при этом качество изображения заметно падает — крупные «кирпичики», из которых строится изображение, с небольшого расстояния выглядят плохо. Более тонкий механизм масштабирования выполняет интерполяцию цветов пикселов, при этом качество изображения заметно улучшается. Однако такое масштабирование уже требует значительных затрат вычислительных ресурсов, и если их недостаточно, то вывод видеоизображения в окно большого размера будет сопровождаться потерями кадров и, возможно, перебоями звукового сопровождения. Так что, говоря о качестве вывода видео, следует всегда оговаривать масштаб или размер видеоэкрана.

2.2. Типы кодеков обработки видеоизображений

Для обработки изображений применяются различные кодеки:

JPEG (Joint Photographic Expert Group) — метод сжатия неподвижных изображений, основанный на одновременной обработке информации матрицы пикселов (например, 8 х 8) в пространстве Y-U-V с приоритетом сохранения яркостной информации. Метод почти универсален: он позволяет обеспечивать и максимальную степень сжатия, правда, при этом информация восстанавливается с некоторыми потерями, и обеспечивать сжатие без потерь, но, конечно, в меньшей степени. Кроме того, возможен послойный прием изображения, когда сначала приходит грубое описание всей картинки, затем следуют постепенные уточнения (утончения) деталей. Такая передача представляет ценность при использовании каналов связи с ограниченной производительностью, например в Интернете: быстро получив общий вид, можно отказаться от приема полного описания изображения, если оно не заинтересовало получателя. Конечно, все достоинства JPEG не могут использоваться одновременно — чем-то приходится жертвовать. Степень сжатия зависит от характера изображения — лучше всего сжимается цветное изображение, несколько хуже — полутоновое серое. Черно-белое изображение для JPEG должно представляться в полутоновом формате, что, конечно, снижает эффективность его сжатия.
M-JPEG (Motion JPEG) — метод сжатия движущихся изображений. Суть этого метода заключается в том, что каждый кадр обрабатывается как отдельное статическое изображение, то есть выполняется только внутрикадровое сжатие. M-JPEG не получил широкого распространения из-за больших затрат времени на компрессию и декомпрессию.
DVI (Digital Video Interactive) — система аппаратного сжатия движущихся видеоизображений с коэффициентом сжатия до 160:1 и записи звукового сопровождения по методу ADPCM.

 Indeo (INtel viDEO) — одноступенчатый кодек на базе набора микросхем i82750, развитие системы DVI. Позволяет воспроизводить видеозаписи и с программным декодированием (необходим ПК не ниже 48,6SX-25, SVGA 256 цветов и звуковая карта с ADPCM для звукового сопровождения).

Cinepak — программный кодек для воспроизведения «живого» видео в окне 320 х 240 пикселов.

MPEG - ряд кодеков (MPEG-1, MPEG-2, MPEG-4, MPEG-7...) для передачи аудио-видеоинформации, каждый из которых соответствует определенному этапу развития цифровых технологий. Эти кодеки стали общепринятыми и заслуживают более подробного описания.

Видеосигнал в сжатом формате может быть сохранен на вполне рядовом носителе информации (винчестер, CD) и воспроизведен с него на мониторе компьютера. С этой цифровой записью могут выполняться любые операции нелинейного монтажа (монтажа с произвольным доступом к кадрам). Возможности такого монтажа определяются программным обеспечением и, по сути, безграничны.

  1.  Стандарты кодеков изображений MPEG.

Наибольшее распространение получили ряд кодеков типа MPEG.

Разработкой кодеков, предназначенных для работы в реальном масштабе времени, занимается MPEG (Motion Picture Expert Group — группа экспертов в области движущихся изображений). Поскольку видео без звука «живым» представить трудно, MPEG занимается и аудиокодеками.

Кодеки MPEG работают в пространстве Y-U-V, причем яркостная информация обрабатывается с большим разрешением, чем цветовая. В сжатом потоке данных присутствуют кадры нескольких типов:

I (intra)-кадры — ключевые кадры, кодированные без ссылок на другие (то есть содержащие полное описание статического изображения).
Р (
predicted) — кадры, содержат описание различий текущего кадра с предыдущим.

В (bi-directional) — кадры являются двунаправленными: они ссылаются и на кадр вперед, и на кадр назад.

Наличие двунаправленных кадров подразумевает, что декодер должен иметь буфер, по крайней мере, на три принятых кадра, а изображение будет выводиться с некоторым отставанием от входного потока. Для того чтобы кодек мог быстро включиться в работу с любого места потока, I-кадры должны включаться в поток регулярно (в MPEG-1 — не реже, чем через 0,4 с).

MPEG-1 — стандарт ISO/IEC 11172, принятый в 1992 году. Полное название — «Coding of Moving Pictures and Associated Audio for Digital Storage Media at up to about 1,5 MBit/s» — раскрывает его суть: кодек предназначен для записи и воспроизведения движущихся изображений и связанного с ними аудиосопровождения на цифровом носителе с потоком данных до 1,5 Мбит/с. При этом обеспечивается качество изображения на уровне кассетного видеомагнитофона VHS (Video Home System) со стереофоническим звуковым сопровождением.

Стандарт состоит из 5 частей, описывающих систему, видео, аудио, методику тестирования на соответствие и программы кодера и декодера на языке С. Для получения столь низкой скорости потока из исходного видеопотока берется лишь одно поле (полукадр), а в каждой строке — только половина пикселов, что дает формат кадра 352x240 пикселов с прогрессивной разверткой, 30 кадров в секунду. Поток этих кадров и подлежит сжатию. Увеличение размера декодированного изображения до полного экрана особого смысла не имеет, поскольку может выполняться только масштабированием (размножением пикселов), правда, в более сложных реализациях декодера можно улучшить качество изображения, применяя методы интерполяции. Аудиопоток по сравнению с РСМ сжимается примерно в 6 раз (типовая скорость 256 Кбит/с). Декодер MPEG-1 содержит де-мультиплексор, разделяющий аудио- и видеопотоки, и раздельные декодеры для них. Скорость потока данных позволяет использовать в качестве носителя видеоинформации обыкновенный CD-ROM, поэтому MPEG-1 применяется в дисках CD-i и VideoCD (VCD). Однако декомпрессия требовала большой (по тем временам) мощности процессора (Pentium 133), из-за чего диски CD-i и VCD без специальной платы аппаратного декодера маломощные компьютеры воспроизводить не могли.

MPEG-2 (ISO/IEC 13818) — кодек для высококачественной передачи изображений, аудиоинформации и данных при потоке 2-80 Мбит/с, обеспечивающий несколько уровней качества. Основной уровень (720 х 480, 30 кадров/с) обеспечивает качество на уровне телевещания, высокие уровни используются в профессиональной видеозаписи. Стандарт предусматривает одновременную передачу множества TV-каналов с возможностью шифрования для ограничения доступа к информации и защиты прав собственности на содержимое потоков. Первые 5 частей стандарта аналогичны MPEG-1, но с новым наполнением. Аудиокодек MPEG-2 представляет собой многоканальное расширение аудиокодека MPEG-1, что обеспечивает их совместимость по первым двум каналам. В аудиокодеке MPEG-2 имеются 2 стереоканала (фронт и тыл), обеспечивающих объемное звучание (Surround), и один низкочастотный с полосой до 100 Гц. Кроме совместимого с MPEG-1, в MPEG-2 входит и «продвинутый» аудиокодек AAC (Advanced Audio Codec), используемый в профессиональной аудиотехнике. Аудеокодек MPEG-1/MPEG-2 стал жить самостоятельной жизнью под именем МРЗ (MPEG-1 Layer 3, см. п. 11.1.2), иногда ошибочно называемый MPEG-3 (такого стандарта нет). То, что должно было стать MPEG-3, вылилось в высший уровень MPEG-2. Этот уровень обеспечивает качество телевидения высокой четкости ТВЧ (HDTVHigh Definition TV).
Таблица 8.1. Уровни качества MPEG-2

Уровень

Размер изображения

Максимальный поток данных, Мбит/с при частоте 30 кадров/с

Low (низкий)

352 х 240

4

Main (основной)

720 х 480

15

High-1440 (высокий)

1440x1152

60

High (высокий)

1920 х 1080

80

Модель взаимодействия компонентов воспроизводящих систем MPEG-1 и MPEG-2 довольно проста — данные от источника через средства доставки поступают на вход демультиплексора, где разделяются на видео и аудиопотоки, обрабатываемые своими декодерами. Информационный поток MPEG-1 сугубо однонаправленный; в MPEG-2 добавляется двунаправленный канал взаимодействия получателя информации с источником данных (сервером вещания) через средства доставки, что обеспечивает интерактивность в смысле выбора передаваемых программ, а также адаптацию передаваемого потока к качеству канала передачи.

MPEG-4 — стандарт, ориентированный на интерактивное использование мультимедиа и сетевых коммуникаций. По сравнению с предыдущими, MPEG-4 устроен гораздо сложнее — аудио-видеоинформация, представляемая конечному потребителю, собирается из различных аудиовизуальных объектов (AVO - Audio-Visual Objects). Эти объекты отображаются на сцене, представляемой конечному потребителю (наблюдателю-слушателю). Сцена представляется дисплеем и многоканальной аудиосистемой. Исходная композиция (расположение объектов на сцене), заданная создателем воспроизводимого произведения, может в широких пределах изменяться пользователем. Объекты, представляемые на сцене, могут быть как естественными, так и синтетическими. Между объектами устанавливаются определенные связи. Интерактивность позволяет управлять как представлением сцены (например, менять ракурс), так и композицией («сборкой», содержанием и поведением объектов на сцене) и, как и в MPEG-2, взаимодействовать с источником данных через средства доставки.

Естественные аудиообъекты — это каналы передаваемого аудиосигнала, сжатого в зависимости от потребностей в качестве и доступной полосы пропускания канала передачи. Уровень качества может быть от телефонного до высокого (каналы с виртуальной скоростью 2-64 Кбит/с). Для каждого уровня качества и занимаемой полосы используется свой метод компрессии/декомпрессии.

Синтетические аудиообъекты образуются из структурированных потоков входных данных. Декодер TTS (Text to Speech) синтезирует речь по потоку текстовых данных, формируя управляющие данные для анимации движения губ. Декодер имеет многонациональную языковую поддержку. Он позволяет управлять тембром и громкостью, делать паузы, «проматывать» вперед и назад. Музыкальным аналогом TTS является интерфейс MIDI, но в MPEG-4 может использоваться и более мощный и точный метод синтеза музыки Score Driven Syntesis. Поток для синтеза музыки содержит команды, описывающие звуковые примитивы, генерируемые с помощью сигнальных процессоров. Таким образом, передаются потоки для всех инструментов оркестра и может быть синтезировано их совместное звучание, которое может оживляться такими деталями, как шум шагов в зале или звук открываемой двери. К аудиообъектам могут быть приложены различные эффекты; аудиообъекты могут привязываться к визуальным объектам и позиционироваться в любой точке сцены (объемной).

Визуальные естественные объекты могут быть текстурами, изображениями и видео. Текстуры предназначены для наложения на каркасные модели, 2D или 3D. Изображения могут просто помещаться в любое место сцены. Видео подразумевает «живое» изображение, но оно может быть и не полноэкранным и не прямоугольным (например, движущийся человек на прозрачном фоне). Визуальные синтетические объекты представляют собой элементы компьютерной графики, получаемые разными способами в векторном или растровом виде. Это могут быть и 2D или 3D каркасные модели, на которые могут быть наложены текстуры (естественные и синтетические). Для повышения качества моделирования живых объектов в MPEG-4 разработана специальная система параметризованного описания человеческой головы, способной изображать различные эмоции, а также воспроизводить движение губ при разговоре. Движение губ может быть связано с воспроизводимым аудиосигналом, привязанным к этому объекту (голове). На модель головы может быть наложена текстура, полученная из изображения лица конкретного человека. Разрабатывается также и специализированная модель человеческого тела.

Для иллюстрации можно представить, к примеру, такую сцену. В синтетической комнате (трехмерная модель) расположен синтетический диктор (модель), лицо которого является текстурой, сделанной из портрета известного человека. Этот диктор «читает» текст (подсунутый ему пользователем или хакером через сеть), ходит по комнате, по «просьбе» пользователя может остановиться и помолчать или же повторить сказанное. Вся эта синтетика в сочетании с интерактивностью ограничивается малым объемом передаваемых данных — достаточно раз передать описание сцены, диктора и текстуру его лица, после чего требуется передача лишь текста и информации, управляющей движением моделей на сцене.

Визуальная часть MPEG-4 предоставляет инструменты и алгоритмы для эффективной компрессии видео и изображений, текстур для наложения на 2D- и ЗD-сетки (каркасы), самих сеток, потоков геометрических данных, «оживляющих» сетки. Также имеются средства для произвольного доступа ко всем типам объектов, манипулирования изображениями и видеопотоками. Способы кодирования и масштабирования изображений, текстур и видео зависят от типа содержимого. Ядром средств кодирования визуальных объектов является VLBV (Very Low Bit-rate Video) — видео с очень низкой скоростью потока (5-64 Кбит/с), позволяющей передавать маленькие кадры (176x144 пиксела) с темпом 10-15 кадров/с, устойчиво по отношению к ошибкам передачи. Вокруг этого ядра строится интерфейс с высокой скоростью передачи и расширения функциональности, позволяющих индивидуально кодировать объекты сцены, что и обеспечивает интерактивность. Полноэкранное изображение приемлемого качества требует скорости порядка 600 Кбит/с. Для программного декодирования (в реальном времени) требуется как минимум Pentium II-300. Компрессия в реальном времени может быть реализована, например, на двухпроцессорном компьютере Pentium II-400. В некоторые современные видеокарты встраивают аппаратные средства декомпрессии MPEG-4; средства синтеза визуальных объектов основаны на вполне уже обычных функциях 2D- и ЗD-акселераторов.

Широкое распространение MPEG-4 во все мультимедийные отрасли может сильно изменить взгляды на способы создания и использования мультимедийной продукции., В MPEG-4 предусматриваются средства контроля за соблюдением прав собственности на произведения, направленные на обеспечение возможности платного распространения, защиту авторских прав и т. п. При необходимости возможности изменения содержимого при воспроизведении тоже должны быть ограничены, чтобы избежать искажения смысла произведения.

MPEG-7 — стандарт описания мультимедийных объектов, обеспечивающий их эффективный поиск.

В персональном компьютере могут присутствовать специальные компоненты для работы с MPEG:

MPEG-плейер — декодер MPEG-1, обеспечивающий воспроизведение с компакт-дисков форматов MPEG-1 (CD-I, VideoCD). Аппаратный декодер является широко распространенным дополнением графического адаптера. В отличие от программных MPEG-декомпрессоров, он обеспечивает высокое качество воспроизведения с невысокой загрузкой процессора. В состав MPEG-плейера должен входить и аудиодекодер, при этом на графической плате с аппаратным декодером появляется немного неожиданный дополнительный разъем аудиовыхода.

DVD-плейер — декодер MPEG-2, аппаратный или программный, позволяющий воспроизводить видеозаписи с DVD-Video и Super VideoCD. Для программного декодирования требуется как минимум компьютер с процессором Pentium II-266, для аппаратного достаточно Pentium-133.

PAGE  1


 

А также другие работы, которые могут Вас заинтересовать

68973. Сортування масивів 30.5 KB
  Стан об’єкту цілком і повністю визначається станом елементів масиву. Для роботи з об’єктом можна використовувати інтерфейс що містить наступний набір операцій: розміщення масиву динамічної пам’яті ініціалізація масиву проглядання вивід значень елементів масиву сортування масиву різними способами...
68974. Алфавіт, ідентифікатори, службові слова 103 KB
  До специфікаторів типів відносяться: chr символьний; double дійсний з подвійною точністю з плаваючою крапкою; enum перелічуваний тип перелік визначення цілочисельних констант для кожної з яких вводяться ім’я і значення; floаt дійсний з плаваючою крапкою; int цілий; long цілий збільшеної довжини...
68975. Ввід, вивід на консоль. Модифікатори 46 KB
  Достатньо часто для виводу інформації з ЕОМ в програмах використовується функція printf(). Вона переводить дані з внутрішнього коду в символьне уявлення і виводить отримані зображення символів результатів на екран дисплея. При цьому у програміста є можливість форматувати дані, тобто впливати на їх уявлення на екрані дисплея.
68976. Умовний оператор. Оператор вибору. Цикли 38 KB
  Виконання тіла оператора-перемикача switch починається з вибраного таким чином оператора і продовжується до кінця тіла або до тих пір, поки який-небудь оператор не передасть управління за межі тіла. Оператор, наступний за ключовим словом default, виконується, якщо жодна з...
68977. Одновимірні та багатовимірні масиви 30 KB
  Відповідно до синтаксису Сі в мові існують тільки одновимірні масиви, проте елементами одновимірного масиву, у свою чергу, можуть бути масиви. Тому двовимірний масив визначається як масив масивів. Таким чином, в прикладі визначений масив Z з 13 елементів-масивів, кожний з яких...
68978. Вказівники. Функції динамічного розподілу пам’яті 37 KB
  Кожна змінна в програмі - це об’єкт, який має ім’я і значення. За ім’ям можна звернутися до змінної і отримати (а потім, наприклад, надрукувати) її значення. Щоб отримати адресу в явному вигляді, в мові Сі застосовують унарну операцію. Вираз Е дозволяє отримати адресу ділянки пам’яті, виділеної на машинному рівні для змінної Е.
68979. Функції, їх параметри. Рекурсія. Прототипи функцій 35.5 KB
  Визначення функції Опис функції та її тип Рекурсивні функції Визначення функції. Синонімами цього іншого поняття в інших мовах програмування є процедури підпрограми підпрограми-функції процедури-функції. Всі функції в мові Сі мають рекомендуємий стандартами мови єдиний формат...
68980. Структури, об’єднання 36.5 KB
  Структура - це з’єднане в єдине ціле безліч поіменованих елементів (компонентів) даних. На відміну від масиву, який завжди складається з однотипних елементів, компоненти структури можуть бути різних типів і всі повинні мати різні імена.
68981. Рекурсивні функції і процедури, параметри-процедури 30 KB
  Тобто це є визначенням функції через цю саму функцію, У мові Паскаль рекурсивний опис функції полягає в тому, що в тілі такої функції міститься звертання до цієї ж функції. Наведемо рекурсивний опис функції п...