40148

ИНФОРМАЦИЯ В ДИСКРЕТНЫХ СООБЩЕНИЯХ

Лекция

Коммуникация, связь, радиоэлектроника и цифровые приборы

Когда говорят об информации то имеют в виду как объективные сведения о событиях в материальном мире так и получателя этих сведений то есть субъекта. Определить количество информации и передать его с наименьшими потерями по каналам связи не интересуясь смыслом информации – это предмет теории информации которую иногда называют математической теорией связи. Качественная сторона информации например её ценность полезность важность исследуется в семантической теории информации.

Русский

2013-10-15

412.5 KB

0 чел.

PAGE   \* MERGEFORMAT 1

ИНФОРМАЦИЯ В ДИСКРЕТНЫХ СООБЩЕНИЯХ

Предмет и задачи теории информации

Само понятие информации носит фундаментальный характер и её полное определение не может быть построено как следствие существующих понятий.

Для практических целей под информацией будем понимать сведения, которыми интересуется получатель. Когда говорят об информации, то имеют в виду как объективные сведения о событиях в материальном мире, так и получателя этих сведений, то есть субъекта. Поэтому информация включает в себя объективные и субъективные стороны.

Наличие субъективной стороны приводит к тому, что наряду с информацией, объективно отражающей явления в материальном мире, существует дезинформация, дающая получателю ложные сведения.

Информация включает в себя как количественную, так и качественную стороны. Определить количество информации и передать его с наименьшими потерями по каналам связи, не интересуясь смыслом информации, – это предмет теории информации, которую иногда называют математической теорией связи. Качественная сторона информации, например её ценность, полезность, важность, исследуется в семантической теории информации. В дальнейшем в настоящих лекциях будем интересоваться только той частью теории информации, которая рассматривает количественную сторону информации.

Будем пользоваться, как и раньше, такими понятиями, как сообщение и сигнал.

Сообщение – это информация, выраженная в определённой форме и предназначенная для передачи от источника к получателю информации. Сообщения бывают дискретными и непрерывными. Дискретное сообщение фиксирует информацию с помощью набора дискретных символов, например букв или последовательности импульсов. Под понятие дискретного сообщения подходит газетный текст, телеграмма с набитыми символами азбуки Морзе, перфокарта для программы при работе на ЭВМ. Непрерывное сообщение фиксирует информацию с помощью непрерывного изменения какой-либо физической величины, например тока или напряжения. Под понятие непрерывного сообщения подходит изменение тока микрофона под влиянием слов говорящего, непрерывные управляющие колебания, с помощью которых осуществляется модуляция какого-либо процесса.

Сигналом в радиотехнике называют электрический (электромагнитный) процесс, который распространяется в пространстве и у которого изменяются один или несколько параметров по закону сообщения. Сигнал является переносчиком информации. Отличие сигнала от сообщения весьма условно. Сигнал это видоизменённое сообщение, пригодное для передачи на расстояние. В радиотехнике обычно сообщение это низкочастотное, а сигнал это высокочастотное колебание. Если же идет обработка информации без необходимости её передачи по радиоканалу, например в управляющих системах или ЭВМ, то понятия сообщения и сигнала совпадают. Такое совпадение нами уже использовалось, например при рассмотрении фильтра Калмана.

Канал с в я з и  – это совокупность технических средств, обеспечивающих передачу сообщений от источника к получателю. Кодирующее устройство переводит сообщение в последовательность символов канала. В передающем устройстве эти символы преобразуются в сигналы канала. Линия связи представляет собой среду, в которой распространяются сигналы от передатчика к приёмнику. Линия связи подвержена воздействию помех. Шумы приёмника пересчитываются на его вход, так что можно считать, что шумы действуют вместе с помехой в линии связи. Приёмник выделяет сигналы, которые затем декодирующим устройством переводятся в сообщения, удобные для извлечения информации получателем. Модулятор и демодулятор являются частными примерами кодирующего и декодирующего устройств.

Основными задачами теории информации являются:

1. Определение количества информации, заключённого в сообщениях;

2. Разработка таких методов кодирования, при которых получаются сигналы, наиболее помехоустойчивые к действию помех в линии связи;

3. Определение предельных границ уплотнения канала связи с целью обеспечения передачи наибольшего количества информации в единицу времени;

4. Оценка информационных потерь в канале связи путем сравнения количества информации у получателя с количеством информации на выходе источника сообщений.

Возникновение теории информации связывают с именем американского учёного К. Шеннона, опубликовавшего статью «Математическая теория связи» в 1949 году. Существенный вклад в развитие вопроса передачи информации в каналах связи с использованием непрерывных сообщений сделал русский учёный академик Колмогоров в 1956 году.

1.2 Энтропия как среднее количество информации

1.2.1 Количественная мера информации

В теории информации количество информации, заключённое в сообщении, связывают с величиной неопределённости, которая устраняется у получателя после того, как он это сообщение получит.

В простейшем случае для характеристики неопределенности какого-либо события обычно используется вероятность этого события. Это означает, что для определения количества информации также используется вероятностная мера.

Пусть до получения сообщения получатель располагал априорной вероятностью Р1 наступления интересующего его события. После получения сообщений вероятность наступления этого события изменилась и стала равной Р2, при этом Р2 > Р1. Количество информации, которое в данном случае будет получено получателем, определим через логарифм отношения вероятностей:

                                                          (1.1)

Если с получением сообщения у получателя исчезла полностью имевшаяся ранее неопределённость, то Р =1  и

                                                  (1.2)

В этом случае количество полученной информации определяется исключительно той априорной вероятностью, которой располагал получатель до получения сообщений.

Если с получением сообщения неопределённость об интересующем событии у получателя не изменилась, то Р2 = Р1 и

то есть получатель в этом случае никакой информации об этом событии не получал.

Количество информации заключено в степени увеличения Р2 по отношению к Р1, в результате чего неопределённость уменьшается. Использование логарифма отношения в (1.1) обусловлено дополнительным требованием, чтобы информация о наступлении нескольких независимых событий, например и одного, и другого, представляемых в виде произведения этих событий, была бы равна сумме информации о каждом событии в отдельности. Этому требованию удовлетворяет логарифмическая функция, для которой log[P(A)-Р(В)] = logP(A) + logP(B). Выбор основания логарифма с теоретической точки зрения является несущественным. Для практического использования оказалось удобным в формуле (1.1) выбрать логарифм при основании 2. Это обусловлено тем, что современные цифровые системы связи используют двоичные коды, состоящие из двух элементов «0» и «1».

За единицу количества информации принимается такое её количество, которое содержится в сообщении о том, что произошло одно из двух равновозможных событий. Это количество информации составляет один «бит», сокращенное слово от английского "binary unit", что означает двоичная единица.

При определении количества информации в 1 бит имелось в виду, что Р1=0.5, а Р2 = 1. В этом случае согласно (1.1) имеем

,

где здесь и далее подразумевается, что основание логарифма равно двум. В дальнейшем основание 2 у логарифма писать не будем.

1.2.2 Собственная информация

Рассмотрим дискретную случайную величину с известным законом распределения, заданным рядом вероятностей, в котором каждому возможному значению случайной величины х1, х2, ..., хm сопоставлена соответствующая вероятность p1, p2,…,pm

Известно, что для характеристики тех или иных черт распределения случайной величины используются числовые характеристики, определённые как математические ожидания или усреднённые значения некоторых функций случайной величины. Если в качестве усредняемой функции выбрать логарифм вероятности возможного значения, то получим новую числовую характеристику случайной величины:

                                        (1.4)

Эта числовая характеристика называется  энтропией случайной величины . Энтропия характеризует в среднем неопределённость случайной величины до испытания. Само слово происходит от греческих слов "en" и "trope", что означает "поворот", "превращение", " обращение".

В дискретной радиосвязи сообщение состоит из набора символов. Совокупность всех возможных символов образует алфавит. Примерами дискретных сообщений являются, например, слова русского текста, алфавит которого состоит из 32 букв. Каждое слово есть сообщение, состоящее из букв, являющихся в данном случае символами.

Если проанализировать тексты на русском языке, то можно заметить, что одни буквы появляются чаще, а другие реже. Используя статистическое определение вероятности, можно определить вероятность появления той или иной буквы. Например, в русском литературном тексте вероятности появления таких букв, как О, Е, А, соответственно равны: ро = 0,11; рe= 0,089; рa=0,076. Это наиболее часто появляющиеся буквы. Редкими буквами являются Щ, Э, Ф. Их вероятности появления соответственно равны рщ= 0,003; pэ= 0,002; рф= 0,002. Буква О появляется чаще, чем буква Ф, в 50 раз.

Рассмотрим дискретное сообщение в общем виде. Пусть алфавит состоит из m символов. Все символы алфавита х1, x2, ..., хm, если их пронумеровать хотя бы мысленно, можно рассматривать как возможные значения дискретной случайной величины , с известным рядом вероятностей.

Если считать, что появление 1-го  символа, скажем хi, полностью устраняет имеющуюся ранее неопределенность, то с появлением этого символа получатель получает следующее количество информации:

,                                                       (1.5)

где рi -априорная вероятность появления символа хi.

Поставим теперь вопрос: какое количество информации I получит в среднем получатель при появлении любого одного символа из алфавита m ? Для ответа на этот вопрос необходимо (1.5) усреднить по всем символам алфавита :

.                                         (1.6)

Заметим, что формулы (1.4) и (1.6) полностью совпадают. Это означает, что энтропия определяет среднее количество информации, приходящейся на один символ алфавита дискретного сообщения:

.                                                   (1.7)

Наибольшая неопределённость дискретной случайной величины имеет место тогда, когда все её возможные значения равновероятны:

.                                                                  (1.8)

Подставив значение (1.8) в формулу (1.7), получим

,                                         (1.9)

то есть Hmax   зависит только от числа символов в алфавите.

Теперь найдём минимальную энтропию. Отсутствие неопределённости характеризуется тем, что вероятность одного из символов, скажем x1, равна единице р1 = 1, а вероятность всех остальных символов равна нулю: р23=..,=рm = 0. Подставив эти вероятности в формулу (1.7), получим

,                                            (1.10)

где для удобства анализа член, содержащий вероятность р1,отделён от суммы. При p1= 1 логарифм равен нулю: log1 = 0. Поэтому первый член в целом равен нулю.

При рi = 0, i =2,3,..., m член, содержащий сумму, также будет равен нулю. Говоря более точно, каждый член суммы соответствует неопределённости типа  “”, раскрыв которую, получим нуль.

Таким образом, минимально возможная энтропия равна нулю; Нmin = 0. Это означает, что энтропия является положительной величиной, заключённой в пределах

.                                                   (1.11)

Энтропия (1.7), характеризующая среднее количество информации, приходящейся на один символ алфавита, была получена в предположении, что появление любого символа алфавита полностью устраняет неопределённость (1.5). Поэтому информация, определяемая формулой (1.7), иногда называется собственной информацией источника сообщений, так как она определяет количество информации, приходящейся на один символ сообщения, без учета потерь в канале связи.

1.3 Энтропия дискретного сообщения

В дискретной технике связи широко применяется алфавит из двух символов х1 и х2, которым приписываются значения "0" и "1". В этом случае слова, сообщения (или точнее кодовые комбинации) состоят из нескольких позиций. Чем больше число позиций в кодовой комбинации, тем больше будет число различных кодовых слов, но тем длиннее само слово.

Если позиция в кодовой комбинации одна, n=1, то можно образовать 21=2 слова: "0" и "1". Если позиций две, n =2, то можно образовать четыре слова, 22 = 4: 00, 01, 10, 11. Если позиций три, n=3, то - 23=8: 000, 001, 010, 011, 100, 101, 110, 111. В общем случае для двоичного кода число различных возможных кодовых комбинаций определяется формулой 2n, где m = 2 число символов в алфавите, или основание кода, an- число позиций в коде.

Рассмотрим энтропию двоичного кода. Поскольку имеется только два символа (m = 2), то энтропия, вычисленная по формуле (13.6), равна

.                                 (1.12)

Так, в двоичном коде символы образуют полную группу несовместных событий, для которых    р1 + р2 = 1, р2 = 1 - р1. Для удобства анализа обозначим р1 = р, р2 = 1 - р. Тогда формула (1.12) примет вид

Н(р) = – [p log р + (1 – p) log(1 – p)].                                         (1.13)

Энтропию (1.13) будем рассматривать как функцию от вероятности одного из символов, р.  График этой зависимости

Максимальное значение энтропии двоичного кода согласно (1.9) достигается при , а сам максимум равен

.                                          (1.14)

Энтропия обращается в нуль, при р = 0 или р = 1, что согласуется с  (13.10) и следует непосредственно из симметричности (13.13) относительно р и (1-р).

Вернёмся к кодовой комбинации, содержащей n позиций. Если появление символов "0", "1" на любой позиции кода является равновероятным и независимым, то все комбинации будут равновероятными, при этом вероятность появления любой комбинации (1/2)n = 2-n. В этом случае каждая кодовая комбинация будет нести максимальную информацию, равную

.                              (1.15)

Результат (1.15) следует рассматривать следующим образом. В кодовой комбинации информация сообщения является суммой энтропий, определяемых для каждой позиции кода. Информация (1.15) равна n бит потому, что число позиций n, ив каждой позиции достигается максимальная энтропия, равная 1 бит/символ (1.14). Если же вероятность конкретного символа на той или иной позиции будет больше или меньше 0,5 энтропия каждой позиции кода будет уменьшаться, что приведёт к уменьшению информации сообщения, которую следует записать в виде

,                                                        (1.16)

где Н- энтропия двоичного кода, определяемая формулой (1.13).


 

А также другие работы, которые могут Вас заинтересовать

64644. Рассчет и постройка структуры силовых линий ЭМП системы из трёх элементарных электрических вибраторов 2.18 MB
  Подставляя поочередно выражения (2) также функцию Грина неограниченного трехмерного пространства в выражение для векторного потенциала сторонних электрических токов, получим...
64647. Система управления топливоподачей транспортного дизель-генератора: Блок питания управляющего устройства 3.98 MB
  Иногда используются и другие схемы например в выпрямителях с удвоением напряжения. Основными элементами на которых построен блок питания в данном курсовом проекте являются: трансформатор; диодный мост; интегральный...
64648. Организация и деятельность механизма Российского государства 138.5 KB
  Понятие механизма государства. Структура механизма государства. Вооруженные Силы государства. Целью курсовой работы является рассмотрение организации и деятельности механизма Российского государства и его составляющих.
64649. Форма государства 142.5 KB
  Понятие формы государства. Виды форм государства. Введение Понятие формы государства является одной из важнейших содержательных характеристик государствоведения.