39038

Количество информации. Мера Хартли и мера Шеннона

Научная статья

Информатика, кибернетика и программирование

Рассмотрение предложенных способов измерения количества информации удобно начать с примера. Тем не менее только на основе априорной информации мы не можем точно сказать какое именно число очков выпало в результате конкретного подбрасывания. С поступлением новой информации о результате подбрасывания эта неопределенность может уменьшаться.

Русский

2013-09-30

80.5 KB

27 чел.

Количество информации. Мера Хартли и мера Шеннона.

Понятие энтропии источника.

Рассмотрение предложенных способов измерения количества информации удобно начать с примера. Пусть источником информационных сообщений является обыкновенный игральный кубик, о котором у нас есть некоторая априорная информация: очевидно, что в результате его подбрасывания может выпасть от одного до шести очков. Тем не менее, только на основе априорной информации мы не можем точно сказать, какое именно число очков выпало в результате конкретного подбрасывания. Таким образом, можно сказать, что в наших знаниях о состоянии кубика есть неопределенность. С поступлением новой информации о результате подбрасывания эта неопределенность может уменьшаться. Суть меры Хартли заключается в том, что она оценивает количество поступающей информации в зависимости от того, насколько меньше неопределенности стало в наших знаниях о состоянии источника информационного сообщения.

Как же количественно оценивать изменение неопределенности? Рассмотрим три информационных сообщения о количестве выпавших на кубике очков:

  1.  «выпало меньше ста»;
  2.  «выпало пять или шесть»;
  3.  «выпало ровно пять».

Изначально мы знаем, что результат подбрасывания кубика – от одного до шести очков, то есть имеет место неопределенность относительно шести возможных состояний. Первое сообщение не изменяет наших представлений о кубике, то есть мы по-прежнему можем ожидать на выпавшей грани любое количество очков от одного до шести. Получив второе сообщение, мы все еще не уверены, сколько очков было выброшено, но теперь наша неопределенность имеется только относительно двух состояний (пять очков или шесть). А если бы мы получили не второе, а третье информационное сообщение, то наши знания о результате выпадения кубика стали бы полностью определены. Таким образом, третье сообщение полностью устраняет неопределенность относительно шести возможных состояний кубика.

С обыденной точки зрения ясно, что третье сообщение наиболее информативно. Кроме того, мы видим, что «информативность» сообщения зависит от того, насколько меньше становится количество тех состояний источника (в данном случае, кубика), в которых он еще может находиться. Мера Хартли измеряет количество информации в сообщении как разницу между той неопределенностью, которая была до поступления информации и той, которая сохранилась после ее поступления. При этом в качестве меры неопределенности Хартли предложил использовать величину , где N – количество возможных состояний источника, a – масштаб неопределенности, о котором будет сказано чуть позже. Возвращаясь к нашему примеру с игральным кубиком, получаем следующие результаты измерения количества информации для каждого из трех сообщений (Qисх – обозначает неопределенность до поступления информационного сообщения, Qкон – после, I – количество информации):

Априорная информация

«Выпало число очков от одного до шести»

Сообщение

Qисх

Qкон

I

«Выпало меньше ста»

0

Априорная информация

«Выпало число очков от одного до шести»

Сообщение

Qисх

Qкон

I

«Выпало пять или шесть»

Априорная информация

«Выпало число очков от одного до шести»

Сообщение

Qисх

Qкон

I

«Выпало ровно пять»

Следует помнить, что третье информационное сообщение оценивается в предположении, что оно пришло вместо, а не после второго.

Вернемся теперь к параметру a. Для фиксированного значения a количество информации выражается конкретным числом a-ичных единиц информации. Например, при a=2, получаем двоичные единицы (биты), при a=3 – троичные, при a=10 – десятичные (диты) и т.п. Какое значение параметра a выбрать, обычно определяется свойствами передающей информацию среды. Ячейка памяти компьютера технически может находиться в одном из двух устойчивых состояний: 0 и 1, поэтому обычно информацию измеряют в двоичных единицах, битах. Если бы удалось получить для одной ячейки памяти три устойчивых состояния, то информация измерялась бы преимущественно в троичных единицах. Очевидно, что в этом случае, такое же количество информации занимало бы меньше единиц, то есть ячеек памяти. Рассмотрим, например, передачу информации о символе русского алфавита. Источник информации в этом случае имеет 32 возможных состояния. Практическую ценность имеет информационное сообщение, которое полностью устраняет неопределенность в наших знаниях о переданном символе (ну какой смысл передавать сообщения типа «это “а”, а может и “б”»?!). Поэтому количество переданной информации должно быть равно  бит. Таким образом, количество информации об одном символе русского алфавита равно 5 битам. В десятичных единицах для хранения и передачи такого же количества информации потребовалось бы  дита, то есть оказалось бы достаточно всего две десятичных ячейки памяти.

Как только что было сказано, на практике рассматривают только такие информационные сообщения, которые полностью устраняют неопределенность в наших знаниях о текущем состоянии источника. Предположим теперь, что источник последовательно изменяет свое состояние в течение k раз и после каждого изменения посылает об этом информационное сообщение. Например, кубик подбрасывается несколько раз, или имеет место передача слова, составленного из русских букв. Поскольку последующее состояние никак не зависит от предыдущего состояния источника, то общее количество всех возможных вариантов в этом случае равно . Тогда информация, необходимая для того, чтобы полностью описать k-кратное изменение состояния источника, равна  - эта формула приводилась на лекции.

На лекции также упоминалось свойство аддитивности меры Хартли. Если один источник принимает N возможных состояний, а другой M возможных состояний, то для полного описания состояний пары указанных источников потребуется количество информации равное .

Перейдем теперь к рассмотрению меры Шеннона. Рассмотрим следующий пример. Пусть проводится шахматный турнир, где играют Г. Каспаров и обычный человек, например преподаватель по информационным системам. Турнир состоит из 3 партий. Каждая сыгранная партия имеет три возможных исхода: «Каспаров выиграл» (К),  «Каспаров проиграл» (П) и «Сыграли вничью» (Н). С точки зрения меры Хартли количество полной информации о результатах турнира равно  троичных единицы. Однако можно ли назвать сообщение «ККК» так уж впечатляюще информативным? Для нас и так ясно, что сильнейший шахматист планеты скорее всего окажется победителем каждой из трех партий. Наоборот, сообщение «ППП» произведет немалую сенсацию. Суть меры Шеннона в том, что в качестве априорной информации она позволяет учитывать не только количество возможных состояний источника N, но и вероятность выпадения каждого из состояний. Как и Хартли, Шеннон предлагал измерять количество информации в зависимости от того, как много неопределенности в наших знаниях устраняется полученным сообщением. Совокупность N состояний источника с присвоенными ими априорными вероятностями образует ансамбль состояний U:

, ,

Меру неопределенности выбора дискретным источником состояния из ансамбля U называют энтропией источника информации (или энтропией конечного ансамбля). Шеннон предложил измерять ее следующим образом:

Что же показывает энтропия? Она дает среднее значение (оценку) неопределенности, существующей относительно выбора источником одного из своих состояний. В нашем примере турнир теоретически может закончиться самыми непредсказуемым образом, однако мы знаем, что Каспаров играет лучше обычного любителя шахмат, поэтому полагаем, что неопределенность результатов описанного турнира невелика. Если предположить, что вероятности распределяются следующим образом:

,

тогда энтропия источника (среднее значение неопределенности исхода матча) будет равна:

Таким образом, общая мера неопределенности исхода всего турнира равна тр. ед.

Каково практическое применение меры Шеннона? Поскольку в данном случае мы используем в качестве априорной информации дополнительные сведения (вероятности выпадения состояний), то можно предположить, что неопределенность в выборе состояния источника в смысле Шеннона должна быть меньше неопределенности в смысле Хартли. Следовательно, на устранение неопределенности в выборе одного состояния в среднем потребуется меньшее количество информации, чем в случаях, когда статистическая информация не используется. Поэтому мера Шеннона показывает, что в тех случаях, когда вероятности выпадения состояний существенно различаются, передачу информации можно использовать более эффективно. Эти вопросы более глубоко изучаются в теории кодирования.

На лекции было сказано о соотношении между мерой Шеннона и мерой Хартли. В тех случаях, когда источник может с равной вероятностью оказаться в любом из своих состояний, количество информации Шеннона равно количеству информации Хартли. Можно показать, что мера Шеннона – это обобщение меры Хартли на случай неравномерного выпадения состояний источника.


 

А также другие работы, которые могут Вас заинтересовать

82475. Инфляция и антиинфляционная политика. Причины и виды инфляции. Эффект Фишера. Кривая Филлипса 35.29 KB
  Причины и виды инфляции. Антиинфляционная политика это комплекс мер по государственному регулированию экономики направленный на подавление инфляции. Причины инфляции: нарушение закона денежного обращения; диспропорции между спросом и предложением; диспропорции между доходами и расходами государства; диспропорции между источниками кредитных ресурсов и их использованием; диспропорции между денежной массой в обращении и реальными потребностями. Виды инфляции...
82476. Социальная политика государства. Кривая Лоренца и коэффициент Джини 40.92 KB
  Кривая Лоренца и коэффициент Джини. Для измерения фактического распределения доходов используюткривую Лоренца и коэффициент Джинипоказывающие какая доля совокупного дохода приходится на каждую группу населения что позволяет судить об уровне экономического неравенства в данной стране. Кривая Лоренца это метод графического изображения уровня концентрации явления. Равномерное распределение признака будет представлено в таком случае диагональю называемой линией равномерного распределения а неравномерное линией Лоренца...
82477. Экономический цикл: понятие, модели, виды. Государственное антициклическое регулирование 33.31 KB
  Кейнсианский подход: государством используются финансовобюджетные инструменты денежнокредитная политика играет вспомогательную роль. В фазе кризиса и депрессии увеличиваются государственные расходы проводится политика дешевых денег. Классический подход: основным инструментом является денежнокредитная политика. Проводится политика дорогих денег кредитная рестрикция путем повышения ставок что должно содействовать борьбе с перенакоплением капитала.
82478. Финансовая система. Госбюджет и его структура. Центральный банк и кредитно-финансовые институты 28.16 KB
  Финансовая система: Финансы властных структур Федеральные финансы Бюджет Внебюджетные фонды Пенсионный фонд Фонд социального страхования Фонд обязательного медицинского страхования Финансы субъектов Федерации Бюджет Внебюджетные фонды Финансы местного самоуправления Бюджет Финансы предприятий Финансы населения Финансы властных структур делятся на государственные и муниципальные местного самоуправления. Финансы федеральной власти субъектов Федерации и муниципальные финансы делятся на бюджетные фонды или проще бюджеты и...
82479. Денежно-кредитная система. Кредиты, их формы. Предложение кредитных денег коммерческими банками 33.21 KB
  Кредиты предоставляются на основе следующих принципов: возвратности означает необходимость возврата полученных от кре дитора финансовых ресурсов в полном объеме; срочность отражает необходимость его возврата не в любое приемле мое для заемщика время а в точно определенный срок зафиксированный в кредитном договоре; платность кредита выражает необходимость не только прямого воз врата кредита но и оплаты права на его использование в виде ссудного про цента; обеспеченность кредита выражает необходимость обеспечения защи ты...
82480. Деньги: возникновение, сущность, функции. Измерение денежной массы. Денежные агрегаты 32.39 KB
  Вторая деньги появились в результате эволюционного процесса который независимо от воли людей привел к тому что некоторые предметы выделились из общей массы и заняли особое место посредника в акте обмена. Сущность денег Деньги являются самым активным элементом экономики важнейшей частью экономической деятельности связующим звеном между участниками рынка и производством. Деньги обладают свойством обмениваемости на товары включая недвижимость драгоценности и художественные произведения. Функции денег Если рассматривать функции денег...
82481. Инфляция: сущность, виды, последствия 34.04 KB
  Сопровождается скачкообразным повышением цен от 1020 до 200300 в месяц. Рост цен не регулируется инфляция охватывает все сферы хозяйственной жизни. Поледствия инфляции: страдают больше всего те кто имеет фиксированные доходы; обесцениваются сбережение населения; падение реальной заработной платы по сравнению с номинальной; влияние на народное хозяйство: усиливается диспропорциональность развития производства; капиталы из сферы производства отвлекаются в спекулятивную торговлю; искажается нормальная структура потребительского...
82482. Антиинфляционная политика государства. Кривая Филлипса 46.16 KB
  Антиинфляционная политика государства может проводиться методами активной и адаптивной политики. Активная политика проводится с целью ликвидации причин инфляции а адаптивная для приспособления к ней экономики и смягчения ее отрицательных последствий. Активная антиинфляционная политика предполагает использование метода шоковой терапии при которой за короткий период времени уничтожаются причины инфляции как на стороне спроса так и на стороне предложения Адаптивная политика предполагает использование метода постепенного сокращения инфляции...
82483. Социальная политика государства. Источники доходов населения. Система социальной защиты 30.8 KB
  Источники доходов населения. Доходы населения это совокупность средств и затрат в натуральном выражении для поддержания физического морального экономического и интеллектуального состояния человека. Формирования денежных доходов осуществляется за счет оплаты труда работников выплат из социальных фондов социальных трансфертов предпринимательских доходов Социальная защита населения это одно из важнейших направлений социальной политики государства заключающееся в установлении и поддержании общественно необходимого материального и...