190

Средства анализа данных

Лабораторная работа

Информатика, кибернетика и программирование

Формирование в блокноте осмысленной информации, использование программных возможностей WinHex. Обработка данных в программном пакете Математика и проверка суммы вероятностей элементов списка. Расчет величины информационной энтропии.

Русский

2012-11-14

803 KB

12 чел.

Московский Энергетический Институт

(Технический Университет)

Отчет: Лабораторная работа №1

«Средства анализа данных»

Выполнил: Васильев Василий

Проверил: Рытов А.А.

Москва

2011

  1.  Сформировать в «Блокноте» осмысленный текст на русском языке из N=30 букв, содержащий только строчные буквы и пробелы. Сохранить в виде текстового (*.txt) файла.

формировал

  1.  Запусить WinHex , открыть созданный файл, и с помощью программы PrintKеy зафиксировать полученный результат (полный экран).

  1.  
    В меню Инструменты выбрать опцию Analise File  и получить на экране распределение символов, содержащихся в выбранном файле. Зафиксировать (на произвольном носителе) те буквы и их количество , вероятность появления которых в выбранном тексте выше 0.05 (5%), например :   E0h  а    0.0795    96.

  1.  Запустить пакет "Математика" и создать список полученных в предыдущем пункте букв и их частот появления в виде: ch0 = {{"а",   0.0795}, {"е", 0.0902}, {"и", 0.0637}, {"н", 0.0604}, {"о", 0.0762}, {"р", 0.0513}, {"т", 0.613}, {" ", 0.1358}}

Сделал

  1.  Нажав комбинацию клавиш Shift+Enter проверить правильность ввода (в дальнейшем любой запуск на выполнение операций сопровождается этой командой).

Все верно


  1.  Подключить блок статистической обработки  Needs["StatisticalPlots`"] и построить диаграмму Парето для введенного списка  ParetoPlot[ch0].

  1.  Вычислить длину списка (вектора) Length[ch0].

  1.  Проверить сумму вероятностей элементов списка используя две операции: сначала создать список состоящий только из значений вероятности p0=ch0[[All,2]], а затем подсчитать сумму вероятностей summch0=Sum[p0[[i]],{i, Length[ch0]}] .

  1.  Ввести список наиболее вероятных частот букв русского алфавита  в виде alfru={{"а",0.062},……..}. Возможно использование файла alfru.doc.  

  1.  Сформировать вектор частот  pa=alfru[[All,2]], определить длину списка na=Length[pa] и проверить сумму вероятностей summp=Sum[pa[[i]],{i,na}].

11. Рассчитать величину информационной энтропии H (энтропию языка):

                                               

entropyalfru=N[-Sum[pa[[i]]*Log[2,pa[[i]]],{i,na}]].

    12. Построить диаграмму Парето для наиболее вероятного распределения букв русского языка в тексте.

    13. Аналогично п.1 задания сформировать текстовый файл, содержащий 1500 строчных букв (и пробелов) русского алфавита.

Сформировал

    14. С помощью команды v1= ReadList["file",Byte,30] создать список  данных  v1, соответсвующий сформированному текстовому файлу, где file - это полный путь к файлу, который можно ввести с помощью команд меню Insert\ File Path, 30 –число вводимых символов на первом этапе.

   15. Построить гистограммы распределения букв (символов),используя команды Histogram[v1], Histogram[v1,{200,255,1}].

  


16. Установить параметр n2=60 и вести новый список данных v2=ReadList["file1500",Byte,n2], где file1500 –условное имя файла из п.13.

   17. Определить число символов, соответствующих буквам русского языка в векторе v2:              freq2=Tally[v2].

   18. Создать список частот для введенных  n2=60 символов текста:

            p2=N[freq2[[All,2]/Length[v2]], где N[ ] – преобразование к действительной форме представления чисел.

    19. Определить длину списка p2, сумму вероятностей, и информационную энтропию.

 


 20. Подготовить список для записи энтропии 120 последовательно увеличивающихся сегментов подготовленного текста entropytextout=Range[120].

    21. Используя оператор Do[expr, {j,jmax}], построить вектор значений энтропии сегментов текста, увеличивающихся каждый раз на 10 символов:

Do[{n2=10*j;

v2=ReadList["file",Byte,n2]; freq2=Tally[v2];

p2=N[freq2[[All,2]]/Length[v2]];np2=Length[p2]};

entropytextout[[j]]=N[-Sum[p2[[i]]*Log[2,p2[[i]]],{i,np2}]],{j,120}]

  22. Построить  точечный график зависимости энтропии сообщения от его длины:          ListPlot[entropytextout]


          23. Построить гистограмму распределения рассчитанных значений энтропии.

  24. Определить среднее значение Mean[entropytextout] и дисперсию  Variance[entropytextout].


  25. Используя команду Drop [list, n]- возвращает список list, из которого удалены первые n элементов: - удалить из распределения явные выбросы (значения лежащие вне диапазона Mean[entropytextout] Variance[entropytextout]) и вновь построить гистограмму распределения, рассчитать среднее значение и дисперсию энтропии.


 

А также другие работы, которые могут Вас заинтересовать

80377. Сучасні економічні системи. Особливості розвитку перехідних економік 258 KB
  Особливості розвитку перехідних економік Вступ до теми Мета заняття: охарактеризувати економічну систему капіталізму вільної конкуренції зясувати сутність монополістичного капіталізму; означити сутність та моделі змішаної економіки; охарактеризувати економічну систему сучасного капіталізму визначити механізм її функціонування розглянути еволюцію та перспективи розвитку сучасного капіталізму. Моделі змішаної економіки. Механізм функціонування соціалістичної економіки. Особливості ринкової трансформації української економіки.
80378. Економічні аспекти глобальних проблем та їх вплив на економічний розвиток України 121 KB
  Глобальні проблеми — це всезагальні проблеми, що відзначаються загальнопланетарним за своїми масштабами і значенням характером, повязані з життєвими інтересами народів усіх країн, становлять загрозу життю для всього людства і можуть бути вирішенні спільними діями всіх країн світу.
80379. ПРЕДМЕТ І МЕТОД ПОЛІТИЧНОЇ ЕКОНОМІЇ 136 KB
  Метою сьогоднішнього заняття є дослідити основні етапи розвитку та визначити предмет обєкт функції методи політекономії зясувати суть економічних категорій та законів а також визначити місце політичної економії в системі економічних наук. Політична економія як теоретикометодологічна база інших економічних наук. Oikonomi буквально мистецтво ведення домашнього господарства нині застосовують у чотирьох значеннях: народне господарство певної країни групи країн або всього світу; сфера господарської діяльності людини у якій...
80380. Виробництво матеріальних благ і послуг. Продукт і характер праці 138 KB
  Галузі виробництва. Основні фактори суспільного виробництва та їхній взаємозвязок. Соціальна і економічна ефективність виробництва. Метою сьогоднішнього заняття є дослідити процес суспільного виробництва фактори які впливають на процес виробництва; межу виробничих можливостей; продуктивні сили суспільства.
80381. ЕКОНОМІЧНІ ПОТРЕБИ ТА ЕКОНОМІЧНІ ІНТЕРЕСИ 157 KB
  Метою заняття є розкриття суті економічних потреб їх безмежності розгляд закону зростання потреб охарактеризувати корисність блага і суть економічних інтересів. План Економічні потреби суспільства їх сутність і класифікація. Безмежність потреб.
80382. Соціально-економічний устрій суспільства. Економічна система та закони її розвитку 165.5 KB
  Економічний зміст власності типи види форми. Економічний зміст та юридична форма власності. Типи види і форми власності. Наслідки процесів роздержавлення і приватизації власності в Україні.
80383. Правовий режим земель природно-заповідного фонду й іншого природоохоронного призначення 47.76 KB
  Землі природно-заповідного фонду — це ділянки суші і водного простору з природними комплексами та обєктами, що мають особливу природоохоронну, екологічну, наукову, естетичну, рекреаційну та іншу цінність, яким відповідно до закону надано статус територій
80384. Правовий режим земель оздоровчого та рекреаційного призначення 45.55 KB
  До земель оздоровчого призначення належать землі, що мають природні лікувальні властивості, що їх використовують або Вони можуть використовуватися для профілактики захворювань і лікування людей. Лікувально-оздоровчі властивості мають не самі землі
80385. Правовий режим земель історико-культурного призначення 50.46 KB
  емлі історико-культурного призначення можуть перебувати у державній, комунальній та приватній власності. При цьому Закон України «Про охорону культурної спадщини» передбачає особливості здійснення права власності на такі землі залежно