190

Средства анализа данных

Лабораторная работа

Информатика, кибернетика и программирование

Формирование в блокноте осмысленной информации, использование программных возможностей WinHex. Обработка данных в программном пакете Математика и проверка суммы вероятностей элементов списка. Расчет величины информационной энтропии.

Русский

2012-11-14

803 KB

11 чел.

Московский Энергетический Институт

(Технический Университет)

Отчет: Лабораторная работа №1

«Средства анализа данных»

Выполнил: Васильев Василий

Проверил: Рытов А.А.

Москва

2011

  1.  Сформировать в «Блокноте» осмысленный текст на русском языке из N=30 букв, содержащий только строчные буквы и пробелы. Сохранить в виде текстового (*.txt) файла.

формировал

  1.  Запусить WinHex , открыть созданный файл, и с помощью программы PrintKеy зафиксировать полученный результат (полный экран).

  1.  
    В меню Инструменты выбрать опцию Analise File  и получить на экране распределение символов, содержащихся в выбранном файле. Зафиксировать (на произвольном носителе) те буквы и их количество , вероятность появления которых в выбранном тексте выше 0.05 (5%), например :   E0h  а    0.0795    96.

  1.  Запустить пакет "Математика" и создать список полученных в предыдущем пункте букв и их частот появления в виде: ch0 = {{"а",   0.0795}, {"е", 0.0902}, {"и", 0.0637}, {"н", 0.0604}, {"о", 0.0762}, {"р", 0.0513}, {"т", 0.613}, {" ", 0.1358}}

Сделал

  1.  Нажав комбинацию клавиш Shift+Enter проверить правильность ввода (в дальнейшем любой запуск на выполнение операций сопровождается этой командой).

Все верно


  1.  Подключить блок статистической обработки  Needs["StatisticalPlots`"] и построить диаграмму Парето для введенного списка  ParetoPlot[ch0].

  1.  Вычислить длину списка (вектора) Length[ch0].

  1.  Проверить сумму вероятностей элементов списка используя две операции: сначала создать список состоящий только из значений вероятности p0=ch0[[All,2]], а затем подсчитать сумму вероятностей summch0=Sum[p0[[i]],{i, Length[ch0]}] .

  1.  Ввести список наиболее вероятных частот букв русского алфавита  в виде alfru={{"а",0.062},……..}. Возможно использование файла alfru.doc.  

  1.  Сформировать вектор частот  pa=alfru[[All,2]], определить длину списка na=Length[pa] и проверить сумму вероятностей summp=Sum[pa[[i]],{i,na}].

11. Рассчитать величину информационной энтропии H (энтропию языка):

                                               

entropyalfru=N[-Sum[pa[[i]]*Log[2,pa[[i]]],{i,na}]].

    12. Построить диаграмму Парето для наиболее вероятного распределения букв русского языка в тексте.

    13. Аналогично п.1 задания сформировать текстовый файл, содержащий 1500 строчных букв (и пробелов) русского алфавита.

Сформировал

    14. С помощью команды v1= ReadList["file",Byte,30] создать список  данных  v1, соответсвующий сформированному текстовому файлу, где file - это полный путь к файлу, который можно ввести с помощью команд меню Insert\ File Path, 30 –число вводимых символов на первом этапе.

   15. Построить гистограммы распределения букв (символов),используя команды Histogram[v1], Histogram[v1,{200,255,1}].

  


16. Установить параметр n2=60 и вести новый список данных v2=ReadList["file1500",Byte,n2], где file1500 –условное имя файла из п.13.

   17. Определить число символов, соответствующих буквам русского языка в векторе v2:              freq2=Tally[v2].

   18. Создать список частот для введенных  n2=60 символов текста:

            p2=N[freq2[[All,2]/Length[v2]], где N[ ] – преобразование к действительной форме представления чисел.

    19. Определить длину списка p2, сумму вероятностей, и информационную энтропию.

 


 20. Подготовить список для записи энтропии 120 последовательно увеличивающихся сегментов подготовленного текста entropytextout=Range[120].

    21. Используя оператор Do[expr, {j,jmax}], построить вектор значений энтропии сегментов текста, увеличивающихся каждый раз на 10 символов:

Do[{n2=10*j;

v2=ReadList["file",Byte,n2]; freq2=Tally[v2];

p2=N[freq2[[All,2]]/Length[v2]];np2=Length[p2]};

entropytextout[[j]]=N[-Sum[p2[[i]]*Log[2,p2[[i]]],{i,np2}]],{j,120}]

  22. Построить  точечный график зависимости энтропии сообщения от его длины:          ListPlot[entropytextout]


          23. Построить гистограмму распределения рассчитанных значений энтропии.

  24. Определить среднее значение Mean[entropytextout] и дисперсию  Variance[entropytextout].


  25. Используя команду Drop [list, n]- возвращает список list, из которого удалены первые n элементов: - удалить из распределения явные выбросы (значения лежащие вне диапазона Mean[entropytextout] Variance[entropytextout]) и вновь построить гистограмму распределения, рассчитать среднее значение и дисперсию энтропии.


 

А также другие работы, которые могут Вас заинтересовать

48385. Мотивы апокалипсиса культуры в романе Т.Толстой «Кысь». Черты постмодернистской поэтики в произведении 38.81 KB
  Мотивы апокалипсиса культуры в романе Т.Толстой «Кысь». Черты постмодернистской поэтики в произведении. Татьяна Толстая родилась в очень известной литературной семье. Её дед по отцовской линии Алексей Николаевич Толстой, бабушка по отцовской линии — Наталья Толстая-Крандиевская была известной поэтессой. Прадед с материнской стороны Борис Михайлович Шапиров — военный врач, деятель Красного креста, лейб-медик Николая II, действительный тайный советник
48386. Экономическая оценка инвестиций, введение в проектный анализ 667.23 KB
  Материальные инвестиции -– движимое и недвижимо имущество приобретенное или построенное до начала реализационного проекта. инвестиции пакеты акций налоговые льготы налоги Объект применения Материальные в имущество финансовые в финансовое имущество нематериальные в исследования и разработки подготовку кадров и тд Назначение На основание проекта неттоинвестиции на расширение проекта экстенсивные инвестиции реинвестиции на замену модернизацию диверсификацию на обеспечение выживаемости предприятия бруттоинвестиции...
48387. УЧАСТИЕ В ЛЕЧЕБНО-ДИАГНОСТИЧЕСКОМ И РЕАБИЛИТАЦИОННОМ ПРОЦЕССАХ 189.57 KB
  Забелин в своих трудах описал правила вскармливания ребенка грудью и показал значение грудного вскармливания для развития здорового ребенка. Была разработана государственная программа улучшения здоровья детей которая содержит следующие приоритетные направления: Улучшение качества жизни ребенка создание условий наиболее полного использования жизненного потенциала физического интеллектуального и эмоционального. Систематическое наблюдение за развитием ребенка. Совершенствование системы охраны здоровья матери и ребенка.
48388. Совместное применение нескольких фундаментальных законов 449.75 KB
  Совместное применение нескольких фундаментальных законов Законы сохранения массы импульса энергии используем для построения математической модели описывающей течение сжимаемого газа. Газообразные среды гораздо легче подвергаются сжатию: при перепаде давления в одну атмосферу плотность газа первоначально находившегося при атмосферном давлении уменьшается или увеличивается на величину сопоставимую с начальной его плотностью. Уравнение неразрывности для сжимаемого газа. По оси через грань с координатой в кубик за время поступает масса...
48389. Экономика отрасли 205.02 KB
  Производительность и оплата труда Основные фонды – средства труда которые многократно используются в хозяйственном процессе не изменяя свою вещественно-материальную форму. Оборотные фонды – предметы труда которые в процессе производства превращаются в готовую продукцию.Сущность классификация и структура ОФ СРЕДСТВА ПРОИЗВОДСТВА ПРОИЗВОДСТВЕННЫЕ ФОНДЫ средства труда предметы труда ОПФ оборотные ПФ Характеристика ОПФ Об.
48390. Организация, планирование и управление в строительстве 5.81 MB
  В учебном пособии изложены основы организации строительного производства, проектирования и изысканий в строительстве. Приведены основы планирования строительного производства и управления строительно-монтажных организаций.
48391. Основи мови Паскаль 564.32 KB
  Стандартні визначені ідентифікатори це імена всіх службових процедур, функцій та директив (не плутати з ключовими словами). Перевизначення стандартних ідентифікаторів дозволяється, але треба пам’ятати, якщо у програмі визначена змінна (константа та ін.), ім’я якої співпадає з стандартним, то під час роботи програми їх стандартну дію буде загублено.
48392. ЛИЧНОСТЬ КЕНА КИЗИ В ИСТОРИИ АМЕРИКАНСКОЙ ЛИТЕРАТУРЫ ПОСТМОДЕРНИЗМА. ПОБЛЕМАТИКА РОМАНА «ПОЛЕТ НАД ГНЕЗДОМ КУКУШКИ» 35.88 KB
  Кизи в литературе постмодернизма; проанализировать смысл названия романа; раскрыть проблематику романа Полет над гнездом кукушки. Кизи в американской литературе постмодернизма. Кен Кизи Пролетая над гнездом кукушки Амфора 2004г.
48393. ПРИНЦИПЫ ПРОЗЫ ХХ ВЕКА 24.76 KB
  Иллюзия реальность; 2. Основные понятия: Неомифологизм иллюзия реальность текст в тексте бриколаж обэриут приоритет стиля над сюжетом;уничтожение фабулы; синтаксис а не лексика; прагматика а не семантика; наблюдатель; нарушение принципов связности текста; аутестизм. Иллюзия реальность. чрезвычайно характерна игра на границе между вымыслом и реальностью.