190

Средства анализа данных

Лабораторная работа

Информатика, кибернетика и программирование

Формирование в блокноте осмысленной информации, использование программных возможностей WinHex. Обработка данных в программном пакете Математика и проверка суммы вероятностей элементов списка. Расчет величины информационной энтропии.

Русский

2012-11-14

803 KB

12 чел.

Московский Энергетический Институт

(Технический Университет)

Отчет: Лабораторная работа №1

«Средства анализа данных»

Выполнил: Васильев Василий

Проверил: Рытов А.А.

Москва

2011

  1.  Сформировать в «Блокноте» осмысленный текст на русском языке из N=30 букв, содержащий только строчные буквы и пробелы. Сохранить в виде текстового (*.txt) файла.

формировал

  1.  Запусить WinHex , открыть созданный файл, и с помощью программы PrintKеy зафиксировать полученный результат (полный экран).

  1.  
    В меню Инструменты выбрать опцию Analise File  и получить на экране распределение символов, содержащихся в выбранном файле. Зафиксировать (на произвольном носителе) те буквы и их количество , вероятность появления которых в выбранном тексте выше 0.05 (5%), например :   E0h  а    0.0795    96.

  1.  Запустить пакет "Математика" и создать список полученных в предыдущем пункте букв и их частот появления в виде: ch0 = {{"а",   0.0795}, {"е", 0.0902}, {"и", 0.0637}, {"н", 0.0604}, {"о", 0.0762}, {"р", 0.0513}, {"т", 0.613}, {" ", 0.1358}}

Сделал

  1.  Нажав комбинацию клавиш Shift+Enter проверить правильность ввода (в дальнейшем любой запуск на выполнение операций сопровождается этой командой).

Все верно


  1.  Подключить блок статистической обработки  Needs["StatisticalPlots`"] и построить диаграмму Парето для введенного списка  ParetoPlot[ch0].

  1.  Вычислить длину списка (вектора) Length[ch0].

  1.  Проверить сумму вероятностей элементов списка используя две операции: сначала создать список состоящий только из значений вероятности p0=ch0[[All,2]], а затем подсчитать сумму вероятностей summch0=Sum[p0[[i]],{i, Length[ch0]}] .

  1.  Ввести список наиболее вероятных частот букв русского алфавита  в виде alfru={{"а",0.062},……..}. Возможно использование файла alfru.doc.  

  1.  Сформировать вектор частот  pa=alfru[[All,2]], определить длину списка na=Length[pa] и проверить сумму вероятностей summp=Sum[pa[[i]],{i,na}].

11. Рассчитать величину информационной энтропии H (энтропию языка):

                                               

entropyalfru=N[-Sum[pa[[i]]*Log[2,pa[[i]]],{i,na}]].

    12. Построить диаграмму Парето для наиболее вероятного распределения букв русского языка в тексте.

    13. Аналогично п.1 задания сформировать текстовый файл, содержащий 1500 строчных букв (и пробелов) русского алфавита.

Сформировал

    14. С помощью команды v1= ReadList["file",Byte,30] создать список  данных  v1, соответсвующий сформированному текстовому файлу, где file - это полный путь к файлу, который можно ввести с помощью команд меню Insert\ File Path, 30 –число вводимых символов на первом этапе.

   15. Построить гистограммы распределения букв (символов),используя команды Histogram[v1], Histogram[v1,{200,255,1}].

  


16. Установить параметр n2=60 и вести новый список данных v2=ReadList["file1500",Byte,n2], где file1500 –условное имя файла из п.13.

   17. Определить число символов, соответствующих буквам русского языка в векторе v2:              freq2=Tally[v2].

   18. Создать список частот для введенных  n2=60 символов текста:

            p2=N[freq2[[All,2]/Length[v2]], где N[ ] – преобразование к действительной форме представления чисел.

    19. Определить длину списка p2, сумму вероятностей, и информационную энтропию.

 


 20. Подготовить список для записи энтропии 120 последовательно увеличивающихся сегментов подготовленного текста entropytextout=Range[120].

    21. Используя оператор Do[expr, {j,jmax}], построить вектор значений энтропии сегментов текста, увеличивающихся каждый раз на 10 символов:

Do[{n2=10*j;

v2=ReadList["file",Byte,n2]; freq2=Tally[v2];

p2=N[freq2[[All,2]]/Length[v2]];np2=Length[p2]};

entropytextout[[j]]=N[-Sum[p2[[i]]*Log[2,p2[[i]]],{i,np2}]],{j,120}]

  22. Построить  точечный график зависимости энтропии сообщения от его длины:          ListPlot[entropytextout]


          23. Построить гистограмму распределения рассчитанных значений энтропии.

  24. Определить среднее значение Mean[entropytextout] и дисперсию  Variance[entropytextout].


  25. Используя команду Drop [list, n]- возвращает список list, из которого удалены первые n элементов: - удалить из распределения явные выбросы (значения лежащие вне диапазона Mean[entropytextout] Variance[entropytextout]) и вновь построить гистограмму распределения, рассчитать среднее значение и дисперсию энтропии.


 

А также другие работы, которые могут Вас заинтересовать

40591. Создание ERD диаграмм методом IDEF I 48.5 KB
  Организационный момент 23 мин: Приветствие фиксация отсутствующих проверка санитарного состояния аудитории заполнение журнала рапортички проверка подготовленности студентов к занятию. Напоминание правил техники безопасности при работе с ПК; 2. Сообщение темы цели и задач практикума 23 мин: Цели: Приобретение навыков создания SDT моделей по методологии IDEF0. Актуализация опорных знаний и умений студентов 1015 мин: устный опрос занятие 27 п.
40592. Сущность объектно-ориентированного подхода 16.76 KB
  Объектноориентированный подход использует объектную декомпозицию при этом статическая структура системы описывается в терминах объектов и связей между ними а поведение системы описывается в терминах обмена сообщениями между объектами. Каждый объект системы обладает своим собственным поведением моделирующим поведение объекта реального мира. Абстрагирование это выделение существенных характеристик некоторого объекта которые отличают его от всех других видов объектов и таким образом четко определяют его концептуальные границы...
40593. Унифицированный язык UML 17.75 KB
  Например нотация диаграммы классов определяет каким образом представляются такие элементы и понятия как класс ассоциация и множественность. Определение классов и объектов одна из самых сложных задач объектноориентированного проектирования. Наследование означает построение новых классов на основе существующих с возможностью добавления или переопределения данных и методов. Наследование и полиморфизм обеспечивают возможность определения новой функциональности классов с помощью создания производных классов потомков базовых классов.
40594. Диаграммы вариантов использования 52.06 KB
  Суть диаграммы вариантов использования состоит в следующем. Проектируемая система представляется в виде множества сущностей или актеров взаимодействующих с системой с помощью вариантов использования. Вариант использования служит для описания сервисов которые система предоставляет актеру.
40595. Диаграммы классов 37.79 KB
  Диаграмма классов определяет типы объектов системы и различного рода статические связи которые существуют между ними.1 Диаграмма классов На диаграммах классов изображаются также атрибуты классов операции классов и ограничения которые накладываются на связи между объектами.1 изображена типичная диаграмма классов.
40596. Диаграммы состояний 39.47 KB
  Диаграмма состояний показывает автомат. Ее частной разновидностью является диаграмма деятельности в которой все или большая часть состояний это состояния деятельности а все или большая часть переходов инициируются в результате завершения деятельности в исходном состоянии. Таким образом при моделировании жизненного цикла объекта полезны как диаграммы деятельности так и диаграммы состояний.
40597. Диаграммы потоков данных DED. АИС 55 KB
  Вендрова Проектирование ПО Ход урока Организационный момент 24 мин: Приветствие оформление документов к занятию Повторение пройденного материала применяемая методика выводы1520 мин Устные ответы на вопросы занятие 10 п.5 Сообщение темы урока постановка цели и задачи:13 мин: Изучить и закрепить на примере понятие модели информационной системы; Изучить основные элементы DFD диаграмм Изложение нового материала применяемая методика: 5060 мин. лекция с опорой на презентацию понятие модели; цель...
40598. Отражательный фазовращатель 23.11 KB
  Отражательный фазовращатель является одноплечным устройством, которое в идеальном случае полностью отражает ЭМВ, поступающую на его вход. При этом фаза отраженной волны изменяется на по отношению к фазе падающей волны. Такой фазовращатель можно представить в виде эквивалентного двухполюсника, описываемого коэффициентом отражения на входе///
40599. Y-циркулятор 36.5 KB
  Y-циркулятор являє собою зєднання під кутом 120 трьох ліній передачі (хвилевідної, коаксіальної, смужкової). У центрі зчленовування ліній розміщується намагнічений уздовж осі феритовий стрижень або диск