190

Средства анализа данных

Лабораторная работа

Информатика, кибернетика и программирование

Формирование в блокноте осмысленной информации, использование программных возможностей WinHex. Обработка данных в программном пакете Математика и проверка суммы вероятностей элементов списка. Расчет величины информационной энтропии.

Русский

2012-11-14

803 KB

11 чел.

Московский Энергетический Институт

(Технический Университет)

Отчет: Лабораторная работа №1

«Средства анализа данных»

Выполнил: Васильев Василий

Проверил: Рытов А.А.

Москва

2011

  1.  Сформировать в «Блокноте» осмысленный текст на русском языке из N=30 букв, содержащий только строчные буквы и пробелы. Сохранить в виде текстового (*.txt) файла.

формировал

  1.  Запусить WinHex , открыть созданный файл, и с помощью программы PrintKеy зафиксировать полученный результат (полный экран).

  1.  
    В меню Инструменты выбрать опцию Analise File  и получить на экране распределение символов, содержащихся в выбранном файле. Зафиксировать (на произвольном носителе) те буквы и их количество , вероятность появления которых в выбранном тексте выше 0.05 (5%), например :   E0h  а    0.0795    96.

  1.  Запустить пакет "Математика" и создать список полученных в предыдущем пункте букв и их частот появления в виде: ch0 = {{"а",   0.0795}, {"е", 0.0902}, {"и", 0.0637}, {"н", 0.0604}, {"о", 0.0762}, {"р", 0.0513}, {"т", 0.613}, {" ", 0.1358}}

Сделал

  1.  Нажав комбинацию клавиш Shift+Enter проверить правильность ввода (в дальнейшем любой запуск на выполнение операций сопровождается этой командой).

Все верно


  1.  Подключить блок статистической обработки  Needs["StatisticalPlots`"] и построить диаграмму Парето для введенного списка  ParetoPlot[ch0].

  1.  Вычислить длину списка (вектора) Length[ch0].

  1.  Проверить сумму вероятностей элементов списка используя две операции: сначала создать список состоящий только из значений вероятности p0=ch0[[All,2]], а затем подсчитать сумму вероятностей summch0=Sum[p0[[i]],{i, Length[ch0]}] .

  1.  Ввести список наиболее вероятных частот букв русского алфавита  в виде alfru={{"а",0.062},……..}. Возможно использование файла alfru.doc.  

  1.  Сформировать вектор частот  pa=alfru[[All,2]], определить длину списка na=Length[pa] и проверить сумму вероятностей summp=Sum[pa[[i]],{i,na}].

11. Рассчитать величину информационной энтропии H (энтропию языка):

                                               

entropyalfru=N[-Sum[pa[[i]]*Log[2,pa[[i]]],{i,na}]].

    12. Построить диаграмму Парето для наиболее вероятного распределения букв русского языка в тексте.

    13. Аналогично п.1 задания сформировать текстовый файл, содержащий 1500 строчных букв (и пробелов) русского алфавита.

Сформировал

    14. С помощью команды v1= ReadList["file",Byte,30] создать список  данных  v1, соответсвующий сформированному текстовому файлу, где file - это полный путь к файлу, который можно ввести с помощью команд меню Insert\ File Path, 30 –число вводимых символов на первом этапе.

   15. Построить гистограммы распределения букв (символов),используя команды Histogram[v1], Histogram[v1,{200,255,1}].

  


16. Установить параметр n2=60 и вести новый список данных v2=ReadList["file1500",Byte,n2], где file1500 –условное имя файла из п.13.

   17. Определить число символов, соответствующих буквам русского языка в векторе v2:              freq2=Tally[v2].

   18. Создать список частот для введенных  n2=60 символов текста:

            p2=N[freq2[[All,2]/Length[v2]], где N[ ] – преобразование к действительной форме представления чисел.

    19. Определить длину списка p2, сумму вероятностей, и информационную энтропию.

 


 20. Подготовить список для записи энтропии 120 последовательно увеличивающихся сегментов подготовленного текста entropytextout=Range[120].

    21. Используя оператор Do[expr, {j,jmax}], построить вектор значений энтропии сегментов текста, увеличивающихся каждый раз на 10 символов:

Do[{n2=10*j;

v2=ReadList["file",Byte,n2]; freq2=Tally[v2];

p2=N[freq2[[All,2]]/Length[v2]];np2=Length[p2]};

entropytextout[[j]]=N[-Sum[p2[[i]]*Log[2,p2[[i]]],{i,np2}]],{j,120}]

  22. Построить  точечный график зависимости энтропии сообщения от его длины:          ListPlot[entropytextout]


          23. Построить гистограмму распределения рассчитанных значений энтропии.

  24. Определить среднее значение Mean[entropytextout] и дисперсию  Variance[entropytextout].


  25. Используя команду Drop [list, n]- возвращает список list, из которого удалены первые n элементов: - удалить из распределения явные выбросы (значения лежащие вне диапазона Mean[entropytextout] Variance[entropytextout]) и вновь построить гистограмму распределения, рассчитать среднее значение и дисперсию энтропии.


 

А также другие работы, которые могут Вас заинтересовать

81603. Разработка проекта реконструкции системы электроснабжения промышленного предприятия (Улан-Удэнский авиационный завод) 12.39 MB
  В данном дипломном проекте решаются различные вопросы такие как: определение токов короткого замыкания расчет релейной защиты и автоматики определяются потери мощности и электроэнергии рассматриваются показатели качества электрической энергии.
81604. Основные и второстепенные способы номинации современных русских жаргонов НМО 533 KB
  Кроме того, на протяжении нескольких лет автор работы является непосредственным носителем жаргона одного из неформальных молодёжных объединений. Многие из тех, кто составляет его близкое окружение, также являются так называемыми «неформалами» разных направлений.
81605. Эволюция образа латиноамериканцев в поп-культуре США (на материале развлекательных телепрограмм) 2.05 MB
  Цель данной работы – проследить эволюцию образа латиноамериканцев на телевидении США за последние десять лет на материале наиболее популярных развлекательных телепередач и выяснить, как проявляется влияние латиноамериканской культуры на массовую американскую поп-культуру в телевизионных развлекательных СМИ.
81606. Разработать адаптированную технологию работы с медиаданными, видео- и служебными форматами при видеомонтажных работах в рамках произвоственной видеостудии кафедры ИКТ – Viditory 6.16 MB
  На каждом этапе развития технологий в области цифрового видеопроизводства растет спектр видеопродукт и растет спрос на них. Различные кинокомпании вещательные компании и отдельные видеостудии занимают одну из центральных ролей в инфраструктуре цифрового видео.
81607. Разработка системы базового финансового учёта для организации 556.19 KB
  Целью данной работы является разработка системы, позволяющая организовать и автоматизировать финансовые взаимоотношения между сотрудником и работодателем внутри организации. Задачи, которые были решены в этой работе: анализ существующих на рынке решений; азработка прототипа; проектирование и разработка системы;
81608. Бухгалтерский учёт, анализ и аудит: Методические указания 413.5 KB
  Выпускная квалификационная работа призвана показать глубину усвоения выпускником теоретических и практических знаний по специальности, умение грамотно и аргументировано излагать свои мысли и формулировать конкретные предложения по улучшению ведения учетно-аналитической работы в организациях.
81609. Перевод с английского юмористических рассказов В. Аллена 580.5 KB
  Ориентиром и примером стояли перед глазами давно любимые пьесы Ионеско, но в то же время было понятно, что найти ненайденный ещё в наш активный, даже перенасыщенный переводческий век необработанный алмаз почти невозможно.
81610. Финансы и кредит: Методические рекомендации 486.5 KB
  В формулировку темы ВКР необходимо включить конкретное название объекта на примере которого проводится исследование. Конкретизировать тему можно следующим образом: Анализ основных финансовых показателей деятельности предприятия на примере.
81611. Наивный реализм в повседневной жизни и его роль в изучении социальных конфликтов и непонимания 42.7 KB
  Изучение и выявление возможных причин производственных несчастных случаев профессиональных заболеваний аварий взрывов пожаров и разработка мероприятий и требований направленных на устранение этих причин позволяют создать безопасные и благоприятные условия для труда человека.