190

Средства анализа данных

Лабораторная работа

Информатика, кибернетика и программирование

Формирование в блокноте осмысленной информации, использование программных возможностей WinHex. Обработка данных в программном пакете Математика и проверка суммы вероятностей элементов списка. Расчет величины информационной энтропии.

Русский

2012-11-14

803 KB

12 чел.

Московский Энергетический Институт

(Технический Университет)

Отчет: Лабораторная работа №1

«Средства анализа данных»

Выполнил: Васильев Василий

Проверил: Рытов А.А.

Москва

2011

  1.  Сформировать в «Блокноте» осмысленный текст на русском языке из N=30 букв, содержащий только строчные буквы и пробелы. Сохранить в виде текстового (*.txt) файла.

формировал

  1.  Запусить WinHex , открыть созданный файл, и с помощью программы PrintKеy зафиксировать полученный результат (полный экран).

  1.  
    В меню Инструменты выбрать опцию Analise File  и получить на экране распределение символов, содержащихся в выбранном файле. Зафиксировать (на произвольном носителе) те буквы и их количество , вероятность появления которых в выбранном тексте выше 0.05 (5%), например :   E0h  а    0.0795    96.

  1.  Запустить пакет "Математика" и создать список полученных в предыдущем пункте букв и их частот появления в виде: ch0 = {{"а",   0.0795}, {"е", 0.0902}, {"и", 0.0637}, {"н", 0.0604}, {"о", 0.0762}, {"р", 0.0513}, {"т", 0.613}, {" ", 0.1358}}

Сделал

  1.  Нажав комбинацию клавиш Shift+Enter проверить правильность ввода (в дальнейшем любой запуск на выполнение операций сопровождается этой командой).

Все верно


  1.  Подключить блок статистической обработки  Needs["StatisticalPlots`"] и построить диаграмму Парето для введенного списка  ParetoPlot[ch0].

  1.  Вычислить длину списка (вектора) Length[ch0].

  1.  Проверить сумму вероятностей элементов списка используя две операции: сначала создать список состоящий только из значений вероятности p0=ch0[[All,2]], а затем подсчитать сумму вероятностей summch0=Sum[p0[[i]],{i, Length[ch0]}] .

  1.  Ввести список наиболее вероятных частот букв русского алфавита  в виде alfru={{"а",0.062},……..}. Возможно использование файла alfru.doc.  

  1.  Сформировать вектор частот  pa=alfru[[All,2]], определить длину списка na=Length[pa] и проверить сумму вероятностей summp=Sum[pa[[i]],{i,na}].

11. Рассчитать величину информационной энтропии H (энтропию языка):

                                               

entropyalfru=N[-Sum[pa[[i]]*Log[2,pa[[i]]],{i,na}]].

    12. Построить диаграмму Парето для наиболее вероятного распределения букв русского языка в тексте.

    13. Аналогично п.1 задания сформировать текстовый файл, содержащий 1500 строчных букв (и пробелов) русского алфавита.

Сформировал

    14. С помощью команды v1= ReadList["file",Byte,30] создать список  данных  v1, соответсвующий сформированному текстовому файлу, где file - это полный путь к файлу, который можно ввести с помощью команд меню Insert\ File Path, 30 –число вводимых символов на первом этапе.

   15. Построить гистограммы распределения букв (символов),используя команды Histogram[v1], Histogram[v1,{200,255,1}].

  


16. Установить параметр n2=60 и вести новый список данных v2=ReadList["file1500",Byte,n2], где file1500 –условное имя файла из п.13.

   17. Определить число символов, соответствующих буквам русского языка в векторе v2:              freq2=Tally[v2].

   18. Создать список частот для введенных  n2=60 символов текста:

            p2=N[freq2[[All,2]/Length[v2]], где N[ ] – преобразование к действительной форме представления чисел.

    19. Определить длину списка p2, сумму вероятностей, и информационную энтропию.

 


 20. Подготовить список для записи энтропии 120 последовательно увеличивающихся сегментов подготовленного текста entropytextout=Range[120].

    21. Используя оператор Do[expr, {j,jmax}], построить вектор значений энтропии сегментов текста, увеличивающихся каждый раз на 10 символов:

Do[{n2=10*j;

v2=ReadList["file",Byte,n2]; freq2=Tally[v2];

p2=N[freq2[[All,2]]/Length[v2]];np2=Length[p2]};

entropytextout[[j]]=N[-Sum[p2[[i]]*Log[2,p2[[i]]],{i,np2}]],{j,120}]

  22. Построить  точечный график зависимости энтропии сообщения от его длины:          ListPlot[entropytextout]


          23. Построить гистограмму распределения рассчитанных значений энтропии.

  24. Определить среднее значение Mean[entropytextout] и дисперсию  Variance[entropytextout].


  25. Используя команду Drop [list, n]- возвращает список list, из которого удалены первые n элементов: - удалить из распределения явные выбросы (значения лежащие вне диапазона Mean[entropytextout] Variance[entropytextout]) и вновь построить гистограмму распределения, рассчитать среднее значение и дисперсию энтропии.


 

А также другие работы, которые могут Вас заинтересовать

39623. Разработка типового проекта «дублирующего» родильного дома 748.5 KB
  В рамках своего дипломного проекта я рассматриваю актуальные проблемы существующей системы учреждений родовспоможения в г. Цель 1 создать условия при которых здоровые беременные женщины и роженицы могли гарантировано получать медицинскую помощь в учреждениях родовспоможения обслуживающих район их места жительства; 2 улучшить условия получения медицинской помощи беременными женщинами и роженицами с патологиями. Таким образом деятельность перинатального центра не разгружает основной поток рожениц приходящийся на учреждения родовспоможения...
39624. Социальная установка. Определение и классификация 65.5 KB
  Исследования понятия и динамики социальных установок Понятие которое в определенной степени объясняет выбор мотива побуждающего личность к деятельности есть понятие социальной установки. Традиция изучения социальных установок сложилась в западной социальной психологии и социологии. Для обозначения социальных установок используется термин аттитюд. Особенности формирования социальных установок связаны с тем что они обладают некоторой устойчивостью и несут в себе функции облегчения алгоритмизации познания а также инструментальную функцию...
39625. Социальные сети как инструмент развития: виды и возможности 45 KB
  Могут ли сети упростить работу тренингменеджера Какие возможности они открывают для получения сотрудниками необходимых им знаний Trainings. Социальные сети в интернете зародились в 90х годах причем как профессиональное музыкальное сообщество а термин появился только в 2004. Стандартные социальные сети позволяют пользователю присоединять людей к своей сети выходить на других пользователей через своих знакомых посылать сообщения размещать фотографии тексты и любой другой контент.
39626. Сборный связевый железобетонный каркас с диафрагмами жесткости 4.5 MB
  1 Нагрузка с перекрытия передается на ригели с ригелей на колонны с колонн на фундамента а с фундамента на основание. Нагрузки в плоскости рамы Нагрузка от собственного веса ригелей Предварительно принимаем для ригелей длиной от 2. Нагрузка при таком условии будет равна: 1.4 Схема загружения от собственного веса балок Нагрузка от пола перекрытия Свойства слоев пола: 1.
39627. Проектирование шестиэтажного здания с цокольный этажом, техническим чердаком и подвалом 1.69 MB
  Вначале определяем перечень работ подготовительного периода. Для упрощения состава подготовительных работ в номенклатуру вносим укрупненную строку «Внутриплощадочные работы». Далее выделяем следующие работы: срезку растительного слоя; вертикальную планировку поверхности; разработку грунта в отвал и транспорт с дальнейшим добором вручную.
39628. УСТАНОВКА (АТТИТЮД) 44 KB
  В российской психологии разработка общепсихологической теории установки принадлежит Д. Объектом для установки может быть все на что реагирует человек: любой символ фраза лозунг лицо учреждение идея. Можно иметь установки в отношении определенной профессии Организации Объединенных Наций политической партии книги национального меньшинства марки стирального порошка блондинок и т. Новорожденный ребенок имеет установки лишь относительно тех стимулов на которые существует врожденная реакция удовольствие или боль.
39629. Требования и порядок создания информационно-развлекательной системы «Развлекательный портал» 9.07 MB
  Порядок оформления работы Стадии: Техническое задание а Обоснование перспективности реализуемого проекта: постановка задачи; сбор базовых материалов; установка критериев системы; необходимость проведения исследовательских работ; b Исследовательская работа: выбор оптимальных методов решения поставленной задачи; определение требований к техническим средствам; обоснование практической возможности реализации данного проекта; в Разработка и утверждение технического задания: определение требований к проекту; ...
39630. КОНСПЕКТ ЛЕКЦИЙ ПО ОСНОВАМ ОХРАНЫ ТРУДА 3.04 MB
  В соответствии с этой статьёй государство даёт гарантии каждому своему гражданину на надлежащие безопасные и здоровые условия труда и на заработную плату не ниже той которая определена законом. Таким образом в Конституции за государством закреплена забота об условиях труда его научной организации и это является одним из основных направлений его политики. Проблемами связанными с обеспечением здоровых и безопасных условий труда занимается охрана труда.
39631. Расчет газотурбинной установки мощностью 16 МВт 1.06 MB
  темы спроектирован регулируемый сопловой аппарат свободной силовой турбины найдены зависимости различных параметров при повороте сопловых лопаток. Также дипломный проект включает в себя: расчет тепловой схемы двигателя с последующим выбором Gв и к0 газодинамический расчет турбин по среднему диаметру расчет закона закрутки всех ступеней турбины высокого давления и силовой турбины расчеты на прочность рабочей лопатки 3й ступени силовой турбины технологию эксплуатации ГПА описание конструктивных особенностей экономическую частьрасчет...