190

Средства анализа данных

Лабораторная работа

Информатика, кибернетика и программирование

Формирование в блокноте осмысленной информации, использование программных возможностей WinHex. Обработка данных в программном пакете Математика и проверка суммы вероятностей элементов списка. Расчет величины информационной энтропии.

Русский

2012-11-14

803 KB

12 чел.

Московский Энергетический Институт

(Технический Университет)

Отчет: Лабораторная работа №1

«Средства анализа данных»

Выполнил: Васильев Василий

Проверил: Рытов А.А.

Москва

2011

  1.  Сформировать в «Блокноте» осмысленный текст на русском языке из N=30 букв, содержащий только строчные буквы и пробелы. Сохранить в виде текстового (*.txt) файла.

формировал

  1.  Запусить WinHex , открыть созданный файл, и с помощью программы PrintKеy зафиксировать полученный результат (полный экран).

  1.  
    В меню Инструменты выбрать опцию Analise File  и получить на экране распределение символов, содержащихся в выбранном файле. Зафиксировать (на произвольном носителе) те буквы и их количество , вероятность появления которых в выбранном тексте выше 0.05 (5%), например :   E0h  а    0.0795    96.

  1.  Запустить пакет "Математика" и создать список полученных в предыдущем пункте букв и их частот появления в виде: ch0 = {{"а",   0.0795}, {"е", 0.0902}, {"и", 0.0637}, {"н", 0.0604}, {"о", 0.0762}, {"р", 0.0513}, {"т", 0.613}, {" ", 0.1358}}

Сделал

  1.  Нажав комбинацию клавиш Shift+Enter проверить правильность ввода (в дальнейшем любой запуск на выполнение операций сопровождается этой командой).

Все верно


  1.  Подключить блок статистической обработки  Needs["StatisticalPlots`"] и построить диаграмму Парето для введенного списка  ParetoPlot[ch0].

  1.  Вычислить длину списка (вектора) Length[ch0].

  1.  Проверить сумму вероятностей элементов списка используя две операции: сначала создать список состоящий только из значений вероятности p0=ch0[[All,2]], а затем подсчитать сумму вероятностей summch0=Sum[p0[[i]],{i, Length[ch0]}] .

  1.  Ввести список наиболее вероятных частот букв русского алфавита  в виде alfru={{"а",0.062},……..}. Возможно использование файла alfru.doc.  

  1.  Сформировать вектор частот  pa=alfru[[All,2]], определить длину списка na=Length[pa] и проверить сумму вероятностей summp=Sum[pa[[i]],{i,na}].

11. Рассчитать величину информационной энтропии H (энтропию языка):

                                               

entropyalfru=N[-Sum[pa[[i]]*Log[2,pa[[i]]],{i,na}]].

    12. Построить диаграмму Парето для наиболее вероятного распределения букв русского языка в тексте.

    13. Аналогично п.1 задания сформировать текстовый файл, содержащий 1500 строчных букв (и пробелов) русского алфавита.

Сформировал

    14. С помощью команды v1= ReadList["file",Byte,30] создать список  данных  v1, соответсвующий сформированному текстовому файлу, где file - это полный путь к файлу, который можно ввести с помощью команд меню Insert\ File Path, 30 –число вводимых символов на первом этапе.

   15. Построить гистограммы распределения букв (символов),используя команды Histogram[v1], Histogram[v1,{200,255,1}].

  


16. Установить параметр n2=60 и вести новый список данных v2=ReadList["file1500",Byte,n2], где file1500 –условное имя файла из п.13.

   17. Определить число символов, соответствующих буквам русского языка в векторе v2:              freq2=Tally[v2].

   18. Создать список частот для введенных  n2=60 символов текста:

            p2=N[freq2[[All,2]/Length[v2]], где N[ ] – преобразование к действительной форме представления чисел.

    19. Определить длину списка p2, сумму вероятностей, и информационную энтропию.

 


 20. Подготовить список для записи энтропии 120 последовательно увеличивающихся сегментов подготовленного текста entropytextout=Range[120].

    21. Используя оператор Do[expr, {j,jmax}], построить вектор значений энтропии сегментов текста, увеличивающихся каждый раз на 10 символов:

Do[{n2=10*j;

v2=ReadList["file",Byte,n2]; freq2=Tally[v2];

p2=N[freq2[[All,2]]/Length[v2]];np2=Length[p2]};

entropytextout[[j]]=N[-Sum[p2[[i]]*Log[2,p2[[i]]],{i,np2}]],{j,120}]

  22. Построить  точечный график зависимости энтропии сообщения от его длины:          ListPlot[entropytextout]


          23. Построить гистограмму распределения рассчитанных значений энтропии.

  24. Определить среднее значение Mean[entropytextout] и дисперсию  Variance[entropytextout].


  25. Используя команду Drop [list, n]- возвращает список list, из которого удалены первые n элементов: - удалить из распределения явные выбросы (значения лежащие вне диапазона Mean[entropytextout] Variance[entropytextout]) и вновь построить гистограмму распределения, рассчитать среднее значение и дисперсию энтропии.


 

А также другие работы, которые могут Вас заинтересовать

36727. СОЗДАНИЕ БАЗЫ ДАННЫХ «СЕССИЯ» И ОСНОВЫ РАБОТЫ В НЕЙ 107 KB
  В меню Файл выберите команду Создать Новая база данных. Если значение типа Текстовый не подходит то нажмите кнопку раскрытия списка и выберите нужный тип данных. Сохраните таблицу выполнив следующие действия: выберите пункт меню Файл Сохранить; в окне диалога Сохранение введите имя таблицы СТУДЕНТ; нажмите кнопку ОК. Для этого в окне базы данных СЕССИЯ выберите таблицу СТУДЕНТ и нажмите кнопку Открыть или дважды щелкните мышью по таблице СТУДЕНТ.
36728. Определить входное сопротивление схемы операционного усилителя, собрать схему и получить осциллограмму на входе и выходе 46.12 KB
  По формуле считаем входное сопротивление R=U I = 1 1 = 1 кОм Осциллограмма Вывод: Схема установки собрана и работает. Измерено сопротивление на входе и выходе.
36729. СОЗДАНИЕ БАЗЫ ДАННЫХ И ОСНОВЫ РАБОТЫ В НЕЙ 1.14 MB
  СОЗДАНИЕ БАЗЫ ДАННЫХ И ОСНОВЫ РАБОТЫ В НЕЙ Цель работы: изучить рабочее пространство приложения MS ccess научиться формировать структуру таблиц создавать формы и отчеты познакомиться с возможностями фильтрации данных ОК ПК СК. Создайте новую базу данных СЕССИЯ. Технология работы Откройте программу Microsoft ccess 2010: Пуск Программы Microsoft ccess Microsoft ccess 2010 В меню Файл выберите команду Создать Новая база данных рис.
36730. Работа с формулами в Excel 144.5 KB
  Создайте таблицу содержащую следующие поля: № п п Фамилия Информатика История Психология Математика Иностранный язык Средний балл за сессию Средний балл группы за сессию 2. Заполните таблицу данными. Рассчитайте средний балл за сессию для всей группы В результате проделанной работы вы должны получить примерно такую таблицу как на рис. Для назначения стипендии с помощью Расширенного фильтра выберите в отдельную таблицу студентов сдавших сессию на 4 и 5.
36731. РАЗРАБОТКА СХЕМЫ И СОЗДАНИЕ СТРУКТУРЫ РЕЛЯЦИОННОЙ БАЗЫ ДАННЫХ. Методичка 115 KB
  Заполните вновь созданные таблицы СЕССИЯ и СТИПЕНДИЯ данными как это показано на рис. Для этого: в окне базы данных СЕССИЯ выберите объект Таблицы; щелкните по таблице Студент нажмите кнопку Конструктор. Определите ключевое поле для таблицы СТУДЕНТ. Структура таблицы СЕССИЯ Признак ключа Имя поля Тип поля Формат поля Размер поля Ключевое Номер Текстовое 5 Оценка 1 Числовое Фиксированный Длинное целое Оценка 2 Числовое Фиксированный Длинное целое Оценка 3 Числовое Фиксированный Длинное целое Оценка 4 Числовое...
36732. Получить сигнал пилообразной формы и исследовать влияние фазы гармоник 85.01 KB
  Для решения воспользуемся формулой: где: Un напряжение k текущий номер гармоник n число гармоник w круговая частота t время Ход работы: Собираем установку.
36733. РАЗРАБОТКА СХЕМЫ И СОЗДАНИЕ СТРУКТУРЫ РЕЛЯЦИОННОЙ БАЗЫ ДАННЫХ 1.07 MB
  Структура таблицы СЕССИЯ Признак ключа Имя поля Тип поля Формат поля Размер поля Ключевое Номер Текстовое 5 Оценка 1 Числовое Фиксированный Длинное целое Оценка 2 Числовое Фиксированный Длинное целое Оценка 3 Числовое Фиксированный Длинное целое Оценка 4 Числовое Фиксированный Длинное целое Результат Текстовое 3 Таблица 2. Структура таблицы СТИПЕНДИЯ Признак ключа Имя поля Тип поля Формат поля Размер поля Ключевое Результат Текстовое 3 Процент Числовое Процентный Одинарное с плавающей точкой Заполните вновь созданные таблицы...
36734. Задания для лабораторных работ по дисциплине Информатика 892.5 KB
  Найти сумму элементов среди элементов расположенных на главной диагонали матрицы А.Найти максимальный элемент в 3ей строке матрицы 3.Поменять местами найденный максимальный элемент и значение S.Найти новый одномерный массив В из минимальных элементов каждой строки матрицы А.
36735. Методы тестирования аппаратных средств ПК 60.79 KB
  Включить компьютер и запустив программу SIW и используя ветвь Hrdwre произвести определение основных параметров следующих элементов ПК: Рабочую частоту ЦП размер кэшпамяти всех уровней Версию BIOS и его размер Параметры МВ тип чипсета тип сокета ЦП количество слотов шин расширения и памяти Объем тип используемой памяти ее производитель рабочая частота памяти максимальная емкость устанавливаемой памяти. Дату создания BIOS Тип BIOS Идентификационный номер BIOS Тип CPU и его рабочие частоты Размер BIOS ROM Установленный и максимально...