190

Средства анализа данных

Лабораторная работа

Информатика, кибернетика и программирование

Формирование в блокноте осмысленной информации, использование программных возможностей WinHex. Обработка данных в программном пакете Математика и проверка суммы вероятностей элементов списка. Расчет величины информационной энтропии.

Русский

2012-11-14

803 KB

12 чел.

Московский Энергетический Институт

(Технический Университет)

Отчет: Лабораторная работа №1

«Средства анализа данных»

Выполнил: Васильев Василий

Проверил: Рытов А.А.

Москва

2011

  1.  Сформировать в «Блокноте» осмысленный текст на русском языке из N=30 букв, содержащий только строчные буквы и пробелы. Сохранить в виде текстового (*.txt) файла.

формировал

  1.  Запусить WinHex , открыть созданный файл, и с помощью программы PrintKеy зафиксировать полученный результат (полный экран).

  1.  
    В меню Инструменты выбрать опцию Analise File  и получить на экране распределение символов, содержащихся в выбранном файле. Зафиксировать (на произвольном носителе) те буквы и их количество , вероятность появления которых в выбранном тексте выше 0.05 (5%), например :   E0h  а    0.0795    96.

  1.  Запустить пакет "Математика" и создать список полученных в предыдущем пункте букв и их частот появления в виде: ch0 = {{"а",   0.0795}, {"е", 0.0902}, {"и", 0.0637}, {"н", 0.0604}, {"о", 0.0762}, {"р", 0.0513}, {"т", 0.613}, {" ", 0.1358}}

Сделал

  1.  Нажав комбинацию клавиш Shift+Enter проверить правильность ввода (в дальнейшем любой запуск на выполнение операций сопровождается этой командой).

Все верно


  1.  Подключить блок статистической обработки  Needs["StatisticalPlots`"] и построить диаграмму Парето для введенного списка  ParetoPlot[ch0].

  1.  Вычислить длину списка (вектора) Length[ch0].

  1.  Проверить сумму вероятностей элементов списка используя две операции: сначала создать список состоящий только из значений вероятности p0=ch0[[All,2]], а затем подсчитать сумму вероятностей summch0=Sum[p0[[i]],{i, Length[ch0]}] .

  1.  Ввести список наиболее вероятных частот букв русского алфавита  в виде alfru={{"а",0.062},……..}. Возможно использование файла alfru.doc.  

  1.  Сформировать вектор частот  pa=alfru[[All,2]], определить длину списка na=Length[pa] и проверить сумму вероятностей summp=Sum[pa[[i]],{i,na}].

11. Рассчитать величину информационной энтропии H (энтропию языка):

                                               

entropyalfru=N[-Sum[pa[[i]]*Log[2,pa[[i]]],{i,na}]].

    12. Построить диаграмму Парето для наиболее вероятного распределения букв русского языка в тексте.

    13. Аналогично п.1 задания сформировать текстовый файл, содержащий 1500 строчных букв (и пробелов) русского алфавита.

Сформировал

    14. С помощью команды v1= ReadList["file",Byte,30] создать список  данных  v1, соответсвующий сформированному текстовому файлу, где file - это полный путь к файлу, который можно ввести с помощью команд меню Insert\ File Path, 30 –число вводимых символов на первом этапе.

   15. Построить гистограммы распределения букв (символов),используя команды Histogram[v1], Histogram[v1,{200,255,1}].

  


16. Установить параметр n2=60 и вести новый список данных v2=ReadList["file1500",Byte,n2], где file1500 –условное имя файла из п.13.

   17. Определить число символов, соответствующих буквам русского языка в векторе v2:              freq2=Tally[v2].

   18. Создать список частот для введенных  n2=60 символов текста:

            p2=N[freq2[[All,2]/Length[v2]], где N[ ] – преобразование к действительной форме представления чисел.

    19. Определить длину списка p2, сумму вероятностей, и информационную энтропию.

 


 20. Подготовить список для записи энтропии 120 последовательно увеличивающихся сегментов подготовленного текста entropytextout=Range[120].

    21. Используя оператор Do[expr, {j,jmax}], построить вектор значений энтропии сегментов текста, увеличивающихся каждый раз на 10 символов:

Do[{n2=10*j;

v2=ReadList["file",Byte,n2]; freq2=Tally[v2];

p2=N[freq2[[All,2]]/Length[v2]];np2=Length[p2]};

entropytextout[[j]]=N[-Sum[p2[[i]]*Log[2,p2[[i]]],{i,np2}]],{j,120}]

  22. Построить  точечный график зависимости энтропии сообщения от его длины:          ListPlot[entropytextout]


          23. Построить гистограмму распределения рассчитанных значений энтропии.

  24. Определить среднее значение Mean[entropytextout] и дисперсию  Variance[entropytextout].


  25. Используя команду Drop [list, n]- возвращает список list, из которого удалены первые n элементов: - удалить из распределения явные выбросы (значения лежащие вне диапазона Mean[entropytextout] Variance[entropytextout]) и вновь построить гистограмму распределения, рассчитать среднее значение и дисперсию энтропии.


 

А также другие работы, которые могут Вас заинтересовать

30371. Понятие об осложненном предложении. Спорные вопросы теории. Виды осложнения 50 KB
  К понятию осложненного предложения относится: предложения с однородными членами предложения с обособленными членами предложения с вводными и вставными конструкциями предложения с обращением Степень осложнения разная нужно основание для их объединения. Осложнение в семантической структуре предложения диктум и модус Осложнение диктума Я смотрю на звезды; монопредикативное монопропозитивное Я слушаю пенье соловья монопредикативное 2 пропозиции осложнение семантики которое не влечет за собой синтаксическое осложнения Соловей...
30372. Языковой статус сложного предложения. Основные типы СП. ССП 80.5 KB
  Языковой статус сложного предложения. Понятие сложного предложения является основополагающим в синтаксисе. В теории сложного предложения существует множество дискуссионных вопросов в частности вопрос об объёме СП о границах между простым и сложным предложением о понятиях сочинения и подчинения в СП и др. На основе анализов частей сложного предложения можно сделать вывод что поскольку очень часто материальные элементы простых предложений совпадают с материальными элементами сложного предложения СП это сумма нескольких простых предложений.
30373. Технические средства САПР и их развитие 139.5 KB
  Рассматриваются архитектуры ЭВМ в зависимости от последовательности обработки данных. Представляются классы ЭВМ в зависимости от множественности одиночности потоков команд и данных ОКОД ОКМД МКМД. Основное назначение лекции дать более глубокие знания по техническому обеспечению САПР: архитектуры ЭВМ в зависимости от последовательности обработки данных и классы ЭВМ в зависимости от множественности одиночности потоков команд и данных 6. Усложнение решаемых задач и вычислительных алгоритмов САПР привело к внедрению в эту область более...
30374. Технические средства САПР и их развитие. Периферийное оборудование САПР 159 KB
  Каждый метод и устройства реализующие его имеют свои достоинства и недостатки. По программному обслуживанию периферийные устройства САПР делятся на два класса: растровые и координатные векторные. В растровых устройствах выводится мозаичный рисунок из отдельных точек пикселей или ПЭЛов от англ. Все периферийные устройства делятся на три основные группы: средства ввода вывода с машинных носителей; средства ввода вывода с документов; средства непосредственного взаимодействия с ЭВМ.
30375. Методическое обеспечение САПР. Математический и лингвистический виды обеспечений 167.5 KB
  Лекция: Методическое обеспечение САПР. Математический и лингвистический виды обеспечений Рассматривается состав методического обеспечения САПР его сущность состав. Приводятся его компоненты методический и лингвистический виды обеспечения САПР для случая когда последний не является самостоятельным. Изучение одного из важнейших видов обеспечения САПР методического обеспечения 8.
30376. Программное обеспечение САПР 111.5 KB
  Лекция: Программное обеспечение САПР Рассматривается сущность программного обеспечения систем автоматизированного проектирования ПО САПР документы в составе ПО САПР. Даются структура общесистемного ПО и основные характеристики прикладного ПО САПР. Основное назначение лекции усвоение сущности программного обеспечения САПР ПО САПР его функций состава а также роли операционных систем ОС 9. Программное обеспечение САПР.
30377. Информационное обеспечение САПР 220.5 KB
  Рассмотрены принципы построения базы данных и способы согласования программ при формировании базы данных. Назначение сущность и составные части информационного обеспечения ИО САПР Основное назначение ИО САПР уменьшение объемов информации требуемой в процессе проектирования от разработчика РЭС и исключение дублирования данных в прикладном программном и техническом обеспечении САПР [7 51]. ИО САПР состоит из описания стандартных проектных процедур типовых проектных решений типовых элементов РЭС комплектующих изделий и их моделей...
30378. Информационное обеспечение САПР. Реляционная модель баз данных 320 KB
  Лекция: Информационное обеспечение САПР окончание Рассматриваются реляционная сетевая и иерархическая модели баз данных о которых в общем излагалось в предыдущей лекции. Реляционная модель баз данных Реляционная база данных разработанная Э. Тем самым теория реляционных баз данных становится областью приложения математической логики и современной алгебры и опирается на точный математический формализм. В реляционных базах данных основные операции включение удаление модификация и запрос данных применяются к кортежам и доменам.
30379. Методы автоматизированного проектирования конструкции и технологического процесса различного уровня иерархии 136 KB
  В САПР для каждого иерархического уровня сформулированы основные положения математического моделирования выбран и развит соответствующий математический аппарат получены типовые ММ элементов проектируемых объектов формализованы методы получения и анализа математических моделей систем. Это обстоятельство приводит к расширению множества используемых моделей и развитию алгоритмов адаптивного моделирования. В САПР для каждого иерархического уровня сформулированы основные положения математического моделирования выбран и развит соответствующий...