190

Средства анализа данных

Лабораторная работа

Информатика, кибернетика и программирование

Формирование в блокноте осмысленной информации, использование программных возможностей WinHex. Обработка данных в программном пакете Математика и проверка суммы вероятностей элементов списка. Расчет величины информационной энтропии.

Русский

2012-11-14

803 KB

12 чел.

Московский Энергетический Институт

(Технический Университет)

Отчет: Лабораторная работа №1

«Средства анализа данных»

Выполнил: Васильев Василий

Проверил: Рытов А.А.

Москва

2011

  1.  Сформировать в «Блокноте» осмысленный текст на русском языке из N=30 букв, содержащий только строчные буквы и пробелы. Сохранить в виде текстового (*.txt) файла.

формировал

  1.  Запусить WinHex , открыть созданный файл, и с помощью программы PrintKеy зафиксировать полученный результат (полный экран).

  1.  
    В меню Инструменты выбрать опцию Analise File  и получить на экране распределение символов, содержащихся в выбранном файле. Зафиксировать (на произвольном носителе) те буквы и их количество , вероятность появления которых в выбранном тексте выше 0.05 (5%), например :   E0h  а    0.0795    96.

  1.  Запустить пакет "Математика" и создать список полученных в предыдущем пункте букв и их частот появления в виде: ch0 = {{"а",   0.0795}, {"е", 0.0902}, {"и", 0.0637}, {"н", 0.0604}, {"о", 0.0762}, {"р", 0.0513}, {"т", 0.613}, {" ", 0.1358}}

Сделал

  1.  Нажав комбинацию клавиш Shift+Enter проверить правильность ввода (в дальнейшем любой запуск на выполнение операций сопровождается этой командой).

Все верно


  1.  Подключить блок статистической обработки  Needs["StatisticalPlots`"] и построить диаграмму Парето для введенного списка  ParetoPlot[ch0].

  1.  Вычислить длину списка (вектора) Length[ch0].

  1.  Проверить сумму вероятностей элементов списка используя две операции: сначала создать список состоящий только из значений вероятности p0=ch0[[All,2]], а затем подсчитать сумму вероятностей summch0=Sum[p0[[i]],{i, Length[ch0]}] .

  1.  Ввести список наиболее вероятных частот букв русского алфавита  в виде alfru={{"а",0.062},……..}. Возможно использование файла alfru.doc.  

  1.  Сформировать вектор частот  pa=alfru[[All,2]], определить длину списка na=Length[pa] и проверить сумму вероятностей summp=Sum[pa[[i]],{i,na}].

11. Рассчитать величину информационной энтропии H (энтропию языка):

                                               

entropyalfru=N[-Sum[pa[[i]]*Log[2,pa[[i]]],{i,na}]].

    12. Построить диаграмму Парето для наиболее вероятного распределения букв русского языка в тексте.

    13. Аналогично п.1 задания сформировать текстовый файл, содержащий 1500 строчных букв (и пробелов) русского алфавита.

Сформировал

    14. С помощью команды v1= ReadList["file",Byte,30] создать список  данных  v1, соответсвующий сформированному текстовому файлу, где file - это полный путь к файлу, который можно ввести с помощью команд меню Insert\ File Path, 30 –число вводимых символов на первом этапе.

   15. Построить гистограммы распределения букв (символов),используя команды Histogram[v1], Histogram[v1,{200,255,1}].

  


16. Установить параметр n2=60 и вести новый список данных v2=ReadList["file1500",Byte,n2], где file1500 –условное имя файла из п.13.

   17. Определить число символов, соответствующих буквам русского языка в векторе v2:              freq2=Tally[v2].

   18. Создать список частот для введенных  n2=60 символов текста:

            p2=N[freq2[[All,2]/Length[v2]], где N[ ] – преобразование к действительной форме представления чисел.

    19. Определить длину списка p2, сумму вероятностей, и информационную энтропию.

 


 20. Подготовить список для записи энтропии 120 последовательно увеличивающихся сегментов подготовленного текста entropytextout=Range[120].

    21. Используя оператор Do[expr, {j,jmax}], построить вектор значений энтропии сегментов текста, увеличивающихся каждый раз на 10 символов:

Do[{n2=10*j;

v2=ReadList["file",Byte,n2]; freq2=Tally[v2];

p2=N[freq2[[All,2]]/Length[v2]];np2=Length[p2]};

entropytextout[[j]]=N[-Sum[p2[[i]]*Log[2,p2[[i]]],{i,np2}]],{j,120}]

  22. Построить  точечный график зависимости энтропии сообщения от его длины:          ListPlot[entropytextout]


          23. Построить гистограмму распределения рассчитанных значений энтропии.

  24. Определить среднее значение Mean[entropytextout] и дисперсию  Variance[entropytextout].


  25. Используя команду Drop [list, n]- возвращает список list, из которого удалены первые n элементов: - удалить из распределения явные выбросы (значения лежащие вне диапазона Mean[entropytextout] Variance[entropytextout]) и вновь построить гистограмму распределения, рассчитать среднее значение и дисперсию энтропии.


 

А также другие работы, которые могут Вас заинтересовать

77434. Договор об осуществлении прав участников общества с ограниченной ответственностью и акционерные соглашения 16.14 KB
  Предметом акционерного соглашения не могут быть обязательства стороны акционерного соглашения голосовать согласно указаниям органов управления общества в отношении акций которого заключено данное соглашение. Акционерное соглашение должно быть заключено в отношении всех акций принадлежащих стороне акционерного соглашения. Договор заключенный стороной акционерного соглашения в нарушение акционерного соглашения может быть признан судом недействительным по иску заинтересованной стороны акционерного соглашения только в случаях если будет...
77435. Обжалование решений органов управления в АО и ООО. Форма и основания ответственности исполнительных органов и членов совета директоров в ООО и АО 14.77 KB
  Участнику общества предоставляется право обжаловать решения органов управления принятые с нарушением Закона устава или решения нарушающие права и интересы участников. Закон предусматривает возможность оставить решение в силе даже при доказательности нарушений при следующих условиях: голосование лица подавшего заявление не могло повлиять на результаты голосования допущенные нарушения не являются существенными оспариваемым решением участнику общества не причинены убытки. Ответственность членов совета директоров наблюдательного...
77436. Порядок совершения сделки с заинтересованными лицами 31 KB
  Решение об одобрении сделки принимается общим собранием участников большинством голосов от общего числа голосов участников общества незаинтересованных в совершении такой сделки т. Если сделка не получила одобрения она может быть признана недействительно по иску общества или его участника При наличии одного из следующих обстоятельств: Голосование участника общества незаинтересованного в совершении сделки и обратившегося с иском о признании сделки недействительной в случае если бы он принимал участие в голосовании но его голос бы не...
77438. Контрольные органы в ООО и АО: название, избрание, компетенция. Отчетность и хранение документов в ООО и АО. Аффилированные лица 19.85 KB
  К АО: По решению общего собрания акционеров членам ревизионной комиссии ревизору общества в период исполнения ими своих обязанностей могут выплачиваться вознаграждения и или компенсироваться расходы связанные с исполнением ими своих обязанностей. Проверка ревизия финансово-хозяйственной деятельности общества осуществляется по итогам деятельности общества за год а также во всякое время по инициативе ревизионной комиссии ревизора общества решению общего собрания акционеров совета директоров наблюдательного совета общества или по...
77439. Исполнительные органы в ООО и АО: название, порядок избрания, компетенция 19.62 KB
  ООО закон Единоличный исполнительный орган общества генеральный директор президент и другие избирается общим собранием участников общества на срок определенный уставом общества если уставом общества решение этих вопросов не отнесено к компетенции совета директоров наблюдательного совета общества. Единоличный исполнительный орган общества может быть избран также не из числа его участников. Договор между обществом и лицом осуществляющим функции единоличного исполнительного органа общества подписывается от имени общества лицом...