190

Средства анализа данных

Лабораторная работа

Информатика, кибернетика и программирование

Формирование в блокноте осмысленной информации, использование программных возможностей WinHex. Обработка данных в программном пакете Математика и проверка суммы вероятностей элементов списка. Расчет величины информационной энтропии.

Русский

2012-11-14

803 KB

11 чел.

Московский Энергетический Институт

(Технический Университет)

Отчет: Лабораторная работа №1

«Средства анализа данных»

Выполнил: Васильев Василий

Проверил: Рытов А.А.

Москва

2011

  1.  Сформировать в «Блокноте» осмысленный текст на русском языке из N=30 букв, содержащий только строчные буквы и пробелы. Сохранить в виде текстового (*.txt) файла.

формировал

  1.  Запусить WinHex , открыть созданный файл, и с помощью программы PrintKеy зафиксировать полученный результат (полный экран).

  1.  
    В меню Инструменты выбрать опцию Analise File  и получить на экране распределение символов, содержащихся в выбранном файле. Зафиксировать (на произвольном носителе) те буквы и их количество , вероятность появления которых в выбранном тексте выше 0.05 (5%), например :   E0h  а    0.0795    96.

  1.  Запустить пакет "Математика" и создать список полученных в предыдущем пункте букв и их частот появления в виде: ch0 = {{"а",   0.0795}, {"е", 0.0902}, {"и", 0.0637}, {"н", 0.0604}, {"о", 0.0762}, {"р", 0.0513}, {"т", 0.613}, {" ", 0.1358}}

Сделал

  1.  Нажав комбинацию клавиш Shift+Enter проверить правильность ввода (в дальнейшем любой запуск на выполнение операций сопровождается этой командой).

Все верно


  1.  Подключить блок статистической обработки  Needs["StatisticalPlots`"] и построить диаграмму Парето для введенного списка  ParetoPlot[ch0].

  1.  Вычислить длину списка (вектора) Length[ch0].

  1.  Проверить сумму вероятностей элементов списка используя две операции: сначала создать список состоящий только из значений вероятности p0=ch0[[All,2]], а затем подсчитать сумму вероятностей summch0=Sum[p0[[i]],{i, Length[ch0]}] .

  1.  Ввести список наиболее вероятных частот букв русского алфавита  в виде alfru={{"а",0.062},……..}. Возможно использование файла alfru.doc.  

  1.  Сформировать вектор частот  pa=alfru[[All,2]], определить длину списка na=Length[pa] и проверить сумму вероятностей summp=Sum[pa[[i]],{i,na}].

11. Рассчитать величину информационной энтропии H (энтропию языка):

                                               

entropyalfru=N[-Sum[pa[[i]]*Log[2,pa[[i]]],{i,na}]].

    12. Построить диаграмму Парето для наиболее вероятного распределения букв русского языка в тексте.

    13. Аналогично п.1 задания сформировать текстовый файл, содержащий 1500 строчных букв (и пробелов) русского алфавита.

Сформировал

    14. С помощью команды v1= ReadList["file",Byte,30] создать список  данных  v1, соответсвующий сформированному текстовому файлу, где file - это полный путь к файлу, который можно ввести с помощью команд меню Insert\ File Path, 30 –число вводимых символов на первом этапе.

   15. Построить гистограммы распределения букв (символов),используя команды Histogram[v1], Histogram[v1,{200,255,1}].

  


16. Установить параметр n2=60 и вести новый список данных v2=ReadList["file1500",Byte,n2], где file1500 –условное имя файла из п.13.

   17. Определить число символов, соответствующих буквам русского языка в векторе v2:              freq2=Tally[v2].

   18. Создать список частот для введенных  n2=60 символов текста:

            p2=N[freq2[[All,2]/Length[v2]], где N[ ] – преобразование к действительной форме представления чисел.

    19. Определить длину списка p2, сумму вероятностей, и информационную энтропию.

 


 20. Подготовить список для записи энтропии 120 последовательно увеличивающихся сегментов подготовленного текста entropytextout=Range[120].

    21. Используя оператор Do[expr, {j,jmax}], построить вектор значений энтропии сегментов текста, увеличивающихся каждый раз на 10 символов:

Do[{n2=10*j;

v2=ReadList["file",Byte,n2]; freq2=Tally[v2];

p2=N[freq2[[All,2]]/Length[v2]];np2=Length[p2]};

entropytextout[[j]]=N[-Sum[p2[[i]]*Log[2,p2[[i]]],{i,np2}]],{j,120}]

  22. Построить  точечный график зависимости энтропии сообщения от его длины:          ListPlot[entropytextout]


          23. Построить гистограмму распределения рассчитанных значений энтропии.

  24. Определить среднее значение Mean[entropytextout] и дисперсию  Variance[entropytextout].


  25. Используя команду Drop [list, n]- возвращает список list, из которого удалены первые n элементов: - удалить из распределения явные выбросы (значения лежащие вне диапазона Mean[entropytextout] Variance[entropytextout]) и вновь построить гистограмму распределения, рассчитать среднее значение и дисперсию энтропии.


 

А также другие работы, которые могут Вас заинтересовать

7507. Учет и регулирование потребления электрической энергии 112.61 KB
  Учет и регулирование потребления электрической энергии. Бытовое энергосбережение В жилищном хозяйстве потребляется около 30% тепловой энергии, которая получается от сжигания твердого, жидкого и газообразного топлива. Поэтому, экономия топлива ...
7508. Экономия электроэнергии в электроснабжающих установках 60.8 KB
  Экономия электроэнергии в электроснабжающих установках Электроснабжение сельских потребителей осуществляют в основном от сетей государственных электросистем. К сельским потребителям электрическую энергию подают по линиям напряжением 6, 10, 20, 35 кВ...
7509. Экономия электроэнергии в осветительных и электронагревательных установках 76.71 KB
  Экономия электроэнергии в осветительных и электронагревательных установках На освещение в сельском хозяйстве затрачивают 10...15% всей потребляемой электроэнергии, то есть более 15 млрд. кВт·ч в год. Наряду с другими устройствами электрическое освещ...
7510. Экономия электрической энергии при эксплуатации оборудования 121.34 KB
  Экономия электрической энергии при эксплуатации оборудования В сельском хозяйстве действует огромный парк электродвигателей, насчитывающий 12 млн. единиц общей мощностью 50...60 млн. кВт. Практически все стационарные рабочие сельскохозяйственные маш...
7511. Нетрадиционные способы получения и применения энергии 113.67 KB
  Нетрадиционные способы получения и применения энергии Главным фактором роста энергопроизводства является рост численности населения и прогресс качества жизни общества, который тесно связан с потреблением энергии на душу населения. Сейчас на каждого ...
7512. Модели рыночной экономики 43 KB
  Модели рыночной экономики. Для каждой экономической системы характерны свои национальные модели организации хозяйства, так как страны различаются своеобразием истории, уровнем экономического развития, социальными и национальными условиями. Поэтому м...
7513. Рыночное равновесие 147.5 KB
  Рыночное равновесие Чтобы рассмотреть взаимодействие спроса и предложения, необходимо совместить линии спроса и предложения на одном графике. На рис. 1 DD - линия спроса, SS - линия предложения. Абсциссы их точек характеризуют соответственно объемы ...
7514. Эластичность спроса и предложения 86 KB
  Эластичность спроса и предложения Термин эластичность - технический термин, который использовал А. Маршалл для обозначения чувствительности реакции одного фактора в результате воздействия на него другого фактора. Эластичность - это характеристи...
7515. Педагогіка. Фіцула. Підручник 3.08 MB
  ПЕРЕДМОВА У процесі вивчення курсу педагогіки відповідно до вимог навчальної програмимайбутні педагоги повиннізнати: сутність і закономірності розвитку особистості...