190

Средства анализа данных

Лабораторная работа

Информатика, кибернетика и программирование

Формирование в блокноте осмысленной информации, использование программных возможностей WinHex. Обработка данных в программном пакете Математика и проверка суммы вероятностей элементов списка. Расчет величины информационной энтропии.

Русский

2012-11-14

803 KB

12 чел.

Московский Энергетический Институт

(Технический Университет)

Отчет: Лабораторная работа №1

«Средства анализа данных»

Выполнил: Васильев Василий

Проверил: Рытов А.А.

Москва

2011

  1.  Сформировать в «Блокноте» осмысленный текст на русском языке из N=30 букв, содержащий только строчные буквы и пробелы. Сохранить в виде текстового (*.txt) файла.

формировал

  1.  Запусить WinHex , открыть созданный файл, и с помощью программы PrintKеy зафиксировать полученный результат (полный экран).

  1.  
    В меню Инструменты выбрать опцию Analise File  и получить на экране распределение символов, содержащихся в выбранном файле. Зафиксировать (на произвольном носителе) те буквы и их количество , вероятность появления которых в выбранном тексте выше 0.05 (5%), например :   E0h  а    0.0795    96.

  1.  Запустить пакет "Математика" и создать список полученных в предыдущем пункте букв и их частот появления в виде: ch0 = {{"а",   0.0795}, {"е", 0.0902}, {"и", 0.0637}, {"н", 0.0604}, {"о", 0.0762}, {"р", 0.0513}, {"т", 0.613}, {" ", 0.1358}}

Сделал

  1.  Нажав комбинацию клавиш Shift+Enter проверить правильность ввода (в дальнейшем любой запуск на выполнение операций сопровождается этой командой).

Все верно


  1.  Подключить блок статистической обработки  Needs["StatisticalPlots`"] и построить диаграмму Парето для введенного списка  ParetoPlot[ch0].

  1.  Вычислить длину списка (вектора) Length[ch0].

  1.  Проверить сумму вероятностей элементов списка используя две операции: сначала создать список состоящий только из значений вероятности p0=ch0[[All,2]], а затем подсчитать сумму вероятностей summch0=Sum[p0[[i]],{i, Length[ch0]}] .

  1.  Ввести список наиболее вероятных частот букв русского алфавита  в виде alfru={{"а",0.062},……..}. Возможно использование файла alfru.doc.  

  1.  Сформировать вектор частот  pa=alfru[[All,2]], определить длину списка na=Length[pa] и проверить сумму вероятностей summp=Sum[pa[[i]],{i,na}].

11. Рассчитать величину информационной энтропии H (энтропию языка):

                                               

entropyalfru=N[-Sum[pa[[i]]*Log[2,pa[[i]]],{i,na}]].

    12. Построить диаграмму Парето для наиболее вероятного распределения букв русского языка в тексте.

    13. Аналогично п.1 задания сформировать текстовый файл, содержащий 1500 строчных букв (и пробелов) русского алфавита.

Сформировал

    14. С помощью команды v1= ReadList["file",Byte,30] создать список  данных  v1, соответсвующий сформированному текстовому файлу, где file - это полный путь к файлу, который можно ввести с помощью команд меню Insert\ File Path, 30 –число вводимых символов на первом этапе.

   15. Построить гистограммы распределения букв (символов),используя команды Histogram[v1], Histogram[v1,{200,255,1}].

  


16. Установить параметр n2=60 и вести новый список данных v2=ReadList["file1500",Byte,n2], где file1500 –условное имя файла из п.13.

   17. Определить число символов, соответствующих буквам русского языка в векторе v2:              freq2=Tally[v2].

   18. Создать список частот для введенных  n2=60 символов текста:

            p2=N[freq2[[All,2]/Length[v2]], где N[ ] – преобразование к действительной форме представления чисел.

    19. Определить длину списка p2, сумму вероятностей, и информационную энтропию.

 


 20. Подготовить список для записи энтропии 120 последовательно увеличивающихся сегментов подготовленного текста entropytextout=Range[120].

    21. Используя оператор Do[expr, {j,jmax}], построить вектор значений энтропии сегментов текста, увеличивающихся каждый раз на 10 символов:

Do[{n2=10*j;

v2=ReadList["file",Byte,n2]; freq2=Tally[v2];

p2=N[freq2[[All,2]]/Length[v2]];np2=Length[p2]};

entropytextout[[j]]=N[-Sum[p2[[i]]*Log[2,p2[[i]]],{i,np2}]],{j,120}]

  22. Построить  точечный график зависимости энтропии сообщения от его длины:          ListPlot[entropytextout]


          23. Построить гистограмму распределения рассчитанных значений энтропии.

  24. Определить среднее значение Mean[entropytextout] и дисперсию  Variance[entropytextout].


  25. Используя команду Drop [list, n]- возвращает список list, из которого удалены первые n элементов: - удалить из распределения явные выбросы (значения лежащие вне диапазона Mean[entropytextout] Variance[entropytextout]) и вновь построить гистограмму распределения, рассчитать среднее значение и дисперсию энтропии.


 

А также другие работы, которые могут Вас заинтересовать

25282. Философия прагматизма и неопрагматизма: основные идеи, их эволюция 36 KB
  опыте Мид социальный бихевиоризм и теория значения Неопрагмм К. Теория сомненияверы. наука сама на нее опирается Теория значения. Теория истины.
25283. ЭКЗИСТЕНЦИАЛИЗМ (Э.) 45 KB
  Альбер КАМЮ 19131960 Алжирский унивт. Альбер Камю 1913 1960. Особенностью философии Камю является то что у него нет систематизированного и всеохватывающего философского учения он занимается почти исключительно этическими проблемами. Основная философская работа Камю Миф о Сизифе открывается словами: Есть лишь одна действительно серьезная философская проблема: это самоубийство.
25284. Екзистеційна філософія у Східній Європі 25 KB
  Достоєвський. Достоєвський виступає проти будьякого насильства навіть якщо воно від імені Бога і проповідує шлях добровільного служіння людям задля досягнення земного раю . Достоєвський був палким прихильником релігії бо вважав що вона повністю ґрунтується на моральних мотивах а нерелігійне раціональне ставлення до світу провокує вседозволеність та аморалізм. Але Достоєвський розуміє релігію специфічно.
25285. Релігієзнавство як самостійна дисципліна гуманітарного знання встановлюється у другій половині ХІХ століття 38.5 KB
  Лише значні доробки в інших сферах знання щодо питання релігії сприяли постановці суто релігієзнавчих проблем. В контексті Просвітництва акумулювалася концепція яка стає відомою під назвою концепція природної релігії обмеженої лише розумом. Досвіди раціонального осмислення релігії які зявилися у появі філософії релігії. Перші автори які торкалися проблеми релігії і їх дослідження зявляються в ХХІ ст.
25286. Проблема сутності релігії, її визначальні характеристики. Специфіка релігійного світосприйняття 29 KB
  Специфіка релігійного світосприйняття Походження слова релігія: 1 Цицерон виводив релігію із relegere перечитувати перебирати. У нього релігія це начитаність знання на відміну від неуцтва; 2 Лактанцій виводив назву релігія від основи ligo звязувати скріплювати сполучати. Релігія у нього це звязок між Богом і людиною; 3 Августин від основи religo поєднувати союз між двома істотами. Релігія розуміється як союз Бога із занепалою людиною.
25287. Віра і релігійна віра. Психологічні аспекти осягнення феномену віри 28.5 KB
  Віра і релігійна віра. Психологічні аспекти осягнення феномену віри Поняття віра є полісемантичним багатозначним. Віра це особливого роду субєктивний акт те як ми віримо. У змістовному відношенні виділяють: 1 етичну віру віра довіря; напр.
25288. Вчення про Бога: теїзм, деїзм, пантеїзм 28.5 KB
  Вчення про Бога: теїзм деїзм пантеїзм Теїзм від грецького theos бог релігійнофілософське вчення яке визнає існування Бога як надприродної істоти що наділена розумом і волею і таємничим чином впливає на всі матеріальні та духовні процеси. На відміну від деїзму теїзм стверджує безпосередню участь Бога в усіх світових подіях а на відміну від пантеїзму відстоює існування Бога поза світом і над ним. deus бог вчення яке визнає існування Бога в якості першопричини світ який потім розвивається за своїми власними законами. деїзм...
25289. Аналіз доказів буття Бога 32.5 KB
  Аналіз доказів буття Бога Особливості доказів буття Бога: 1 на думку богословів кожен доказ без інших не може бути взятий; 2 вони є непрямими; 3 всі докази не стверджуються з логічною необхідністю вони лише вірогідні. Якщо Бог сукупність всіх досконалостей то суди входить досконалість як Буття а отже Бог існує. Все що ми мислимо то є буття. Кант: з поняття Бога не можна вивести буття Бога бо вони протилежні одне одному.
25290. Зв’язок української філософії з політикою українізації. „Поворот” на філософському фронті України та його наслідки 26.5 KB
  Поворот на філософському фронті України та його наслідки. У ній активну участь взяли письменники та літературні діячі України. Зеров відзначає той факт що відбувається відродження шляхом повернення України до Заходу тобто через відновлення віковічних зв'язків з Західною Європою. У столиці тогочасної України у Харкові відбувається організаційне оформлення ідей та позицій.