37864

Основы статистической обработки информации с использованием EXCEL. Определение некоторых числовых характеристик экспериментальных статистических данных

Лабораторная работа

Информатика, кибернетика и программирование

Создать массив признаков интервалов и посчитать для них частоту. Для создания массива признаков сначала рассчитывают цену деления c= Rx k. откл 6765655 6821 6162 6168 6819 7062 эксцесс 0057761 ассиметрия 0385736 Для построения гистограммы и полигона частот используется функция Excel ЧАСТОТА массив_данных; массив_интервалов. Эта функция относится к классу статистических и производит операции над массивами.

Русский

2013-09-25

618.5 KB

41 чел.

Лабораторная работа № 1

Основы статистической обработки информации с использованием EXCEL. Определение некоторых числовых характеристик экспериментальных статистических данных.

Основной целью статистического анализа является выяснение некоторых свойств изучаемой генеральной совокупности. Если генеральная совокупность конечна, то наилучшая процедура — рассмотрение каждого ее элемента. Однако в большинстве задач используются либо бесконечные генеральные совокупности, либо конечные, но трудно обозримые. В этой ситуации необходимо отобрать из генеральной совокупности подмножество из n элементов, называемое выборкой объема n, исследовать его свойства, а затем обобщить эти результаты на всю генеральную совокупность. Это обобщение называется статистическим выводом.

 Генеральная совокупность (популяция)  W — полный набор объектов w, с которыми связана данная проблема. Эти объекты могут быть людьми, животными, изделиями и так далее. С каждым объектом связана величина (или величины), называемая исследуемым признаком (xi).

Различные значения признака, наблюдающиеся у членов генеральной совокупности (или выборки), называются вариантами, а числа, показывающие сколько раз встречается каждый вариант — их частотами.

В данном определении предполагается дискретное изменения признака. Однако, если мы измеряем непрерывную величину, то точность измерения и количество измерений в единицу времени тоже дадут некий дискретный набор.

Мы предполагаем, что измеряемый или исследуемый признак изменяется некоторым случайным образом. Произведя серию измерений, получим набор данных, которые, скорее всего, будут случайной выборкой из генеральной совокупности. Чтобы провести первичную обработку этой выборки, необходимо построить экспериментальное распределение данных по частотам или (если данные имеют явно непрерывный характер) по интервалам частот.

Числовые характеристики статистического распределения

В качестве характеристик измеримого признака вместо исходных значений величин или таблиц их частот используют числовые характеристики, называемые также статистическими мерами.

  •   Среднее арифметическое : Определяется по формуле

, где xi — значения вариант.

  •   Медиана — срединное значение для ряда измерений n. Для ее вычисления необходимо все наблюдения расположить в порядке возрастания или убывания результатов. Если n — нечетное число, то медиана просто является числом, находящимся в середине упорядоченной последовательности. При четном n равна среднему арифметическому двух расположенных в середине значений упорядоченной последовательности.
  •   Мода — (наиболее вероятное значение) является наиболее часто встречающейся в выборке  величиной.
  •   Размах вариации R — разность между максимальным и минимальным значениями признака в ряде измерений.

R = xmax -xmin

  •   Среднее линейное отклонение d — среднее арифметическое абсолютных величин отклонений вариантов от их средней арифметической.

, ni — частота признака xi.

  •   Дисперсия D — среднее арифметическое квадратов отклонений вариантов от их средней:

  •   Среднее квадратичное отклонение s — квадратный корень из дисперсии.

Под формой статистического распределения понимается форма его графика — полигона или гистограммы. Различают симметричные формы и несимметричные (асимметричные).

Распределение называется симметричным, если веса любых вариантов, равноотстоящих от среднего, равны между собой.

На практике такого совпадения для всех вариантов обычно нет и симметричным считаются распределения, в которых веса вариантов, равноотстоящих от среднего, отличаются незначительно. (Пример 1 — близок к симметричному распределению).

Асимметричные распределения можно разбить на три вида:

  •  умеренно асимметричные — распределения у которых частоты, находящиеся по одну сторону от наибольшей, больше (или меньше) частот, находящихся по другую сторону от наибольшей на таком же “расстоянии”.
  •  крайне асимметричные — распределения, у которых частоты или все время возрастают, или все время убывают.
  •  U-образные — частоты сначала убывают, а затем возрастают.

В табл. № 1 представлены экспериментальные данные, полученные после медицинского обследования 100 студентов МаГУ. Необходимо оценить числовые характеристики выборки студентов, проанализировать форму распределения частот.

Таблица  

Результаты измерения веса студентов МаГУ

61

57

61

85

48

41

73

66

91

70

50

45

64

46

55

82

69

75

82

72

68

43

81

71

47

50

54

75

81

68

80

67

64

76

61

57

62

57

66

53

79

56

63

88

65

74

67

54

65

80

86

40

59

64

65

71

72

78

70

61

39

63

89

59

61

75

67

51

65

55

62

60

75

73

91

72

54

46

52

55

78

67

94

60

44

49

88

74

44

60

52

61

66

74

56

52

71

73

75

60

  1.  Используя данные выборки студентов, рассчитать:
    •  среднее арифметическое;
    •  медиану;
    •  моду;
    •  дисперсию;
    •  среднее квадратичное отклонение;
    •  эксцесс;
    •  асимметрию распределения.

  1.  Построить в  Excel гистограмму распределения признаков по частотам  и полигон частот. Для этого:
  •  найти min и max значения в выборочной совокупности (с помощью статистических функций Excel);
  •  размах варьирования: Rx = xmax - xmin;
  •  число интервалов: k » [1+3,2 lg(n)], (n – количество данных в выборке).
  •  создать массив признаков (интервалов) и посчитать для них частоту.

Для создания массива признаков сначала рассчитывают цену деления c= Rx/k.

Затем рассчитывают первый интервал по формуле: min + c, следующий интервал определяется как предыдущий плюс цена деления, эта формула копируется до тех пор пока последний признак не станет равным или немного больше максимального значения в выборке.

3. Определить форму распределения выборки

Рекомендации к выполнению:

Ниже в качестве образца приведен пример выполнения подобной работы. В таблице приведены числовые данные для которых построены полигон и гистограмма частот.

85,39

63,22

63,36

76,11

62,16

max

85,4

Признаки

Частоты

68,69

68,33

69,27

80,39

74,23

min

54,6

59,4

2

61,83

70,23

77,89

68,48

62,89

R

30,8

64,2

12

62,46

83,93

72,21

78,17

73,56

k

6,4

68,9

13

62,31

54,60

80,09

63,60

67,68

сред ар

69,30

73,7

13

68,59

67,78

62,30

70,92

67,20

медиана

68,53

78,5

4

69,42

81,37

67,36

71,04

67,58

с

4,7

83,3

4

56,13

70,56

70,86

63,58

72,66

дисперсия

45,77408

88,1

2

64,79

70,02

72,93

68,25

80,21

ср. кв. откл

6,765655

68,21

61,62

61,68

68,19

70,62

эксцесс

0,057761

ассиметрия

0,385736

Для построения гистограммы и полигона частот используется функция

Excel ЧАСТОТА (массив_данных; массив_интервалов). Эта функция относится к классу статистических и производит операции над массивами.

Массив_данных — ячейки с данными выборки.

Массив_интервалов — ячейки, содержащие значения интервалов.

Результатом выполнения функции ЧАСТОТА является массив, содержащий частоты вариантов, попадающие в указанные интервалы. На основе этого результирующего массива (в примере — “Частоты”) и строятся гистограммы и полигоны.

  1.  Скопировать массив данных из таблицы, расположенной в лабораторной работе.
  2.   Создать массив интервалов (количество интервалов будет вами рассчитано). Первый интервал определяется как сумма минимального элемента выборки и цена деления, последний элемент не должен существенно превышать максимального элемента выборки.
  3.   Выделить ячейки под массив частот (пометить доступными способами). Этих ячеек должно быть столько же, сколько ячеек отведено под массив интервалов.
  4.   Запустить Мастер Функций . (Под двоичным_массивом здесь понимается массив_интервалов). Ввести координаты массива данных (вариант) и массива интервалов.
  5.   После указания всех аргументов функции нажать комбинацию: Ctrl+Shift+Enter. После этого функция ЧАСТОТА заполнит весь выделенный массив.

Контрольные вопросы:

  1.  Что называется генеральной совокупностью?
  2.  Приведите пример генеральной совокупности, исследуемого признака и варианта.
  3.  Дайте понятие частоты.
  4.  Что представляет собой полигон частот? Какую информацию можно получить, исследуя полигон частот?
  5.  Какие формы распределений существуют и чем они отличаются друг от друга? В чем разница между теоретическими и экспериментальными распределениями?
  6.  Что называется медианой и как ее определяют?
  7.  Что такое мода?
  8.  Как определить дисперсию экспериментального распределения?
  9.  Что характеризует асимметрия  выборки?
  10.  Как рассчитывается эксцесс выборки?
  11.  При каком значении эксцесса полигон частот наиболее заострен?

EMBED Excel.Chart.8 \s


 

А также другие работы, которые могут Вас заинтересовать

24514. Планирование в системах реального времени 20.19 KB
  Планирование облегчается тем что в системах реального времени весь набор выполняемых задач известен заранее часто также известно времени выполнения задач моменты активизации и т. Если нарушение сроков выполнения задач не допустимо то система реального времени считается жесткой система управления ракетой или атомной электростанцией система обработки цифрового сигнала при воспроизведении оптического диска. Для периодической задачи все будущие моменты запроса можно определить заранее путем прибавления к моменту начального запроса величины...
24515. Мультипрограммирование на основе прерываний. Механизм прерываний 25.58 KB
  Мультипрограммирование на основе прерываний. Механизм прерываний.Мультипрограммирование на основе прерываний. Назначение и типы прерываний.
24516. Необходимость синхронизации процессов и потоков. Критическая секция 19.14 KB
  Необходимость синхронизации процессов и потоков.4 Синхронизация процессов и потоков. В многозадачной ОС синхронизация процессов и потоков необходима для исключения конфликтных ситуаций при обмене данными между ними разделении данных доступе к процессору и устройствам вводавывода. Пренебрежение вопросами синхронизации процессов выполняющихся в многозадачной системе может привести к неправильной их работе или даже к краху системы.
24517. Способы реализации взаимных исключений путем запрещения прерываний, использования блокирующих переменных, системных вызовов 103.83 KB
  Поток при входе в критическую секцию запрещает все прерывания а при выходе из критической секции снова их разрешает. Это самый простой но и самый неэффективный способ так как опасно доверять управление системой пользовательскому потоку который может надолго занять процессор а при крахе потока в критической области крах потерпит вся система потому что прерывания никогда не будут разрешены. Для синхронизации потоков одного процесса программист может использовать глобальные блокирующие переменные к которым все потоки процесса имеют прямой...
24518. Назначение и использование семафоров 46.4 KB
  Пусть буферный пул состоит из N буферов каждый из которых может содержать одну запись рис. Для решения задачи введем три семафора: e число пустых буферов; f число заполненных буферов; b блокирующая переменная двоичный семафор используемый для обеспечения взаимного исключения при работе с разделяемыми данными в критической секции. Использование семафоров для синхронизации потоков Здесь операции Р и V имеют следующее содержание: Ре если есть свободные буферы то уменьшить их количество на 1 если нет то перейти в состояние...
24519. Взаимные блокировки процессов. Методы предотвращения, обнаружения и ликвидации тупиков 35.63 KB
  Методы предотвращения обнаружения и ликвидации тупиков. Тупиковые ситуации надо отличать от простых очередей хотя и те и другие возникают при совместном использовании ресурсов и внешне выглядят похоже: процесс приостанавливается и ждет освобождения ресурса. Проблема тупиков включает в себя решение следующих задач: предотвращение тупиков; распознавание тупиков; восстановление системы после тупиков. Другой более гибкий подход динамического предотвращения тупиков заключается в использовании определенных правил при назначении ресурсов процессам.
24520. Функции ОС по управлению памятью. Типы адресов. Преобразование адресов 40.26 KB
  Сама ОС обычно располагается в самых младших или старших адресах памяти. Функциями ОС по управлению памятью являются: отслеживание свободной и занятой памяти; выделение и освобождение памяти для процессов; вытеснение процессов из оперативной памяти на диск когда размеры основной памяти не достаточны для размещения в ней всех процессов и возвращение их в оперативную память когда в ней освобождается место; настройка адресов программы на конкретную область физической памяти. Программист при написании программы в общем случае обращается...
24521. Методы распределения памяти без использования диска (фиксированными, динамическими, перемещаемыми разделами) 83.87 KB
  Методы распределения памяти без использования диска фиксированными динамическими перемещаемыми разделами. Методы распределения памяти. Рассмотрим наиболее общие подходы к распределению памяти которые были характерны для разных периодов развития ОС. Классификация методов распределения памяти 5.
24522. Понятие виртуальной памяти, ее назначение. Свопинг 14.41 KB
  Понятие виртуальной памяти ее назначение. Понятие виртуальной памяти. Необходимым условием для того чтобы программа могла выполняться является ее нахождение в оперативной памяти. Уже давно пользователи столкнулись с проблемой размещения в памяти программ размер которых превышает имеющуюся в наличии свободную память.