15708

ПОРЯДОК ОБЧИСЛЕННЯ МАТЕМАТИЧНИХ СТАТИСТИК

Лекция

Математика и математический анализ

Дисципліна: МАТЕМАТИЧНА СТАТИСТИКА ТА ОПРАЦЮВАННЯ СПОСТЕРЕЖЕНЬ Модуль 1: ОСНОВНІ ПОЛОЖЕННЯ МАТЕМАТИЧНОЇ СТАТИСТИКИ Лекція 2. ПОРЯДОК ОБЧИСЛЕННЯ МАТЕМАТИЧНИХ СТАТИСТИК План лекції 2: 2.1. Визначення основних понять математичної статистики. 2.2. Дисперсія як показн...

Украинкский

2013-06-15

192.5 KB

2 чел.

Дисципліна: МАТЕМАТИЧНА СТАТИСТИКА ТА ОПРАЦЮВАННЯ

СПОСТЕРЕЖЕНЬ

Модуль 1: ОСНОВНІ ПОЛОЖЕННЯ МАТЕМАТИЧНОЇ СТАТИСТИКИ

Лекція 2. ПОРЯДОК ОБЧИСЛЕННЯ МАТЕМАТИЧНИХ СТАТИСТИК

План лекції 2:

2.1. Визначення основних понять математичної статистики.

2.2. Дисперсія  як показник розсіювання випадкової величины.

2.3. Основні статистичні характеристики вибіркової сукупності.

2.1. Визначення основних понять математичної статистики.

Переважна більшість статистичних процедур призначається для того, щоб дати висновок про об'єкти, що цікавлять нас, множина яких називається генеральною сукупністю.

Вибираючи з генеральної сукупності групу об'єктів, котра цікавить нас під тим чи іншим кутом зору, отримуємо вибірку, на підставі якої робимо висновок про генеральну сукупність в цілому.

В процедурі статистичного висновку з прийнятно низьким ступенем ризику важливим вважається ретельний відбір представників вибірки і отримання достатньо великого її обсягу.

Основна увага статистики при цьому зосереджена на вивченні вибіркових даних, маніпулюванні цими даними певним чином і використанні отриманих результатів для створення прогнозів.

Зазначені статистичні процедури здійснюються з метою отримання стислого опису великої кількості вимірювань за допомогою декількох ключових підсумкових значень. Частіше інших підсумкових значень використовуються усереднювання спостережень.

Під середньою величиною найчастіше мають на увазі середнє арифметичне. Процес арифметичного усереднювання завершується обчисленням середнього, яке визначається сумою усіх спостережень, поділених на їх кількість.

Вибіркове середнє (Х з рискою) обчислюється за формулою

де – вибіркове середнє; ΣХ – сума всіх значень вибірки; n – обсяг вибірки.

Для спрощення запису формул часто використовуються стислі позна-чення. При цьому операція підсумовування ΣХ всіх доданків Х проводиться в межах від 1 до n, збільшуючись кожний наступний раз на одиницю.

Оскільки у всіх сумах підсумовування проводиться від 1 до n, то індекси можуть опускаться, щоб використовувати простіше позначення, за винятком тих випадків, коли для більшої ясності буде потрібно використання складних позначень.

Приклад 1. За першу декаду січня мала місце така кількість дорожніх подій: 23, 38, 42, 25, 60, 55, 50, 42, 32, 35.

Для цієї вибірки n = 10 і

 X1 + X2 + X3 + X4 + X5 + X6 + X7 + X8 + X9 + X10 =

= 23 + 38 + 42 + 25 + 60 + 55 + 50 + 42 + 32 + 35 = 402;

= 402/ 10 = 40,2.

Нехай у зведенні за наступні 10 днів опинилися інші дані: 20, 40, 40, 30, 50, 60, 70, 40, 30, 20. Їх середнє арифметичне

= (20 + 40 + 40 + 30 + 50 + 60 + 70 + 40 + 30 + 20)/10 =

= 400/10 = 40,0

незначно відрізняється від середнього значення за першу декаду. Тому середнє число дорожніх транспортних подій можна достатньо точно спрогнозувати. З цього факту випливає, що чим більше звітний період (декада, місяць, квартал, рік), тим сталіше середня величина. Іншими словами, середнє число подій за декаду коливається менше, ніж число подій за кожен день.

Середні величини кількості дорожних транспортних подій можуть значно залежити від погоди, пори року, стану дороги та інших випадкових чинників. Проте відмінність між ссредніми значно менше, ніж відмінність між початковими даними. Ця властивість середніх величин представляє важливіший прояв закону великих чисел, відкритого Чебишевим.

Якщо таблиця початкових даних містить декілька десятків чисел або більше, то складають таблицю ускладненої структури, в якій для кожної з величин зазначаєть, скільки разів вона спостерігалася.

Приклад 2. Припустимо, що УВС міста опублікувало зведення про кількість ДТП за перших 20 днів лютого: 12, 30, 40, 30, 70, 50, 60, 40, 30, 40; 20, 40, 40, 30, 50, 60, 70, 40, 30, 20. За цими даними складена таблиця 1

Таблиця 1

хi

12

20

30

40

50

60

70

mi

1

2

5

6

2

2

2

у якій mi – число днів, в кажен з яких було здійснене хi ДТП.

З таблиці 1 випливає, що існує усього 1 день, протягом якого відбулося 12 ДТП; існує 5 днів, протягом яких відбулося по 30 ДТП і так далі.

Для підрахунку середнього арифметичного числа ДТП за один день можна скористатися таким співвідношенням

= =

+ (12×1 + 20×2 + 30×5 + 40×6 + 50×2 + 60×2 + 70×2) / 20 = 802/20 = 40,1.

Тут  – різні величини серед заданих n чисел, причому значення  зустрічаєтся m1 раз, значення  повторюється m2 раз і так далі. Числа mi є абсолютними частотами, причому m1 + m2 + ... + mi = 1.

Нагадаємо, що середнім геометричним n позитивних чисел х1, х2, ..., хп називається корінь п-ого ступеня з їх добутку:

= .

Властивість 1 середню. Середнє арифметичне декількох позитивних чисел розміщується між найменшим і найбільшим з даних чисел.

Властивість 2 середній. Середнє геометричне двох позитивних чисел не перевищує їх середнього арифметичного.

Приклад 3. Задано два позитивних числа: х1 = 4, х2 = 25. Знайти середнє арифметичне та середнє геометричне значення цих двох чисел.

Середнє арифметичне цих чисел дорівнює:

= (4 + 25)/2 = 14,5.

Середнє геометричне цих чисел дорівнює:

=  = 2 × 5 = 10.

Друга властивість середніх дотримана, оскільки середнє геометричне заданих чисел розміщується між найменшим числом і середнім арифметичним.

2.2. Дисперсія як показник розсіювання випадкової величины.

Разом з обчисленням середнього арифметичного для з'ясування тенденції даних до угруповування навколо середнього значення представляє інтерес те, наскільки спостереження розкидані відносно середнього значення.

Средньоквадратичне відхилення можна розглядати як міру відхилення спост ережень від середнього значення. Для обчислення средньоквадратичного відхилення використовується така формула

.

Тут під знаком суми маємо суму квадратів різниць між спостережен-нями та їх середнім значенням.

Багато статистичних процедур використовують вибіркову дисперсію. Дисперсія вимірювань є квадратом среднеквадратического відхилення. Вибіркова дисперсія S2 обчислюється за формулою

.

Приклад 1. За першу декаду січня мала місце така кількість дорожніх подій: 23, 38, 42, 25, 60, 55, 50, 42, 32, 35.

Для цієї вибірки n = 10 і

 X1 + X2 + X3 + X4 + X5 + X6 + X7 + X8 + X9 + X10 =

= 23 + 38 + 42 + 25 + 60 + 55 + 50 + 42 + 32 + 35 = 402;

= 402/ 10 = 40,2;

= 1339,6/(10 – 1) = 148, 84;

=  = 12,2.

Вибіркове середнє складає 40,2 дорожніх подій в день за першу декаду січня, вибіркова дисперсія дорівнює 148.84, а вибіркове середньоквадратичне відхилення складає 12,2.

Для визначення числа одиниць даних, вільних одне від одного у тому сенсі, що вони не можуть бути отримані одне з іншого і, отже, є носіями одиниць інформації, використовується термін ступінь вільності.

Припустимо, що сформульовано такі три твердження: Я задумав число 5. Я задумав число 7. Сума двох чисел, які я задумав дорівнює 12. На перший погляд здається, що тут присутньо три одиниці інформації. Проте якщо будь-які два з цих тверджень відомі, то третє може бути однозначно визначене.

Отже в трьох зазначених твердженнях є тільки дві одиниці інформації, тобто існують тільки два ступеня вільності, оскільки тільки два твердження вільно змінюються, а третє залежить від перших двох.

В прикладі 1 при обчисленні середньої щоденної кількості дорожних подій береться вибірка з десятьма ступенями вільності, оскільки кожну дорожну подію можна розглядати як незалежну.

В процесі обчислення вибіркового середньоквадратичного відхилення використовується оцінка середнього значення генеральної сукупності . Тому при обчисленні середньоквадратичного відхилення слід враховувати тільки девять ступенів вільності, а один ступень вільності втрачається.

Таким чином, ступені вільності в наборі даних визначають число одиниць даних, незалежних одне від одного, які можуть нести окремі елементи інформації.

Середнє значення і середньоквадратичне відхилення є найбільш важливими характеристиками для опису наборів даних; вони короткі і змістовні. Проте разом з ними часто використовуються й інші описові підсумкові характеристики. Для визначення центрального значення в наборі даних застосовується медіана. Медіана – це те значення, яке ділить вибірку так, що одна половина значень у вибірці буде більша, а інша – менше.

Як груба оцінка дисперсії іноді використовується розмах. Розмахом називається різниця між максимальним і мінімальним значеннями вибірки. Наприклад, розмах ДТП дорівнює 37 (через те, що 60 – 23 = 37).

Квартилі поділяють набір даних на чотири рівні частини після того, як чисельні значення були впорядковані від найменшого до найбільшого.

Медіана поділяє вибірку на дві рівні частини і називається другою квартиллю. Перша квартиль (Q1) поділяє нижню половину на дві рівні частини, а третя квартиль (Q3) поділяє на дві рівні частини верхню половину.

Нарешті, міжквартильний розмах характеризує мінливість множини даних. Це просто різниця між третьою і першою квартилями (Q3) – (Q1) або розмах для середніх 50% значень з набору даних.

2.3. Основні статистичні характеристики вибіркової сукупності.

У багатьох випадках на об'єкт дослідження діє багато випадкових неконтрольованих факторів. Це призводить до нестабільності досліджуваних характеристик об'єкта, що досліджується. У зв'язку з цим значення результатів експериментальних досліджень можна розглядати як статистичну сукупність випадкових величин.

Сукупність, яка містить в собі всі можливі значення випадкової вели-чини, називається генеральною. На практиці використовують сукупність, що містить лише певну частину генеральної сукупності, яка називається вибіркою або вибірковою сукупністю. Репрезентативність даних вибірки забезпечується попередньо розрахованим числом спостережень.

Для первинної обробки експериментальних даних вибірка повинна мати такі статистичні параметри: діапазон змінення значень змінної величини Х; середнє арифметичне значення ; вибіркова дисперсія S2; середнє квадратичне відхилення S; коефіцієнт варіації υ; середня помилка середнього значення Sx, інтервал найвірогідніших значень величини Х, показник точності досліду Р.

Приклад 1. Звіт про кількість правопорушень за перші 20 днів січня містить такі дані: 8, 6, 13, 4, 13, 13, 12, 9, 7, 6, 12, 14, 13, 12, 17, 6, 8, 12, 7, 12.

На основі цих даних підрахувати основні статистичні характеристики правопорушень у зазначеному регіоні.

Початкові дані представимо у вигляді таблиці 1.

Таблиця 1

4

6

7

8

9

12

13

14

17

mi

1

3

2

2

1

5

4

1

1

0,05

0,15

0,10

0,10

0,05

0,25

0,20

0,05

0,05

1. Середньоарифметична кількість правопорушень за один день підра-ховується за такими формулами:

= (х1 + х2 +…+хn)/n = 10,2;

= = 10,2;

= = 10,2.

Середньоарифметичне значення  дорівнює сумі добутків чисел, взятих з першого рядка таблиці 1, помножених на їх частоти

При статистичному дослідженні потрібно знати, як задані числа розсіяні навколо їх середнього значення. Для цього вводяться поняття дисперсії та середньоквадратичного відхилення.

2. Дисперсія випадкової величини вважається одною з основних числових характеристик випадкової величини. Дисперсія характеризує ступінь розсіювання значень випадкової величини відносно математичного сподівання МХ випадкової величини. Дисперсією величин х1, х2, …, хn називається число, котре визначається фомулою

D1 = [(x1 – )2 + (x2 – )2 +…+ (xn – )2] /(n – 1),

де – середнє арифметичне чисел х1, х2, …, хn;

D2 = ( – )2 + ( – )2 +…+ ( – )2,

де , , …,  – частоти виникнення чисел , , …, , котрі знаходяться серед х1, х2, …, хn.

Важлива властивість середньої арифметичної полягає у тому, що сума відхилень величин х1, х2, …, хn від середньої арифметичної завжди дорівнює нулю.

3. Середнім квадратичним відхиленням величин х1, х2, …, хn від середнього арифметичного значення називається величина, що дорівнює

.

З визначення середнього квадратичного відхилення випливає, що останнє не перевищує найбільшої з абсолютних величин відхилення  хi.

4. Інтервалом найвірогідніших значень величини Х називають інтервал, в середині якого розміщується точка середнього арифметичного , в який попадає більше половини значень величини Х.

Зазвичай прогноз містить таку інформацію: діапазон змінення значень величини Х; її середнє значення ; середньоквадратичне відхилення S та інтервал найвірогідніших значень величини Х.

Приклад 2. Час обслуговування автомобіля змінюється в межах від 22 до 54 хвилин (як зазначено в таблиці 2), середній час обслуговування одного автомобіля = 34 хвилини, а середнє відхилення величини Х від її серед-нього значення складає S = 10,4 хвилин.

Таблиця 2

22

25

30

36

40

41

45

54

0,2

0,2

0,1

0,1

0,1

0,1

0,1

0,1

З даних таблиці 2 випливає, що в інтервал (– S, + S) = (23,6; 44,4) попадає 5 значень величини Х: 25, 30, 36, 40, 41, частоти яких відповідно дорівнюють 0,2; 0,1; 0,1; 0,1; 0,1; 0,1. Отже, в интервал (23,6; 44,4) попадає 60% (тобто більша частина) значень величини Х, оскільки сума частот дорівнює 0,6. Таким чином, інтервал (23,6; 44,4) можна вважати интервалом найвірогідніших  значень величини Х.

Висновки

В лекції 2 визначено основні поняття математичної статистики, розгля-нуто порядок обчислення математичних статистик, приведено основні фор-мули для обчислення статистичних характеристик вибіркової сукупності, на-ведено алгебру подій, які можна виконувати над елементами часового ряду.

Завдання і питання для самоперевірки

1. Визначити доповнення до даної події, заданої на певному універсальному просторі.

2. У чому полягає смисл властивостей подій: комутативність, асоциативність та дистрибутивність?

3. У чому полягають переваги використання діаграм Ейлера-Венна при вивченні операцій над подіями?

Літературні джерела:

1. Руденко, В.М. Математична статистика [ТЕКСТ]: навчальний посібник / В.М. Руденко. – Київ: Центр учбової літератури, 2012. – 304 с.

2. Сигел, Э.Ф. Практическая бизнес-статистика [ТЕКСТ]: моно-графия / Э.Ф. Сигел. – М.: Вильямс, 2002. – 1056 с.

3. Игуменцева Н.В., Пахомов В.И. Статистический анализ результатов наблюдений [ТЕКСТ]: учебное пособие / Н.В. Игуменцева, В.И. Пахомов. – Харьков: СМИТ, 2005. – 236 с.


 

А также другие работы, которые могут Вас заинтересовать

78711. Потребительская корзина в России 2013 17.41 KB
  Потребительская корзина -– это некий набор товаров и услуг обеспечивающих комфортное и полноценное проживание человека на протяжении года и удовлетворяющих его минимальные потребности. Продукты питания: Наименование Единица измерения Объем потребления в среднем на одного...
78712. Олигополия. Модели олигополии 96 KB
  Издержки производства в этих компаниях будут намного выше и в конце концов фирмы не смогут удержаться на рынке. Данное понятие включает как тесную олигополию когда на рынке доминируют две или три крупные фирмы и свободную олигополию когда шесть или семь фирм делят между собой...
78713. Рациональное питание 200 KB
  Соблюдение режима питания определенное время приема пищи и определенное количество ее при каждом приеме. Изменяя характер питания в том числе и калорийность можно регулировать процессы обмена веществ. Нормы и есть критерии рационального питания.
78715. КОНТРОЛЬНІ ЗАВДАННЯ З НІМЕЦЬКОЇ МОВИ (ЯК ДРУГОЇ ІНОЗЕМНОЇ) 196 KB
  Ich heiße Christina Müller und wohne in Dresden. Mein Vater heißt Peter und ist Ingenieur. Meine Mutter arbeitet als Sekretärin. Mein Bruder Klaus wohnt nicht hier. Er studiert in Leipzig. Wir telefonieren oft. Er ist schon 22 Jahre alt.Leider habe ich keine Schwester.
78716. Контрольна робота – хімія 70 KB
  Атомно-молекулярне вчення підсумок сучасної фізики хімії та природознавства провідною ідеєю якого є дискретність перервність будови речовини: уявлення про існування двох видів найдрібніших частинок речовини атомів і молекул; остаточно запроваджене в науковому світі лише на початку другої половини XIX ст.
78717. Методичні вказівки до самостійної роботи з хімії 2.32 MB
  Органічна хімія є фундаментальною дисципліною в хімічній освіті, яка сприяє активному формуванню предметних і професійних компетенцій, спрямованих на виконання виробничих функцій спеціалістів. Засвоєння теоретичних основ органічної хімії дозволить сформувати у студентів комплекс хімічних знань...