15708

ПОРЯДОК ОБЧИСЛЕННЯ МАТЕМАТИЧНИХ СТАТИСТИК

Лекция

Математика и математический анализ

Дисципліна: МАТЕМАТИЧНА СТАТИСТИКА ТА ОПРАЦЮВАННЯ СПОСТЕРЕЖЕНЬ Модуль 1: ОСНОВНІ ПОЛОЖЕННЯ МАТЕМАТИЧНОЇ СТАТИСТИКИ Лекція 2. ПОРЯДОК ОБЧИСЛЕННЯ МАТЕМАТИЧНИХ СТАТИСТИК План лекції 2: 2.1. Визначення основних понять математичної статистики. 2.2. Дисперсія як показн...

Украинкский

2013-06-15

192.5 KB

2 чел.

Дисципліна: МАТЕМАТИЧНА СТАТИСТИКА ТА ОПРАЦЮВАННЯ

СПОСТЕРЕЖЕНЬ

Модуль 1: ОСНОВНІ ПОЛОЖЕННЯ МАТЕМАТИЧНОЇ СТАТИСТИКИ

Лекція 2. ПОРЯДОК ОБЧИСЛЕННЯ МАТЕМАТИЧНИХ СТАТИСТИК

План лекції 2:

2.1. Визначення основних понять математичної статистики.

2.2. Дисперсія  як показник розсіювання випадкової величины.

2.3. Основні статистичні характеристики вибіркової сукупності.

2.1. Визначення основних понять математичної статистики.

Переважна більшість статистичних процедур призначається для того, щоб дати висновок про об'єкти, що цікавлять нас, множина яких називається генеральною сукупністю.

Вибираючи з генеральної сукупності групу об'єктів, котра цікавить нас під тим чи іншим кутом зору, отримуємо вибірку, на підставі якої робимо висновок про генеральну сукупність в цілому.

В процедурі статистичного висновку з прийнятно низьким ступенем ризику важливим вважається ретельний відбір представників вибірки і отримання достатньо великого її обсягу.

Основна увага статистики при цьому зосереджена на вивченні вибіркових даних, маніпулюванні цими даними певним чином і використанні отриманих результатів для створення прогнозів.

Зазначені статистичні процедури здійснюються з метою отримання стислого опису великої кількості вимірювань за допомогою декількох ключових підсумкових значень. Частіше інших підсумкових значень використовуються усереднювання спостережень.

Під середньою величиною найчастіше мають на увазі середнє арифметичне. Процес арифметичного усереднювання завершується обчисленням середнього, яке визначається сумою усіх спостережень, поділених на їх кількість.

Вибіркове середнє (Х з рискою) обчислюється за формулою

де – вибіркове середнє; ΣХ – сума всіх значень вибірки; n – обсяг вибірки.

Для спрощення запису формул часто використовуються стислі позна-чення. При цьому операція підсумовування ΣХ всіх доданків Х проводиться в межах від 1 до n, збільшуючись кожний наступний раз на одиницю.

Оскільки у всіх сумах підсумовування проводиться від 1 до n, то індекси можуть опускаться, щоб використовувати простіше позначення, за винятком тих випадків, коли для більшої ясності буде потрібно використання складних позначень.

Приклад 1. За першу декаду січня мала місце така кількість дорожніх подій: 23, 38, 42, 25, 60, 55, 50, 42, 32, 35.

Для цієї вибірки n = 10 і

 X1 + X2 + X3 + X4 + X5 + X6 + X7 + X8 + X9 + X10 =

= 23 + 38 + 42 + 25 + 60 + 55 + 50 + 42 + 32 + 35 = 402;

= 402/ 10 = 40,2.

Нехай у зведенні за наступні 10 днів опинилися інші дані: 20, 40, 40, 30, 50, 60, 70, 40, 30, 20. Їх середнє арифметичне

= (20 + 40 + 40 + 30 + 50 + 60 + 70 + 40 + 30 + 20)/10 =

= 400/10 = 40,0

незначно відрізняється від середнього значення за першу декаду. Тому середнє число дорожніх транспортних подій можна достатньо точно спрогнозувати. З цього факту випливає, що чим більше звітний період (декада, місяць, квартал, рік), тим сталіше середня величина. Іншими словами, середнє число подій за декаду коливається менше, ніж число подій за кожен день.

Середні величини кількості дорожних транспортних подій можуть значно залежити від погоди, пори року, стану дороги та інших випадкових чинників. Проте відмінність між ссредніми значно менше, ніж відмінність між початковими даними. Ця властивість середніх величин представляє важливіший прояв закону великих чисел, відкритого Чебишевим.

Якщо таблиця початкових даних містить декілька десятків чисел або більше, то складають таблицю ускладненої структури, в якій для кожної з величин зазначаєть, скільки разів вона спостерігалася.

Приклад 2. Припустимо, що УВС міста опублікувало зведення про кількість ДТП за перших 20 днів лютого: 12, 30, 40, 30, 70, 50, 60, 40, 30, 40; 20, 40, 40, 30, 50, 60, 70, 40, 30, 20. За цими даними складена таблиця 1

Таблиця 1

хi

12

20

30

40

50

60

70

mi

1

2

5

6

2

2

2

у якій mi – число днів, в кажен з яких було здійснене хi ДТП.

З таблиці 1 випливає, що існує усього 1 день, протягом якого відбулося 12 ДТП; існує 5 днів, протягом яких відбулося по 30 ДТП і так далі.

Для підрахунку середнього арифметичного числа ДТП за один день можна скористатися таким співвідношенням

= =

+ (12×1 + 20×2 + 30×5 + 40×6 + 50×2 + 60×2 + 70×2) / 20 = 802/20 = 40,1.

Тут  – різні величини серед заданих n чисел, причому значення  зустрічаєтся m1 раз, значення  повторюється m2 раз і так далі. Числа mi є абсолютними частотами, причому m1 + m2 + ... + mi = 1.

Нагадаємо, що середнім геометричним n позитивних чисел х1, х2, ..., хп називається корінь п-ого ступеня з їх добутку:

= .

Властивість 1 середню. Середнє арифметичне декількох позитивних чисел розміщується між найменшим і найбільшим з даних чисел.

Властивість 2 середній. Середнє геометричне двох позитивних чисел не перевищує їх середнього арифметичного.

Приклад 3. Задано два позитивних числа: х1 = 4, х2 = 25. Знайти середнє арифметичне та середнє геометричне значення цих двох чисел.

Середнє арифметичне цих чисел дорівнює:

= (4 + 25)/2 = 14,5.

Середнє геометричне цих чисел дорівнює:

=  = 2 × 5 = 10.

Друга властивість середніх дотримана, оскільки середнє геометричне заданих чисел розміщується між найменшим числом і середнім арифметичним.

2.2. Дисперсія як показник розсіювання випадкової величины.

Разом з обчисленням середнього арифметичного для з'ясування тенденції даних до угруповування навколо середнього значення представляє інтерес те, наскільки спостереження розкидані відносно середнього значення.

Средньоквадратичне відхилення можна розглядати як міру відхилення спост ережень від середнього значення. Для обчислення средньоквадратичного відхилення використовується така формула

.

Тут під знаком суми маємо суму квадратів різниць між спостережен-нями та їх середнім значенням.

Багато статистичних процедур використовують вибіркову дисперсію. Дисперсія вимірювань є квадратом среднеквадратического відхилення. Вибіркова дисперсія S2 обчислюється за формулою

.

Приклад 1. За першу декаду січня мала місце така кількість дорожніх подій: 23, 38, 42, 25, 60, 55, 50, 42, 32, 35.

Для цієї вибірки n = 10 і

 X1 + X2 + X3 + X4 + X5 + X6 + X7 + X8 + X9 + X10 =

= 23 + 38 + 42 + 25 + 60 + 55 + 50 + 42 + 32 + 35 = 402;

= 402/ 10 = 40,2;

= 1339,6/(10 – 1) = 148, 84;

=  = 12,2.

Вибіркове середнє складає 40,2 дорожніх подій в день за першу декаду січня, вибіркова дисперсія дорівнює 148.84, а вибіркове середньоквадратичне відхилення складає 12,2.

Для визначення числа одиниць даних, вільних одне від одного у тому сенсі, що вони не можуть бути отримані одне з іншого і, отже, є носіями одиниць інформації, використовується термін ступінь вільності.

Припустимо, що сформульовано такі три твердження: Я задумав число 5. Я задумав число 7. Сума двох чисел, які я задумав дорівнює 12. На перший погляд здається, що тут присутньо три одиниці інформації. Проте якщо будь-які два з цих тверджень відомі, то третє може бути однозначно визначене.

Отже в трьох зазначених твердженнях є тільки дві одиниці інформації, тобто існують тільки два ступеня вільності, оскільки тільки два твердження вільно змінюються, а третє залежить від перших двох.

В прикладі 1 при обчисленні середньої щоденної кількості дорожних подій береться вибірка з десятьма ступенями вільності, оскільки кожну дорожну подію можна розглядати як незалежну.

В процесі обчислення вибіркового середньоквадратичного відхилення використовується оцінка середнього значення генеральної сукупності . Тому при обчисленні середньоквадратичного відхилення слід враховувати тільки девять ступенів вільності, а один ступень вільності втрачається.

Таким чином, ступені вільності в наборі даних визначають число одиниць даних, незалежних одне від одного, які можуть нести окремі елементи інформації.

Середнє значення і середньоквадратичне відхилення є найбільш важливими характеристиками для опису наборів даних; вони короткі і змістовні. Проте разом з ними часто використовуються й інші описові підсумкові характеристики. Для визначення центрального значення в наборі даних застосовується медіана. Медіана – це те значення, яке ділить вибірку так, що одна половина значень у вибірці буде більша, а інша – менше.

Як груба оцінка дисперсії іноді використовується розмах. Розмахом називається різниця між максимальним і мінімальним значеннями вибірки. Наприклад, розмах ДТП дорівнює 37 (через те, що 60 – 23 = 37).

Квартилі поділяють набір даних на чотири рівні частини після того, як чисельні значення були впорядковані від найменшого до найбільшого.

Медіана поділяє вибірку на дві рівні частини і називається другою квартиллю. Перша квартиль (Q1) поділяє нижню половину на дві рівні частини, а третя квартиль (Q3) поділяє на дві рівні частини верхню половину.

Нарешті, міжквартильний розмах характеризує мінливість множини даних. Це просто різниця між третьою і першою квартилями (Q3) – (Q1) або розмах для середніх 50% значень з набору даних.

2.3. Основні статистичні характеристики вибіркової сукупності.

У багатьох випадках на об'єкт дослідження діє багато випадкових неконтрольованих факторів. Це призводить до нестабільності досліджуваних характеристик об'єкта, що досліджується. У зв'язку з цим значення результатів експериментальних досліджень можна розглядати як статистичну сукупність випадкових величин.

Сукупність, яка містить в собі всі можливі значення випадкової вели-чини, називається генеральною. На практиці використовують сукупність, що містить лише певну частину генеральної сукупності, яка називається вибіркою або вибірковою сукупністю. Репрезентативність даних вибірки забезпечується попередньо розрахованим числом спостережень.

Для первинної обробки експериментальних даних вибірка повинна мати такі статистичні параметри: діапазон змінення значень змінної величини Х; середнє арифметичне значення ; вибіркова дисперсія S2; середнє квадратичне відхилення S; коефіцієнт варіації υ; середня помилка середнього значення Sx, інтервал найвірогідніших значень величини Х, показник точності досліду Р.

Приклад 1. Звіт про кількість правопорушень за перші 20 днів січня містить такі дані: 8, 6, 13, 4, 13, 13, 12, 9, 7, 6, 12, 14, 13, 12, 17, 6, 8, 12, 7, 12.

На основі цих даних підрахувати основні статистичні характеристики правопорушень у зазначеному регіоні.

Початкові дані представимо у вигляді таблиці 1.

Таблиця 1

4

6

7

8

9

12

13

14

17

mi

1

3

2

2

1

5

4

1

1

0,05

0,15

0,10

0,10

0,05

0,25

0,20

0,05

0,05

1. Середньоарифметична кількість правопорушень за один день підра-ховується за такими формулами:

= (х1 + х2 +…+хn)/n = 10,2;

= = 10,2;

= = 10,2.

Середньоарифметичне значення  дорівнює сумі добутків чисел, взятих з першого рядка таблиці 1, помножених на їх частоти

При статистичному дослідженні потрібно знати, як задані числа розсіяні навколо їх середнього значення. Для цього вводяться поняття дисперсії та середньоквадратичного відхилення.

2. Дисперсія випадкової величини вважається одною з основних числових характеристик випадкової величини. Дисперсія характеризує ступінь розсіювання значень випадкової величини відносно математичного сподівання МХ випадкової величини. Дисперсією величин х1, х2, …, хn називається число, котре визначається фомулою

D1 = [(x1 – )2 + (x2 – )2 +…+ (xn – )2] /(n – 1),

де – середнє арифметичне чисел х1, х2, …, хn;

D2 = ( – )2 + ( – )2 +…+ ( – )2,

де , , …,  – частоти виникнення чисел , , …, , котрі знаходяться серед х1, х2, …, хn.

Важлива властивість середньої арифметичної полягає у тому, що сума відхилень величин х1, х2, …, хn від середньої арифметичної завжди дорівнює нулю.

3. Середнім квадратичним відхиленням величин х1, х2, …, хn від середнього арифметичного значення називається величина, що дорівнює

.

З визначення середнього квадратичного відхилення випливає, що останнє не перевищує найбільшої з абсолютних величин відхилення  хi.

4. Інтервалом найвірогідніших значень величини Х називають інтервал, в середині якого розміщується точка середнього арифметичного , в який попадає більше половини значень величини Х.

Зазвичай прогноз містить таку інформацію: діапазон змінення значень величини Х; її середнє значення ; середньоквадратичне відхилення S та інтервал найвірогідніших значень величини Х.

Приклад 2. Час обслуговування автомобіля змінюється в межах від 22 до 54 хвилин (як зазначено в таблиці 2), середній час обслуговування одного автомобіля = 34 хвилини, а середнє відхилення величини Х від її серед-нього значення складає S = 10,4 хвилин.

Таблиця 2

22

25

30

36

40

41

45

54

0,2

0,2

0,1

0,1

0,1

0,1

0,1

0,1

З даних таблиці 2 випливає, що в інтервал (– S, + S) = (23,6; 44,4) попадає 5 значень величини Х: 25, 30, 36, 40, 41, частоти яких відповідно дорівнюють 0,2; 0,1; 0,1; 0,1; 0,1; 0,1. Отже, в интервал (23,6; 44,4) попадає 60% (тобто більша частина) значень величини Х, оскільки сума частот дорівнює 0,6. Таким чином, інтервал (23,6; 44,4) можна вважати интервалом найвірогідніших  значень величини Х.

Висновки

В лекції 2 визначено основні поняття математичної статистики, розгля-нуто порядок обчислення математичних статистик, приведено основні фор-мули для обчислення статистичних характеристик вибіркової сукупності, на-ведено алгебру подій, які можна виконувати над елементами часового ряду.

Завдання і питання для самоперевірки

1. Визначити доповнення до даної події, заданої на певному універсальному просторі.

2. У чому полягає смисл властивостей подій: комутативність, асоциативність та дистрибутивність?

3. У чому полягають переваги використання діаграм Ейлера-Венна при вивченні операцій над подіями?

Літературні джерела:

1. Руденко, В.М. Математична статистика [ТЕКСТ]: навчальний посібник / В.М. Руденко. – Київ: Центр учбової літератури, 2012. – 304 с.

2. Сигел, Э.Ф. Практическая бизнес-статистика [ТЕКСТ]: моно-графия / Э.Ф. Сигел. – М.: Вильямс, 2002. – 1056 с.

3. Игуменцева Н.В., Пахомов В.И. Статистический анализ результатов наблюдений [ТЕКСТ]: учебное пособие / Н.В. Игуменцева, В.И. Пахомов. – Харьков: СМИТ, 2005. – 236 с.


 

А также другие работы, которые могут Вас заинтересовать

23011. Основні проблеми загального мовознавства 30.5 KB
  Основні проблеми загального мовова Мовознавство або лінгвістика наука про природну людську мову загалом і про всі мови світу як її індивідуальних представників. Загальне мовознавство вивчає загальні особливості мови як людського засобу спілкування а також структуру й закономірності функціонування всіх мов світу. До них належать суть мови її природа походження закони розвитку звязок із мисленням культурою. Цей курс охоплює такі основні проблеми: природу і сутність мови в науці немає єдиного розуміння цієї проблеми різні напрями...
23012. Методи дослідження в мовознавстві 35 KB
  Методи дослідження в мовові Термін метод від гр. дослідження вчення шлях пізнання неоднозначний: він уживається в загальнонауковому філософському значенні у спеціальнонауковому що стосується певної галузі науки: в значенні прийом спосіб дії яке звичайно позначається словом методика. їх часто називають методами. наведення метод дослідження згідно з яким на підставі знання про окреме роблять висновок про загальне.
23013. Синхронічний та діахронічний аспекти вивчення мовних одиниць 33 KB
  syn разом і chronos час тобто одночасність 1 стан мови в певний момент її розвитку в певну епоху; 2 вивчення мови в цьому стані в абстракції від часового чинника. dia через і chronos час тобто різночасність 1 історичний розвиток мови; 2 дослідження мови в часі в її історичному розвитку. Поступові кількісні зміни у мові протягом століть зумовили Якісні зміни причому такі що сучасному мовцеві важко зрозуміти давні тексти. Відповідно в мовознавстві розрізняють стан мови та розвиток мови.
23014. Проблема походження мови, основні теорії походження мови 43.5 KB
  Проблема походження мови основні теорії походження мови. Проблема походження мови є дуже складною. проблему походження мови порушувалася в межах філософських дискусій про сутність мови. Представники школи Платона вважали що назви предметам даються не довільно а відповідно до їх Природи що свідчить про природний характер мови і відповідно закономірну біологічну зумовленість її виникнення.
23015. Синтагматичний та парадигматичний аспекти дослідження мовних одиниць 28 KB
  Синтагматичний та парадигматичний аспекти дослідження мовних одиниць. Синтагматика один із двох системних аспектів у вивченні мови який розглядає відношення між послідовно розташованими одиницями за їхнього безпосереднього поєднання в реальному потоці мовлення або в тексті тобто сполучуваність мовних одиниць. Парадигматична методика охоплює опозиційний прийом на основі зіставлення і протиставлення мовних одиниць встановлюються їх диференційні ознаки а на основі спільності й відмінності одиниці об'єднуються в різні парадигматичні...
23016. Фактори розвитку мов. Поняття національна мова, літературна мова 29 KB
  Поняття національна мова літературна мова. Літературна мова унормована мова суспільного спілкування загальноприйнята в писемній та усній практиці. Літературна мова одна із форм національної мови що існує поряд з іншими її формами діалекти просторіччя мова фольклору.мови нормованість кодифікованість полі функціональність загально значущість наявність не тільки писемного а й усного різновиду.
23017. Семіотика як наука про знакові системи 35 KB
  Вивчення мови на рівних правах і тотожними методами мислиться в складі семіології єдиної науки про знаки. За першою класифікацією всі знаки поділяють на знакиіндекси знакикопії знакисигнали і знакисимволи. Знакиіндекси знакиприкмети і знакисимптоми знаки пов'язані з позначуваними предметами як дії зі своїми причинами. Знакикопії відтворення репродукції подібні на позначувані предмети.
23018. Мова як особлива знакова система 34 KB
  Мова як особлива знакова система. Знак матеріальний чуттєво сприйманий предмет який є представником іншого предмета і використовується для отримання зберігання і передачі інформації У світі існують різноманітні системи знаків які служать для передачі інформації. Серед них наприклад дорожні знаки морська сигналізація прапорцями та інші знаки. Основними ознаками знака є матеріальність його можна бачити чути тобто сприймати органами чуттів використання його для позначення чогось що перебуває поза ним інформативність.
23019. Основні властивості знаків, мовних знаків 34.5 KB
  Основні властивості знаків мовних знаків. Про довільність мовних знаків свідчить той факт що одні й ті ж поняття в різних мовах передаються різними словами укр. До вмотивованих мовних знаків передусім належать звуконаслідувальні слова типу бух ляп хлоп хіхікати. Саме завдяки цьому асиметричному дуалізмові структури знаків лінгвальна система може еволюціонувати.