10987

Кластерный анализ. Анализ временных рядов

Лекция

Математика и математический анализ

КЛАСТЕРНЫЙ АНАЛИЗ ПРОДОЛЖЕНИЕ Монотонность Для графического представления процесса объединения все индивиды группы размещаются в соответствующем порядке на оси абсцисс. Последовательность объединений иерархия или дендрограмма требует чтобы каждое объединени

Русский

2013-04-03

79.16 KB

19 чел.

КЛАСТЕРНЫЙ АНАЛИЗ (ПРОДОЛЖЕНИЕ)

Монотонность

Для графического представления процесса объединения все индивиды (группы) размещаются в соответствующем порядке на оси абсцисс. Последовательность объединений (иерархия или дендрограмма) требует, чтобы каждое объединение было связано с некоторым значением ординаты (обычно для этого используют меру различия).

 множество стратегий объединения:

  1.  стратегия "ближнего соседа"   

Это монотонная стратегия, сильно сжимающая пространство.

  1.  стратегия " дальнего соседа" (монотонная сильно растягивающая стратегия)  
  2.  гибкая стратегия (применима для любой меры различия и определяется четырьмя ограничениями):

Стратегия монотонная, если , то стратегия сохраняет метрику. Если  то стратегия сжимает пространство, а если , то растягивает. На практике обычно используют

Замечание.  Разделяющие (дивизионные) стратегии здесь не рассматриваются.

Пример 1: Имеются 5 объектов, для которых заданы меры различия , образующие матрицу :

Таблица 1.

1

2

3

4

5

1

-

0.227

0.250

0.422

0.897

2

0.227

-

0.492

0.387

0.917

3

0.250

0.492

-

0.356

1.000

4

0.422

0.387

0.356

-

0.773

5

0.897

0.917

1.000

0.773

-

Шаг 1. Т.к. , то объекты 1 и 2 объединяются в группу 6. Затем вычислим . Для вычисления воспользуемся гибкой стратегией:

.

Согласно (23.10) запишем: .

В результате вычислений получим:

.

Новая матрица будет иметь вид:

Таблица 2.

6

3

4

5

6

-

0.407

0.449

1.077

3

0.407

-

0.356

1.000

4

0.449

0.356

-

0.773

5

1.077

1.000

0.773

-

Шаг 2. , т.е. на втором шаге объединим группы 3 и 4, новую группу обозначим номером 7.

Шаг 3. Т.к. , то на третьем шаге объединяем группы 6 и 7, новую группу обозначим номером 8.

Шаг 4. На последнем шаге объединяем оставшиеся две группы на уровне . Новую группу обозначим номером 9

Результаты иерархической классификации наблюдений представлены на рис.1.

Рис.1. Дендрограмма наблюдений

Анализ временных рядов

Анализ временных рядов представляет собой самостоятельную, весьма обширную и одну из наиболее интенсивно развивающихся областей математической статистики.

Временным рядом (динамическим рядом) в технике и экономике называется последовательность наблюдений некоторого признака (случайной величины) X в последовательные равноотстоящие моменты времени. Отдельные наблюдения называются уровнями ряда, которые будем обозначать
, где n – число уровней.

Анализ временных рядов используется, в частности, для решения следующих задач:

  1.  для построения математической модели процесса, представленного временным рядом;
  2.  для исследования структуры временного ряда, например для выявления изменения среднего уровня значений (тренда) и обнаружения периодических колебаний;
  3.  для прогнозирования будущего развития процесса, представленного временным рядом.

Для решения этих и других задач анализа временных рядов исследователями предложено большое количество различных методов:

  1.  методы корреляционного анализа, позволяют выбрать наиболее существенные периодические зависимости и их лаги (задержки) в одном процессе (автокорреляция) или между несколькими процессами (кросскорреляция);
  2.  методы спектрального анализа позволяют находить периодические и квазипериодические зависимости в данных;
  3.  методы сглаживания и фильтрации предназначены для преобразования временных рядов с целью удаления из них высокочастотных или сезонных колебаний;
  4.  методы авторегрессии и скользящего среднего оказываются особенно полезными для описания и прогнозирования процессов, проявляющих однородные колебания вокруг среднего значения.

Таким образом, важнейшей классической задачей при исследовании временных рядов является выявление  и статистическая оценка основной тенденции развития изучаемого процесса и отклонений от нее.

Пример 2.  Рассмотрим простейший пример временного ряда. В табл. 3 приведены данные, отражающие цену и спрос (усл. ед.) на некоторый товар за восьмилетний период, т.е. два временных ряда – цена товара  и спроса  на него. Отметим, что при анализе временных рядов, на первом этапе исследования изучается графическое представление и описание поведения временного ряда (см. рис. 2).

Таблица 3.

Год, t

1

2

3

4

5

6

7

8

Цена, xt

492

462

350

317

340

351

368

381

Спрос, yt

213

171

291

309

317

362

351

361

Рис. 2. Динамика спроса за 8 лет

В общем виде при исследовании экономического временного ряда  выделяются несколько составляющих:

где  тренд, плавно меняющаяся компонента, описывающая чистое влияние долговременных факторов, т.е. длительную ("вековую") тенденцию изменения признака, (например, рост населения, изменение структуры потребления и т.п.);

сезонная компонента, отражающая повторяемость экономических процессов в течение не очень длительного периода (года, иногда месяца, недели и т.п. например, объем продаж товаров или перевозок пассажиров в различное время года);

 циклическая компонента, отражающая повторяемость экономических процессов в течение длительных периодов (например, влияние демографических "ям", циклов солнечной активности и т.п.);

 случайная компонента, отражающая влияние не поддающихся учету и регистрации случайных факторов.

Следует обратить внимание на то, что в отличие от  первые три составляющие (компоненты) , , являются закономерными, неслучайными.

Несмотря на кажущуюся схожесть последовательности наблюдений (вариационного ряда) и временного ряда , они имеют принципиальные отличия:

  1.  во-первых, в отличие от элементов выборки члены временного ряда, как правило, не являются статистически независимыми;
  2.  во-вторых, члены временного ряда не являются одинаково распределенными.

Стационарные временные ряды и автокорреляционная функция

Большое значение в анализе временных рядов имеют стационарные временные ряды, вероятностные свойства которых не изменяются во времени.

Временной ряд  называется строго стационарным (или стационарным в узком смысле), если совместное распределение вероятностей  наблюдений  такое же, как и  наблюдений  при любых  и . Другими словами, свойства строго стационарных рядов  не зависит от момента , т.е. закон распределения и его числовые характеристики не зависят от . Следовательно, математическое ожидание , среднее квадратическое отклонение  могут быть оценены по наблюдениям

Степень тесноты связи между последовательностями наблюдений временного ряда  и  (сдвинутых относительно друг друга на  единиц, или, как говорят, с лагом ) может быть определена с помощью коэффициента корреляции

Так как коэффициент  измеряет корреляцию между членами одного и того же ряда, его называют коэффициентом автокорреляции, а зависимость  автокорреляционной функцией. Для стационарного временного ряда автокорреляционная функция  зависит только от лага τ, причем , т.е. при изучении автокорреляционной функции можно ограничиться рассмотрением только положительных значений τ.

Статистической оценкой  является выборочный коэффициент автокорреляции , определяемый по формуле коэффициента корреляции (10.7), в которой  а n заменяется на n – τ:

.  (24.5)

Функцию  называют выборочной автокорреляционной функцией, а ее график – коррелограммой.

Для стационарного временного ряда с увеличением лага  взаимосвязь членов временного ряда  и  ослабевает и автокорреляционная функция  должна убывать (по абсолютной величине).

Пример 3.  По данным примера 2 для временного ряда вычислим среднее значение, среднее квадратическое отклонение и коэффициент автокорреляции (для лага .

РЕШЕНИЕ. По формуле (24.2) вычислим:

(усл. ед.).

Для вычисления дисперсии (среднего квадратического отклонения) вспомним свойство дисперсии: ,  (усл. ед.).

Коэффициент автокорреляции для , равен коэффициенту корреляции между последовательностями семи пар наблюдений  и :

213

171

291

309

317

362

351

171

291

309

317

362

351

361

Теперь по формуле (24.5) получим: . Аналогично вычислим , .

Знание автокорреляционной функции  может оказать существенную помощь при подборе модели анализируемого временного ряда и статистической оценке ее параметров.

Замечания.  При расчете  следует помнить, что с увеличением τ число n – τ пар наблюдений  уменьшается, поэтому лаг τ должен быть таким, чтобы число n – τ было достаточным для определения .

Для выборочного коэффициента автокорреляции , особенно при небольшом числе пар наблюдений n – τ, свойство монотонного убывания (по абсолютной величине) при возрастании τ может нарушаться (см. пример 2).


 

А также другие работы, которые могут Вас заинтересовать

37856. Контроль загрязнения воздуха 100.75 KB
  елевая установка. Ознакомиться с понятием загрязнения атмосферного воздуха и воздуха рабочей зоны. Изучить методику контроля воздуха на рабочем месте с помощью универсального газоанализатора УГ-2, аспираторов сильфонных АМ-5 и АМ-0059. Усвоить принципы нормирования загрязняющих веществ в атмосферном воздухе и в воздухе рабочей зоны. Знать условия качества воздуха.
37857. Исследование производственного шума и звукоизолирующей способности. Некоторых конструкций 293.5 KB
  Коэффициент пульсации – критерий глубины колебаний освещенности в результате изменения во времени светового потока. где Еmx Еmin Еср – максимальное минимальное и среднее значение освещенности за период колебаний лк; для газоразрядных ламп kn = 2565 для ламп накаливания kn= 7. К основным количественным показателям освещения относят величину освещенности люксы яркость светящихся поверхностей...
37859. ИССЛЕДОВАНИЕ СИСТЕМ АВТОМАТИЧЕСКОЙ ПОЖАРНОЙ СИГНАЛИЗАЦИИ 824 KB
  Ознакомиться с устройством принципом действия систем автоматической электрической пожарной сигнализации изучить основные типы датчиков пожарной опасности – пожарных извещателей исследовать работу автоматического пожарного извещателя многоразового использования типа АТИМ3 проверить общую работоспособность электрической системы пожарной сигнализации. Материальное обеспечение: лабораторный стенд с макетом промышленного здания оборудованного системой автоматической пожарной сигнализации; образцы пожарных извещателей: ДТЛ ДИПУ АТП3м...
37860. Структура студентського наукового дослідження 91.94 KB
  Тому в педагогічній науці слід особливо ретельно підходити до організації навчальновиховної роботи на засадах системності. Сам процес навчання має свої компоненти: зміст мету форми методи научіння й учіння мотиви пізнавальної діяльності аналіз і оцінювання навчальної роботи студентів. Не варто думати що для здійснення науководослідної роботи студентів необхідно моделювати якусь окрему систему. Навпаки науководослідна робота є складовою навчальновиховної роботи професійної підготовки взагалі.
37861. РОЗВ’ЯЗАННЯ СИСТЕМ ЛІНІЙНИХ АЛГЕБРАЇЧНИХ РІВНЯНЬ 566 KB
  Множина чисел яка перетворює кожне з рівнянь системи на тотожність називається розв’язком системи. Методи виключення Гаусса Методи виключення Гаусса послідовного виключення змінних ґрунтуються на ідеї еквівалентного перетворення зведення вихідної системи до трикутного вигляду прямий хід і подальшого її розв’язання зворотний хід. Поділивши перше рівняння системи 3. Тоді поділивши на нього перше рівняння системи 3.
37862. ИЗУЧЕНИЕ ТЕПЛОЕМКОСТЕЙ ГАЗОВ 223.5 KB
  Внутренняя энергия системы состоит из кинетической энергии молекул составляющих систему потенциальной энергии их взаимодействия друг с другом внутримолекулярной энергии т. энергии взаимодействия атомов или ионов в молекулах энергии электронных оболочек атомов и ионов внутриядерной энергии и энергии электромагнитного излучения в системе. Система может обладать также и внешней энергией которая представляет собой сумму кинетической энергия движения системы как целого кинетической энергии центра масс системы и потенциальной энергии...
37863. Визначення оптимального асортименту продукції 310.5 KB
  Визначення оптимального асортименту продукції. Підприємство виготовляє два види продукції П1 і П2 яка надходить в оптовий продаж. Витрата сировини на одиницю продукції наведена у таблиці.1 Сировина Витрата сировини на одиницю продукції Запас сировини од.
37864. Основы статистической обработки информации с использованием EXCEL. Определение некоторых числовых характеристик экспериментальных статистических данных 618.5 KB
  Создать массив признаков интервалов и посчитать для них частоту. Для создания массива признаков сначала рассчитывают цену деления c= Rx k. откл 6765655 6821 6162 6168 6819 7062 эксцесс 0057761 ассиметрия 0385736 Для построения гистограммы и полигона частот используется функция Excel ЧАСТОТА массив_данных; массив_интервалов. Эта функция относится к классу статистических и производит операции над массивами.