10987

Кластерный анализ. Анализ временных рядов

Лекция

Математика и математический анализ

КЛАСТЕРНЫЙ АНАЛИЗ ПРОДОЛЖЕНИЕ Монотонность Для графического представления процесса объединения все индивиды группы размещаются в соответствующем порядке на оси абсцисс. Последовательность объединений иерархия или дендрограмма требует чтобы каждое объединени

Русский

2013-04-03

79.16 KB

19 чел.

КЛАСТЕРНЫЙ АНАЛИЗ (ПРОДОЛЖЕНИЕ)

Монотонность

Для графического представления процесса объединения все индивиды (группы) размещаются в соответствующем порядке на оси абсцисс. Последовательность объединений (иерархия или дендрограмма) требует, чтобы каждое объединение было связано с некоторым значением ординаты (обычно для этого используют меру различия).

 множество стратегий объединения:

  1.  стратегия "ближнего соседа"   

Это монотонная стратегия, сильно сжимающая пространство.

  1.  стратегия " дальнего соседа" (монотонная сильно растягивающая стратегия)  
  2.  гибкая стратегия (применима для любой меры различия и определяется четырьмя ограничениями):

Стратегия монотонная, если , то стратегия сохраняет метрику. Если  то стратегия сжимает пространство, а если , то растягивает. На практике обычно используют

Замечание.  Разделяющие (дивизионные) стратегии здесь не рассматриваются.

Пример 1: Имеются 5 объектов, для которых заданы меры различия , образующие матрицу :

Таблица 1.

1

2

3

4

5

1

-

0.227

0.250

0.422

0.897

2

0.227

-

0.492

0.387

0.917

3

0.250

0.492

-

0.356

1.000

4

0.422

0.387

0.356

-

0.773

5

0.897

0.917

1.000

0.773

-

Шаг 1. Т.к. , то объекты 1 и 2 объединяются в группу 6. Затем вычислим . Для вычисления воспользуемся гибкой стратегией:

.

Согласно (23.10) запишем: .

В результате вычислений получим:

.

Новая матрица будет иметь вид:

Таблица 2.

6

3

4

5

6

-

0.407

0.449

1.077

3

0.407

-

0.356

1.000

4

0.449

0.356

-

0.773

5

1.077

1.000

0.773

-

Шаг 2. , т.е. на втором шаге объединим группы 3 и 4, новую группу обозначим номером 7.

Шаг 3. Т.к. , то на третьем шаге объединяем группы 6 и 7, новую группу обозначим номером 8.

Шаг 4. На последнем шаге объединяем оставшиеся две группы на уровне . Новую группу обозначим номером 9

Результаты иерархической классификации наблюдений представлены на рис.1.

Рис.1. Дендрограмма наблюдений

Анализ временных рядов

Анализ временных рядов представляет собой самостоятельную, весьма обширную и одну из наиболее интенсивно развивающихся областей математической статистики.

Временным рядом (динамическим рядом) в технике и экономике называется последовательность наблюдений некоторого признака (случайной величины) X в последовательные равноотстоящие моменты времени. Отдельные наблюдения называются уровнями ряда, которые будем обозначать
, где n – число уровней.

Анализ временных рядов используется, в частности, для решения следующих задач:

  1.  для построения математической модели процесса, представленного временным рядом;
  2.  для исследования структуры временного ряда, например для выявления изменения среднего уровня значений (тренда) и обнаружения периодических колебаний;
  3.  для прогнозирования будущего развития процесса, представленного временным рядом.

Для решения этих и других задач анализа временных рядов исследователями предложено большое количество различных методов:

  1.  методы корреляционного анализа, позволяют выбрать наиболее существенные периодические зависимости и их лаги (задержки) в одном процессе (автокорреляция) или между несколькими процессами (кросскорреляция);
  2.  методы спектрального анализа позволяют находить периодические и квазипериодические зависимости в данных;
  3.  методы сглаживания и фильтрации предназначены для преобразования временных рядов с целью удаления из них высокочастотных или сезонных колебаний;
  4.  методы авторегрессии и скользящего среднего оказываются особенно полезными для описания и прогнозирования процессов, проявляющих однородные колебания вокруг среднего значения.

Таким образом, важнейшей классической задачей при исследовании временных рядов является выявление  и статистическая оценка основной тенденции развития изучаемого процесса и отклонений от нее.

Пример 2.  Рассмотрим простейший пример временного ряда. В табл. 3 приведены данные, отражающие цену и спрос (усл. ед.) на некоторый товар за восьмилетний период, т.е. два временных ряда – цена товара  и спроса  на него. Отметим, что при анализе временных рядов, на первом этапе исследования изучается графическое представление и описание поведения временного ряда (см. рис. 2).

Таблица 3.

Год, t

1

2

3

4

5

6

7

8

Цена, xt

492

462

350

317

340

351

368

381

Спрос, yt

213

171

291

309

317

362

351

361

Рис. 2. Динамика спроса за 8 лет

В общем виде при исследовании экономического временного ряда  выделяются несколько составляющих:

где  тренд, плавно меняющаяся компонента, описывающая чистое влияние долговременных факторов, т.е. длительную ("вековую") тенденцию изменения признака, (например, рост населения, изменение структуры потребления и т.п.);

сезонная компонента, отражающая повторяемость экономических процессов в течение не очень длительного периода (года, иногда месяца, недели и т.п. например, объем продаж товаров или перевозок пассажиров в различное время года);

 циклическая компонента, отражающая повторяемость экономических процессов в течение длительных периодов (например, влияние демографических "ям", циклов солнечной активности и т.п.);

 случайная компонента, отражающая влияние не поддающихся учету и регистрации случайных факторов.

Следует обратить внимание на то, что в отличие от  первые три составляющие (компоненты) , , являются закономерными, неслучайными.

Несмотря на кажущуюся схожесть последовательности наблюдений (вариационного ряда) и временного ряда , они имеют принципиальные отличия:

  1.  во-первых, в отличие от элементов выборки члены временного ряда, как правило, не являются статистически независимыми;
  2.  во-вторых, члены временного ряда не являются одинаково распределенными.

Стационарные временные ряды и автокорреляционная функция

Большое значение в анализе временных рядов имеют стационарные временные ряды, вероятностные свойства которых не изменяются во времени.

Временной ряд  называется строго стационарным (или стационарным в узком смысле), если совместное распределение вероятностей  наблюдений  такое же, как и  наблюдений  при любых  и . Другими словами, свойства строго стационарных рядов  не зависит от момента , т.е. закон распределения и его числовые характеристики не зависят от . Следовательно, математическое ожидание , среднее квадратическое отклонение  могут быть оценены по наблюдениям

Степень тесноты связи между последовательностями наблюдений временного ряда  и  (сдвинутых относительно друг друга на  единиц, или, как говорят, с лагом ) может быть определена с помощью коэффициента корреляции

Так как коэффициент  измеряет корреляцию между членами одного и того же ряда, его называют коэффициентом автокорреляции, а зависимость  автокорреляционной функцией. Для стационарного временного ряда автокорреляционная функция  зависит только от лага τ, причем , т.е. при изучении автокорреляционной функции можно ограничиться рассмотрением только положительных значений τ.

Статистической оценкой  является выборочный коэффициент автокорреляции , определяемый по формуле коэффициента корреляции (10.7), в которой  а n заменяется на n – τ:

.  (24.5)

Функцию  называют выборочной автокорреляционной функцией, а ее график – коррелограммой.

Для стационарного временного ряда с увеличением лага  взаимосвязь членов временного ряда  и  ослабевает и автокорреляционная функция  должна убывать (по абсолютной величине).

Пример 3.  По данным примера 2 для временного ряда вычислим среднее значение, среднее квадратическое отклонение и коэффициент автокорреляции (для лага .

РЕШЕНИЕ. По формуле (24.2) вычислим:

(усл. ед.).

Для вычисления дисперсии (среднего квадратического отклонения) вспомним свойство дисперсии: ,  (усл. ед.).

Коэффициент автокорреляции для , равен коэффициенту корреляции между последовательностями семи пар наблюдений  и :

213

171

291

309

317

362

351

171

291

309

317

362

351

361

Теперь по формуле (24.5) получим: . Аналогично вычислим , .

Знание автокорреляционной функции  может оказать существенную помощь при подборе модели анализируемого временного ряда и статистической оценке ее параметров.

Замечания.  При расчете  следует помнить, что с увеличением τ число n – τ пар наблюдений  уменьшается, поэтому лаг τ должен быть таким, чтобы число n – τ было достаточным для определения .

Для выборочного коэффициента автокорреляции , особенно при небольшом числе пар наблюдений n – τ, свойство монотонного убывания (по абсолютной величине) при возрастании τ может нарушаться (см. пример 2).


 

А также другие работы, которые могут Вас заинтересовать

36207. Деревянные конструкции. Принцип фахверковой стены. Вопросы ее утепления и облицовки 51 KB
  Фахверковые дома имеют жёсткий несущий каркас из : стоек вертикальных элементов балок горизонтальных элементов раскосов диагональных элементов которые и являются основной отличительной особенностью конструкции фахверка. В основном применяются конструкции позволяющие создать большую площадь остекления что зрительно создает эффект растворения границы интерьера сближая человека с природой. В основном несущие элементы конструкции фахверка покрывают защитным составом позволяющим сохранять древесину сухой трудновоспламеняемой и...
36208. КАМЕННЫЕ КОНСТРУКЦИИ ОДНОСЛОЙНЫЕ И МНОГОСЛОЙНЫЕ КОНСТРУКЦИИ НЕСУЩИХ СТЕН 159 KB
  Стены основные элементы конструкции здания. Несущая стена является естественным продолжением и неотъемлемым элементом конструкции здания служит опорой для балок или бетонных плит потолочного перекрытия. Наружные стены могут быть однослойной или слоистой конструкции.
36209. Задачи дискретной оптимизации. Основные точные методы дискретной оптимизации: поиск с возвратом, динамическое программирование, метод ветвей и границ. Приближённые методы дискретной оптимизации: жадный алгоритм, метод локальных вариаций 126.5 KB
  Тогда в терминах ЦЧЛП задача о рюкзаке может быть сформулирована так: найти максимум линейной функции при ограничениях хj  0 . Найти кратчайший маршрут коммивояжера бродячего торговца начинающийся и заканчивающийся в заданном городе и проходящий через все города. Воспользовавшись им при k = n – 1 1 можно найти Q х0 – оптимальное значение критерия эффективности. Зная х1 можно найти – оптимальное управление на 2й стадии и т.
36210. Языки описания выбора. Процедуры выбора при критериальном описании: скалярно-оптимизационный механизм выбора, человеко-машинные процедуры, мажоритарные схемы 73.5 KB
  Процедуры выбора при критериальном описании: скалярнооптимизационный механизм выбора человекомашинные процедуры мажоритарные схемы. Как любая теория теория выбора начинается с языка описания. К настоящему времени сложилось три основных языка описания выбора: критериальный язык; язык бинарных отношений; язык функций выбора.
36211. Классы численных методов построения множеств неулучшаемых решений. Основные теоремы для поточечных методов и алгоритма последовательного выбора 31.5 KB
  Процедуры первой группы осуществляют поочередный поиск отдельных неулучшаемых точек как решений вспомогательных скалярных задач. В них на каждой итерации получается целое множество “неплохих†точек которое на последующих шагах постепенно улучшается. Генератор на каждой итерации порождает набор точек zk а ФВ осуществляет отбор в некотором смысле лучших из них: Генератор множеств точек zk Функция выбора С Для организации выбора необходимо произвести парные сравнения исходных вариантов и отбросить те из...
36212. Эффективные и слабо-эффективные решения. Поточечные методы поиска слабо-эффективных решений и оценок. Линейная свёртка, теорема Карлина. Логическая свёртка, теорема Гермейера. Геометрический смысл теорем Карлина и Гермейера 79.5 KB
  Поточечные методы поиска слабоэффективных решений и оценок. Решения или оценки называются эффективными слабоэффективными если они неулучшаемы по отношению Парето Слейтера. Поиск слабоэффективных решений или оценок поточечными методами базируется на основной теореме 2.
36213. Метод наименьших квадратов (МНК). Теорема Гаусса-Маркова. Анализ уравнения регрессии посредством коэффициента детерминации и остаточной дисперсии. МНК-прогноз 112.5 KB
  МНКпрогноз. Согласно методу наименьших квадратов МНК эти оценки находят из условия минимума функции Qb = где уi – наблюдаемое значение выходного параметра в iм эксперименте.1 МНКоценок и представляет прежде всего теоретический интерес.
36214. Понятие плана эксперимента. Оптимизационные свойства планов экспериментов. Полный факторный план и его свойства 46 KB
  Оптимизационные свойства планов экспериментов. Полный факторный план и его свойства. Одной из главных задач планирования экспериментов является выбор множества экспериментальных точек в некотором смысле оптимальных.
36215. Классификация математических моделей. Критерии качества моделей. Примеры моделей 66.5 KB
  Примеры моделей Суть моделирования состоит в замене исходного объекта упрощенной копией – математической моделью ММ и дальнейшем изучении модели с помощью вычислительнологических алгоритмов реализуемых на компьютерах. При исследовании любой системы методами математического моделирования возможно наличие нескольких альтернативных вариантов модели. Поэтому процесс построения наилучшего как правило компромиссного варианта модели достаточно сложен. Системный подход предполагает наличие следующих этапов создания модели.