96889

МЕТОД ГЛАВНЫХ КОМПОНЕНТОВ. ПРИМЕНЕНИЕ К ПОСТРОЕНИЮ РЕЙТИНГОВ

Курсовая

Социология, социальная работа и статистика

Рассмотрение различных подходов к построению рейтингов, выявление недостатков этих подходов, изучение метода главных компонент, в том числе основных понятий и определений, вычисления главных компонент, основных числовых характеристик главных компонент, геометрической интерпретации главных компонент, применения главных компонент.

Русский

2015-10-11

58.16 KB

6 чел.

федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Петрозаводский государственный университет»

МАТЕМАТИЧЕСКИЙ ФАКУЛЬТЕТ

Кафедра математического анализа

                                                                          

 

КУРСОВАЯ РАБОТА

на тему:

«МЕТОД ГЛАВНЫХ КОМПОНЕНТ.

ПРИМЕНЕНИЕ к ПОСТРОЕНИЮ РЕЙТИНГОВ»

Студент: Горовая Екатерина Николаевна

Группа: 22308

Руководитель: к.ф.-м.н., доцент

Кручек Марина Марленовна

 «Допустить к защите»

«______» __________ 2015 г.

Дата представления работы: «______» __________ 2015 г.

Дата защиты:                           «______» __________ 2015 г.

Оценка: _________________

Петрозаводск

2015 год

Содержание

ВВЕДЕНИЕ…………………………………………………………….....3

  1.  Подходы к построению рейтингов………………………………..4
  2.  Метод главных компонент……………………………………..5-12

2.1 Основные понятия и определения…………………………..5-6

2.2 Вычисление главных компонент……………………………6-7

2.3 Основные числовые характеристики главных компонент…..7

2.4 Матрица «нагрузок» главных компонент…………………….8

2.5 Применение главных компонент……………………………8-9

2.6 Геометрическая интерпретация главных компонент…….9-11

2.7 Подготовка данных………………………………………..11-12

2.8 Возможные трудности при использовании метода главных компонент………………………………………………………….12

  1.    Источники данных для применения метода главных компонент……………………………………………………...13-14

    3.1 База данных Института для метрической системы мер Здоровья и оценки……………………………………………………13

        3.2 Федеральная служба государственной статистики (Росстат)……………………………………………………………...13-14

ЗАКЛЮЧЕНИЕ…………………………………………………………15

СПИСОК ИСТОЧНИКОВ И ЛИТЕРАТУРЫ………………………...16


ВВЕДЕНИЕ

Целью исследования является изучение метода главных компонент и его применения при построении рейтингов.

Тема актуальна, потому что метод позволяет существенно сократить затрачиваемые ресурсы при построении рейтингов и построить более точные рейтинги.

Для достижения цели курсовой работы были поставлены следующие задачи:

  1.  рассмотрение различных подходов к построению рейтингов,
  2.  выявление недостатков этих подходов,
  3.  изучение метода главных компонент, в том числе основных понятий и определений, вычисления главных компонент, основных числовых характеристик главных компонент, геометрической интерпретации главных компонент, применения главных компонент.
  4.  Изучение источников данных, пригодных для применения главных компонент в том числе, извлечение данных и их обработка для применения метода


  1.  Подходы к построению рейтингов

Существуют различные способы составления рейтингов, многие из которых обладают существенными недостатками или ограничениями их применимости. К таким методам можно отнести:

  1.  метод «суммирования значений всех показателей» (может быть применён только в том случае, когда показатели, по которым производится ранжирование, сопоставимы);
  2.  метод «суммы мест» (объекты ранжируются по каждому из показателей, а затем значения мест по каждому из объектов суммируются);
  3.  метод «суммы баллов» (задаются шкалы для оценки каждого показателя).

Недостатки данных методов очевидны. Так для применения последнего метода необходимо разрабатывать шкалы, и, в случае большого количество показателей, этот процесс будет трудоёмким. При использовании метода «суммы мест» не учитывается тот факт, что показатели в различной степени могут оказывать своё влияние на итоговую рейтинговую оценку объекта. Конечно же можно в этом случае прибегнуть к помощи экспертов,  и задать показателям весовые коэффициенты, но неизвестно, насколько они будут точны. С.А. Айвазян в своей книге «Анализ качества и образа жизни населения: экономический подход» упоминает, что весовые коэффициенты экспертов по одним и тем же показателям зачастую разнятся между собой. Применение метода «суммирования значений всех показателей» практически не возможно в случае большого количества этих показателей.

Методика С.А. Айвазяна позволяет не только ранжировать количественные показатели разной природы за счёт их унификации, но и при помощи использования метода главных компонент позволяет снизить размерность исходного пространства показателей, задав каждому из показателей свой вес.

  1.  Метод главных компонент
  2.  Основные понятия и определения

Задача снижения размерности набора данных состоит в описании точек данных с помощью величин количеством меньшим по сравнению с размерностью пространства.  Данные величины должны быть функциями исходных координат, т. е. :

ŋk=Fk(ξ1, ξ2,…, ξm), k = 1… m', m' < m.

Функции Fk задают отображение   F из исходного пространства Rm в пространство Rm'.

В методе главных компонент F – некоторое линейное ортогональное нормированное отображение, т. е. :

Fk(ξ1, ξ2,…, ξm) = c1k(ξ11)+…+cmk(ξmm), где µj=-

средние по набору данных значения признаков, а на коэффициенты  cij накладываются условия:

, , i,j=1…m,i≠j.

Вид критерия J:

, где D вычисление дисперсии случайной величины.

Согласно этому критерию, количество сохраненной информации равно доле «объясненной» с помощью новых признаков ŋ1…ŋm дисперсии исходных признаков.

Первая главная компонента – это нормированно-центрированная линейная комбинация исходных признаков, которая среди всех прочих нормировано-центрированных линейных комбинаций обладает на данном наборе данных наибольшей дисперсией.

k-ой главной компонентой (k = 2…m) называется такая нормировано-центрированная линейная комбинация исходных признаков, которая не коррелированна с (k-1) предыдущими главными компонентами и среди всех прочих нормированно - центрированных линейных комбинаций, не коррелированных с предыдущими (k-1) главными компонентами обладает на данном наборе данных наибольшей дисперсией.

  1.  Вычисление главных компонент

Рассмотрим итерационный алгоритм вычисления главных компонент. Возьмем прямую следующего вида:

y=at+b.

Тогда сумма квадратов расстояний от точек наблюдений до вышеуказанной прямой будет равна выражению:

Q=.

Пусть a, - произвольные вектора

Данная сумма- это критерий, минимизируемый с помощью алгоритма:

  1.  Определяем набор :

  1.  Определяем новые координаты векторов a и b:

  1.  Проверяем на останов. Алгоритм прерывается в том случае, если , где 𝛥Q – изменение величины Q за итерацию,

𝜀 – малая величина.

Этот способ вычисления первой главной компоненты обладает важным преимуществом: алгоритм обобщается в том случае, если данные содержат неполные значения. Неизвестное значение пропускается. Появляется вектор значения всех координат (иначе, «эффективный» вектор среднего):

Вектор a при полных данных задаст направление первой главной компоненты, а при неполных - «эффективную» первую главную компоненту.

  1.   Основные числовые характеристики главных компонент
  2.  EZ=E(LX)=L×EX=0
  3.  Ковариационная матрица вектора главных компонент:

L

в) Сумма дисперсий исходных признаков равна сумме дисперсий всех главных компонент

г) Обобщенная дисперсия исходных признаков равна обобщенной дисперсии главных компонент

д) «Матрица нагрузок» - это матрица перехода из исходного пространства переменных  в пространство главных компонент.

  1.   Матрица «нагрузок» главных компонент

Матрица «нагрузок» A = , i,j = 1,2…,p, главных компонент на исходные признаки тоже одна из важных характеристик главных компонент. Если анализируемые переменные X = (x(1), x(2),…,x(p))T , которые процентрированы и пронормированы, т. е. если главные компоненты построены для признаков X*= (x*(1), x*(2),…,x*(p))T, Ex*(i)=0, Dx*(i)=1, i=1,2,...,p, то элементы матрицы «нагрузок»   определяют степень тесноты линейной связи (по парному коэффициенту корреляции) между x*(i) и z(j) и удельный вес влияния пронормированной j-той главной компоненты на признак x*(i).

Матрица «нагрузок» А определяется соотношением вида:

, где

=.

Свойства матрицы А:

  1.  Сумма квадратов элементов любого j-го столбца матрицы А равна дисперсии (j-ой) главной компоненты λj.
  2.  Сумма квадратов элементов любой (i-ой) строки матрицы нагрузок А равна единице.

Данные свойства применимы и для содержательной интерпретации главных компонент.

  1.  Применение главных компонент

Главные компоненты применяются в решении задач  анализа данных. Основные задачи:

  1.  упрощение, сокращение размерностей анализируемых моделей статистического исследования зависимостей или классификации, что способно облегчить вычисления и интерпретацию статистических выводов;
  2.  визуализация исходных многомерных данных;
  3.  предварительная ортогонализация объясняющих переменных используется для устранения мультиколлинеарностью;
  4.  сокращение статистической информации.

Рассмотрим подробнее одно из распространенных приложений метода главных компонент – визуализацию данных.

Визуализация данных – представление данных в наглядной форме.

Первым выбором в визуализации множества данных является ортогональное проецирование на плоскость первых двух главных компонент. Плоскость проектирования является, по сути плоским двумерным «экраном», расположенным таким образом, чтобы обеспечить «картинку» данных с наименьшими искажениями. Такая проекция будет оптимальна в трех отношениях:

  1.  Минимальна сумма квадратов расстояний от точек данных до проекций на плоскость первых главных компонент, то есть экран расположен максимально близко по отношению к облаку точек.
  2.  Минимальна сумма искажений квадратов расстояний между всеми парами точек из облака данных после проецирования точек на плоскость.
  3.  Минимальна сумма искажений квадратов расстояний между всеми точками данных и их «центром тяжести».

2.6 Геометрическая интерпретация главных компонент

Переход к меньшему числу переменных (пусть это число p') z(1),z(2),…,z(p'), который осуществляется при помощи ортогонального линейного преобразования матрицы С = (сij), i=1,2,…, p', j=1,2,…,p, рассмотрим в качестве проекции исследуемых наблюдений Х12,…,Хn  в пространство с размерностью p', натянутое на оси Oz(1),Oz(2),…,Oz(p'), причем:

Z(i)=, i=1,2,…,p'.

В данном случае проекциями p-мерных исходных наблюдений Xi (i=1,2,…,n) будет следующие точки:

Zi=CXi, i=1,2,…,n.

Геометрическую интерпретацию будем рассматривать на примере двумерной системы набдюдений ,, i=1,2,…,n, которая извлечена из нормальной генеральной совокупности со средним значением a = (a(1), a(2)) и следующей ковариционной матрицей:

, ≤1, 𝞼1>0, 𝞼2>0, где

- дисперсии компонент x(1) и x(2),

r- коэффициент корреляции между ними.

Геометрическим представлением этого будет эллипсоид, в очертаниях которого располагаются точки  ,. Ниже представлен график полученного эллипсоида рассеивания:

Рис. 1. Эллипс рассеяния исследуемых наблюдений

и направление координатных осей главных компонент

2.7 Подготовка данных

Пусть имеется матрица переменных X размерностью (I×J), где I - число образцов (строк), а J - это число независимых переменных (столбцов), которых, как правило, много (J>>1). Исходные переменные xj (j=1,…J).

Перед применением метода главных компонент исходные данные нужно предварительно подготовить при помощи центрирования и нормирования. Указанные преобразования выполняются по переменным.

Центрирование – это вычитание из каждой переменной xj среднего значения:

Нормирование- преобразование, которое выравнивает вклад разных переменных. При нормировании каждая переменная xj делится на своё стандартное отклонение:

.

В совокупности центрирование и нормирование называется автошкалированием:

2.8 Возможные трудности при использовании метода главных компонент

  1.  Отсутствие необходимой информации в данных
  2.  Использование недостаточного количества главных компонент
  3.  Использование излишнего количества главных компонент
  4.  Не удаленные выбросы
  5.  Удаленные псевдовыбросы (точки, которые содержат важную информацию)
  6.  Неполный анализ графиков счетов и графиков нагрузок
  7.  Использование стандартной (машинной) диагностики без содержательного анализа
  8.  Использование неправильных методов предварительной обработки исходных данных

3. Источники данных для применения метода главных компонент

Немаловажной частью для применения метода главных компонент является извлечение нужных данных. Были изучены база данных Института для метрической системы мер Здоровья и оценки и базы данных сайта службы государственной статистики.

3.1 База данных Института для метрической системы мер Здоровья и оценки (Institute for Health Metrics and Evaluation (IHME))

Институт для метрической системы мер Здоровья и оценки – это научно-исследовательский центр, который занимается глобальными статистическими исследованиями и оценкой в области здравоохранения. Сбор данных, связанных со здоровьем, происходит из всех доступных источников. Это способствует развитию аналитических инструментов для отслеживания тенденций смертности, болезней и факторов риска. IHME создал глобальный обмен данными здравоохранения (Global Health Data Exchange (GHD)), где данные занесены в каталог и находятся в свободном доступе.

3.2 Федеральная служба государственной статистики (Росстат)

Федеральная служба государственной статистики (Росстат) является федеральным органом исполнительной власти, осуществляющим функции по формированию официальной статистической информации о социальном, экономическомдемографическом и экологическом положении страны, а также функции по контролю и надзору в области государственной статистической деятельности на территории Российской Федерации.

Одной из основных функций Федеральной службы государственной статистики является представление в установленном порядке статистической информации гражданам, Президенту Российской ФедерацииПравительству Российской ФедерацииФедеральному Собранию Российской Федерации, органам государственной власти, средствам массовой информации, другим организациям, в том числе международным.

На Едином Интернет - портале Росстата представлены следующие базы данных:

  1.  Центральная база статистических данных (ЦБСД) 
  2.  Единая межведомственная информационно – статистическая система (ЕМИСС)
  3.  Показатели муниципальных образований
  4.  Список витрин данных.


ЗАКЛЮЧЕНИЕ

В ходе работы были рассмотрены некоторые подходы к построению рейтингов, выявлены их недостатки. А также был детально изучен метод главных компонент. Основными целями метода главных компонент являются представление объектов в пространстве, отражающем внутреннюю структуру изучаемых данных и понижение размерности системы, отделение содержательной части от шума.

Идея метода главных компонент состоит в переходе от исходных переменных (показателей) к новому набору переменных, называемых главными компонентами. Каждая главная компонента является линейной комбинацией исходных переменных. Все главные компоненты взаимно ортогональны и центрированы, следовательно, избыточная информация из исходных данных отсутствует.

Для применения метода необходимы специальные данные, поэтому были взяты два источника данных – база данных Института для метрической системы мер Здоровья и оценки и базы данных федеральной службы государственной статистики.


ИСТОЧНИКИ И ЛИТЕРАТУРА

  1.  Айвазян С. А., Мхитарян В. С. Теория вероятностей и прикладная статистика. Т. 1 / Прикладная статистика и основы эконометрики: Учебник для вузов: В 2 т. 2-е изд., испр., М.: ЮНИТИ, 2001
  2.  Айвазян С. А. Анализ качества и образа жизни населения (эконометрический подход). — М.: Наука, 2010
  3.  Зиновьев А. Ю., Визуализация многомерных данных, Красноярск, Изд. КГТУ, 2000
  4.  http://chemometrics.ru/materials/textbooks/pca.htm#Eq2/
  5.  http://www.healthdata.org/
  6.  http://www.gks.ru/


 

А также другие работы, которые могут Вас заинтересовать

43379. Криві в параметричному представленні 667.5 KB
  3 Визначити площу фігури обмеженої лініями 1будуємо графічне зображення фігури 2визначаю точки перетину кривих з віссю ОХ 3одна з одною 4обчислюємо площу Завдання 7.Авизначити вузлові точки xi у j та їх кількістьnкількість значень xim кількість значень у j відповідно до заданих для цих змінних проміжків та кроків hx i hy. Така крива епіциклоїда – могла б виникнути як траєкторія точки маленької окружності яка котиться по внутрішній фіксованій окружності. Обчислення каустики як траєкторії точки на окружностіщо котиться було...
43381. Формирование местного бюджета на примере муниципального образования полюстрово 755 KB
  Бюджетная система представляет собой регулируемую нормами права совокупность федерального бюджета, бюджетов субъектов Федерации и бюджетов органов местного самоуправления.
43382. Организация работы электротехнического цеха АТП г. Москва 1.25 MB
  Коэффициент механизации снижающий трудоемкость ЕО рассчитывается по формуле: где снижения трудоемкости за счёт применения моечной установки принимается 55 снижения трудоемкости путем замены обтирочных работ обдувом воздуха принимается 15 Трудоёмкость ТО1 tто1 = tн то1 K2 K5 = 311115 = 356 чел. ч tн то1 = 31 чел.
43383. Завдання та система органів державного управління безпекою України 187 KB
  Метою даного дослідження є проведення комплексного аналізу завдань, функцій системи органів державного управління безпекою України, а також розгляд існуючих проблем та перспектив розвитку, які повязані з їх практичним виконанням.
43384. УЧЕТ ЗАТРАТ В НЕЗАВЕРШЕННОМ ПРОИЗВОДСТВЕ РАСПРЕДЕЛЯЕМЫХ РАСХОДОВ И ПРОЧИХ ЗАТРАТ В РАСТЕНИЕВОДСТВЕ В ООО «ЛУЗИНСКОЕ ЗЕРНО» 268.5 KB
  В первой части работы мы рассматриваем теоретические аспекты организации бухгалтерского учета затрат в незавершенном производстве. Здесь указываются нормативное регулирование по учету затрат; объекты и статьи учета затрат в растениеводстве; представлены понятия затрат, издержек и расходов; признание расходов в бухгалтерском учете.
43385. Розробка інфологічної та даталогічної моделі 662 KB
  Для підприємств розроблена спеціальна база даних котра формує список співробітників за допомогою додавання їх в базу користувачем.4 Опис основних процедур перетворення даних 1. Для додавання розроблена відповідна форма в котрій забезпечено введення даних а саме: П. Табельний номер Дата прийому на роботу Оклад Після введення даних вони через компонент Tble котрий призначений для роботи з нашою базою даних bd1.
43386. Задачи статистического изучения загрязнения окружающей среды 315 KB
  Проблема защиты окружающей среды и природных ресурсов настолько важна что нет практически в мире государства которое бы в той или иной мере не пыталось ее решить. Существует множество концепций и методов анализа воздействия экономической деятельности на природную среду и обратного влияния природной среды на экономическую деятельность а также оценки ущерба от загрязнения окружающей среды и эффективности природоохранных мероприятий. Потери рабочего времени в результате повышенной заболеваемости; населения изза загрязнения окружающей среды...
43387. Информационный менеджмент, стратегия и политика организации 108.5 KB
  В круг задач информационного менеджмента входят также разработка внедрение эксплуатация и развитие автоматизированных информационных систем и сетей обеспечивающих деятельность предприятия организации. Деятельность любого предприятия зависит от степени воздействия на него внешней среды представляющей сферу прямого и косвенного воздействия АТП которые серьезно...