96889

МЕТОД ГЛАВНЫХ КОМПОНЕНТОВ. ПРИМЕНЕНИЕ К ПОСТРОЕНИЮ РЕЙТИНГОВ

Курсовая

Социология, социальная работа и статистика

Рассмотрение различных подходов к построению рейтингов, выявление недостатков этих подходов, изучение метода главных компонент, в том числе основных понятий и определений, вычисления главных компонент, основных числовых характеристик главных компонент, геометрической интерпретации главных компонент, применения главных компонент.

Русский

2015-10-11

58.16 KB

8 чел.

федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Петрозаводский государственный университет»

МАТЕМАТИЧЕСКИЙ ФАКУЛЬТЕТ

Кафедра математического анализа

                                                                          

 

КУРСОВАЯ РАБОТА

на тему:

«МЕТОД ГЛАВНЫХ КОМПОНЕНТ.

ПРИМЕНЕНИЕ к ПОСТРОЕНИЮ РЕЙТИНГОВ»

Студент: Горовая Екатерина Николаевна

Группа: 22308

Руководитель: к.ф.-м.н., доцент

Кручек Марина Марленовна

 «Допустить к защите»

«______» __________ 2015 г.

Дата представления работы: «______» __________ 2015 г.

Дата защиты:                           «______» __________ 2015 г.

Оценка: _________________

Петрозаводск

2015 год

Содержание

ВВЕДЕНИЕ…………………………………………………………….....3

  1.  Подходы к построению рейтингов………………………………..4
  2.  Метод главных компонент……………………………………..5-12

2.1 Основные понятия и определения…………………………..5-6

2.2 Вычисление главных компонент……………………………6-7

2.3 Основные числовые характеристики главных компонент…..7

2.4 Матрица «нагрузок» главных компонент…………………….8

2.5 Применение главных компонент……………………………8-9

2.6 Геометрическая интерпретация главных компонент…….9-11

2.7 Подготовка данных………………………………………..11-12

2.8 Возможные трудности при использовании метода главных компонент………………………………………………………….12

  1.    Источники данных для применения метода главных компонент……………………………………………………...13-14

    3.1 База данных Института для метрической системы мер Здоровья и оценки……………………………………………………13

        3.2 Федеральная служба государственной статистики (Росстат)……………………………………………………………...13-14

ЗАКЛЮЧЕНИЕ…………………………………………………………15

СПИСОК ИСТОЧНИКОВ И ЛИТЕРАТУРЫ………………………...16


ВВЕДЕНИЕ

Целью исследования является изучение метода главных компонент и его применения при построении рейтингов.

Тема актуальна, потому что метод позволяет существенно сократить затрачиваемые ресурсы при построении рейтингов и построить более точные рейтинги.

Для достижения цели курсовой работы были поставлены следующие задачи:

  1.  рассмотрение различных подходов к построению рейтингов,
  2.  выявление недостатков этих подходов,
  3.  изучение метода главных компонент, в том числе основных понятий и определений, вычисления главных компонент, основных числовых характеристик главных компонент, геометрической интерпретации главных компонент, применения главных компонент.
  4.  Изучение источников данных, пригодных для применения главных компонент в том числе, извлечение данных и их обработка для применения метода


  1.  Подходы к построению рейтингов

Существуют различные способы составления рейтингов, многие из которых обладают существенными недостатками или ограничениями их применимости. К таким методам можно отнести:

  1.  метод «суммирования значений всех показателей» (может быть применён только в том случае, когда показатели, по которым производится ранжирование, сопоставимы);
  2.  метод «суммы мест» (объекты ранжируются по каждому из показателей, а затем значения мест по каждому из объектов суммируются);
  3.  метод «суммы баллов» (задаются шкалы для оценки каждого показателя).

Недостатки данных методов очевидны. Так для применения последнего метода необходимо разрабатывать шкалы, и, в случае большого количество показателей, этот процесс будет трудоёмким. При использовании метода «суммы мест» не учитывается тот факт, что показатели в различной степени могут оказывать своё влияние на итоговую рейтинговую оценку объекта. Конечно же можно в этом случае прибегнуть к помощи экспертов,  и задать показателям весовые коэффициенты, но неизвестно, насколько они будут точны. С.А. Айвазян в своей книге «Анализ качества и образа жизни населения: экономический подход» упоминает, что весовые коэффициенты экспертов по одним и тем же показателям зачастую разнятся между собой. Применение метода «суммирования значений всех показателей» практически не возможно в случае большого количества этих показателей.

Методика С.А. Айвазяна позволяет не только ранжировать количественные показатели разной природы за счёт их унификации, но и при помощи использования метода главных компонент позволяет снизить размерность исходного пространства показателей, задав каждому из показателей свой вес.

  1.  Метод главных компонент
  2.  Основные понятия и определения

Задача снижения размерности набора данных состоит в описании точек данных с помощью величин количеством меньшим по сравнению с размерностью пространства.  Данные величины должны быть функциями исходных координат, т. е. :

ŋk=Fk(ξ1, ξ2,…, ξm), k = 1… m', m' < m.

Функции Fk задают отображение   F из исходного пространства Rm в пространство Rm'.

В методе главных компонент F – некоторое линейное ортогональное нормированное отображение, т. е. :

Fk(ξ1, ξ2,…, ξm) = c1k(ξ11)+…+cmk(ξmm), где µj=-

средние по набору данных значения признаков, а на коэффициенты  cij накладываются условия:

, , i,j=1…m,i≠j.

Вид критерия J:

, где D вычисление дисперсии случайной величины.

Согласно этому критерию, количество сохраненной информации равно доле «объясненной» с помощью новых признаков ŋ1…ŋm дисперсии исходных признаков.

Первая главная компонента – это нормированно-центрированная линейная комбинация исходных признаков, которая среди всех прочих нормировано-центрированных линейных комбинаций обладает на данном наборе данных наибольшей дисперсией.

k-ой главной компонентой (k = 2…m) называется такая нормировано-центрированная линейная комбинация исходных признаков, которая не коррелированна с (k-1) предыдущими главными компонентами и среди всех прочих нормированно - центрированных линейных комбинаций, не коррелированных с предыдущими (k-1) главными компонентами обладает на данном наборе данных наибольшей дисперсией.

  1.  Вычисление главных компонент

Рассмотрим итерационный алгоритм вычисления главных компонент. Возьмем прямую следующего вида:

y=at+b.

Тогда сумма квадратов расстояний от точек наблюдений до вышеуказанной прямой будет равна выражению:

Q=.

Пусть a, - произвольные вектора

Данная сумма- это критерий, минимизируемый с помощью алгоритма:

  1.  Определяем набор :

  1.  Определяем новые координаты векторов a и b:

  1.  Проверяем на останов. Алгоритм прерывается в том случае, если , где 𝛥Q – изменение величины Q за итерацию,

𝜀 – малая величина.

Этот способ вычисления первой главной компоненты обладает важным преимуществом: алгоритм обобщается в том случае, если данные содержат неполные значения. Неизвестное значение пропускается. Появляется вектор значения всех координат (иначе, «эффективный» вектор среднего):

Вектор a при полных данных задаст направление первой главной компоненты, а при неполных - «эффективную» первую главную компоненту.

  1.   Основные числовые характеристики главных компонент
  2.  EZ=E(LX)=L×EX=0
  3.  Ковариационная матрица вектора главных компонент:

L

в) Сумма дисперсий исходных признаков равна сумме дисперсий всех главных компонент

г) Обобщенная дисперсия исходных признаков равна обобщенной дисперсии главных компонент

д) «Матрица нагрузок» - это матрица перехода из исходного пространства переменных  в пространство главных компонент.

  1.   Матрица «нагрузок» главных компонент

Матрица «нагрузок» A = , i,j = 1,2…,p, главных компонент на исходные признаки тоже одна из важных характеристик главных компонент. Если анализируемые переменные X = (x(1), x(2),…,x(p))T , которые процентрированы и пронормированы, т. е. если главные компоненты построены для признаков X*= (x*(1), x*(2),…,x*(p))T, Ex*(i)=0, Dx*(i)=1, i=1,2,...,p, то элементы матрицы «нагрузок»   определяют степень тесноты линейной связи (по парному коэффициенту корреляции) между x*(i) и z(j) и удельный вес влияния пронормированной j-той главной компоненты на признак x*(i).

Матрица «нагрузок» А определяется соотношением вида:

, где

=.

Свойства матрицы А:

  1.  Сумма квадратов элементов любого j-го столбца матрицы А равна дисперсии (j-ой) главной компоненты λj.
  2.  Сумма квадратов элементов любой (i-ой) строки матрицы нагрузок А равна единице.

Данные свойства применимы и для содержательной интерпретации главных компонент.

  1.  Применение главных компонент

Главные компоненты применяются в решении задач  анализа данных. Основные задачи:

  1.  упрощение, сокращение размерностей анализируемых моделей статистического исследования зависимостей или классификации, что способно облегчить вычисления и интерпретацию статистических выводов;
  2.  визуализация исходных многомерных данных;
  3.  предварительная ортогонализация объясняющих переменных используется для устранения мультиколлинеарностью;
  4.  сокращение статистической информации.

Рассмотрим подробнее одно из распространенных приложений метода главных компонент – визуализацию данных.

Визуализация данных – представление данных в наглядной форме.

Первым выбором в визуализации множества данных является ортогональное проецирование на плоскость первых двух главных компонент. Плоскость проектирования является, по сути плоским двумерным «экраном», расположенным таким образом, чтобы обеспечить «картинку» данных с наименьшими искажениями. Такая проекция будет оптимальна в трех отношениях:

  1.  Минимальна сумма квадратов расстояний от точек данных до проекций на плоскость первых главных компонент, то есть экран расположен максимально близко по отношению к облаку точек.
  2.  Минимальна сумма искажений квадратов расстояний между всеми парами точек из облака данных после проецирования точек на плоскость.
  3.  Минимальна сумма искажений квадратов расстояний между всеми точками данных и их «центром тяжести».

2.6 Геометрическая интерпретация главных компонент

Переход к меньшему числу переменных (пусть это число p') z(1),z(2),…,z(p'), который осуществляется при помощи ортогонального линейного преобразования матрицы С = (сij), i=1,2,…, p', j=1,2,…,p, рассмотрим в качестве проекции исследуемых наблюдений Х12,…,Хn  в пространство с размерностью p', натянутое на оси Oz(1),Oz(2),…,Oz(p'), причем:

Z(i)=, i=1,2,…,p'.

В данном случае проекциями p-мерных исходных наблюдений Xi (i=1,2,…,n) будет следующие точки:

Zi=CXi, i=1,2,…,n.

Геометрическую интерпретацию будем рассматривать на примере двумерной системы набдюдений ,, i=1,2,…,n, которая извлечена из нормальной генеральной совокупности со средним значением a = (a(1), a(2)) и следующей ковариционной матрицей:

, ≤1, 𝞼1>0, 𝞼2>0, где

- дисперсии компонент x(1) и x(2),

r- коэффициент корреляции между ними.

Геометрическим представлением этого будет эллипсоид, в очертаниях которого располагаются точки  ,. Ниже представлен график полученного эллипсоида рассеивания:

Рис. 1. Эллипс рассеяния исследуемых наблюдений

и направление координатных осей главных компонент

2.7 Подготовка данных

Пусть имеется матрица переменных X размерностью (I×J), где I - число образцов (строк), а J - это число независимых переменных (столбцов), которых, как правило, много (J>>1). Исходные переменные xj (j=1,…J).

Перед применением метода главных компонент исходные данные нужно предварительно подготовить при помощи центрирования и нормирования. Указанные преобразования выполняются по переменным.

Центрирование – это вычитание из каждой переменной xj среднего значения:

Нормирование- преобразование, которое выравнивает вклад разных переменных. При нормировании каждая переменная xj делится на своё стандартное отклонение:

.

В совокупности центрирование и нормирование называется автошкалированием:

2.8 Возможные трудности при использовании метода главных компонент

  1.  Отсутствие необходимой информации в данных
  2.  Использование недостаточного количества главных компонент
  3.  Использование излишнего количества главных компонент
  4.  Не удаленные выбросы
  5.  Удаленные псевдовыбросы (точки, которые содержат важную информацию)
  6.  Неполный анализ графиков счетов и графиков нагрузок
  7.  Использование стандартной (машинной) диагностики без содержательного анализа
  8.  Использование неправильных методов предварительной обработки исходных данных

3. Источники данных для применения метода главных компонент

Немаловажной частью для применения метода главных компонент является извлечение нужных данных. Были изучены база данных Института для метрической системы мер Здоровья и оценки и базы данных сайта службы государственной статистики.

3.1 База данных Института для метрической системы мер Здоровья и оценки (Institute for Health Metrics and Evaluation (IHME))

Институт для метрической системы мер Здоровья и оценки – это научно-исследовательский центр, который занимается глобальными статистическими исследованиями и оценкой в области здравоохранения. Сбор данных, связанных со здоровьем, происходит из всех доступных источников. Это способствует развитию аналитических инструментов для отслеживания тенденций смертности, болезней и факторов риска. IHME создал глобальный обмен данными здравоохранения (Global Health Data Exchange (GHD)), где данные занесены в каталог и находятся в свободном доступе.

3.2 Федеральная служба государственной статистики (Росстат)

Федеральная служба государственной статистики (Росстат) является федеральным органом исполнительной власти, осуществляющим функции по формированию официальной статистической информации о социальном, экономическомдемографическом и экологическом положении страны, а также функции по контролю и надзору в области государственной статистической деятельности на территории Российской Федерации.

Одной из основных функций Федеральной службы государственной статистики является представление в установленном порядке статистической информации гражданам, Президенту Российской ФедерацииПравительству Российской ФедерацииФедеральному Собранию Российской Федерации, органам государственной власти, средствам массовой информации, другим организациям, в том числе международным.

На Едином Интернет - портале Росстата представлены следующие базы данных:

  1.  Центральная база статистических данных (ЦБСД) 
  2.  Единая межведомственная информационно – статистическая система (ЕМИСС)
  3.  Показатели муниципальных образований
  4.  Список витрин данных.


ЗАКЛЮЧЕНИЕ

В ходе работы были рассмотрены некоторые подходы к построению рейтингов, выявлены их недостатки. А также был детально изучен метод главных компонент. Основными целями метода главных компонент являются представление объектов в пространстве, отражающем внутреннюю структуру изучаемых данных и понижение размерности системы, отделение содержательной части от шума.

Идея метода главных компонент состоит в переходе от исходных переменных (показателей) к новому набору переменных, называемых главными компонентами. Каждая главная компонента является линейной комбинацией исходных переменных. Все главные компоненты взаимно ортогональны и центрированы, следовательно, избыточная информация из исходных данных отсутствует.

Для применения метода необходимы специальные данные, поэтому были взяты два источника данных – база данных Института для метрической системы мер Здоровья и оценки и базы данных федеральной службы государственной статистики.


ИСТОЧНИКИ И ЛИТЕРАТУРА

  1.  Айвазян С. А., Мхитарян В. С. Теория вероятностей и прикладная статистика. Т. 1 / Прикладная статистика и основы эконометрики: Учебник для вузов: В 2 т. 2-е изд., испр., М.: ЮНИТИ, 2001
  2.  Айвазян С. А. Анализ качества и образа жизни населения (эконометрический подход). — М.: Наука, 2010
  3.  Зиновьев А. Ю., Визуализация многомерных данных, Красноярск, Изд. КГТУ, 2000
  4.  http://chemometrics.ru/materials/textbooks/pca.htm#Eq2/
  5.  http://www.healthdata.org/
  6.  http://www.gks.ru/


 

А также другие работы, которые могут Вас заинтересовать

9256. Подведомственность гражданских дел 50 KB
  Тема №9. Подведомственность гражданских дел. понятие и виды подведомственности судебная подведомственность ГД правовые последствия не подведомственности дела суду Постановление Пленума ВС РФ от 18.08.1992г. №12/12 НК, СК, ФЗ «О тре...
9257. Подсудность гражданских дел 47 KB
  Тема № Подсудность гражданских дел. понятие и виды родовая подсудность территориальная подсудность передача дела и 1 суда в другой правовые последствия несоблюдения правил подсудности ФКЗ О военных судах в РФ от 23.06...
9258. Процессуальные сроки 52.5 KB
  Процессуальные сроки. понятие и значение процессуальных сроков виды процессуальных сроков исчисление процессуальных сроков приостановление, продление и восстановление процессуальных сроков. Постановление Пленума ВС РФ №...
9259. Судебное доказывание и доказательства по гражданским делам 105 KB
  Судебное доказывание и доказательства по гражданским делам. Постановление 2003 года о судебном решении Постановление 2008 о разрешении дел в судебных инстанциях понятие судебного доказывания предмет доказывания основания для освобо...
9260. Место искового производства в системе видов гражданского судопроизводства 70.5 KB
  Иск. Место искового производства в системе видов гражданского судопроизводства Понятие иска Признаки иска Виды исков Право на иск Обеспечение иска Средства защиты В соответствии со ст. 11 ГК РФ орг...
9261. Приказное производство 47 KB
  Тема № 15: Приказное производство. понятие и сущность приказного производства требования, по которому выдается судебный приказ порядок подачи заявления о вынесении приказа порядок вынесения и выдачи судебного приказа...
9262. Возбуждение гражданского судопроизводства. Подготовка ГД к судебному разбирательству 46.5 KB
  Возбуждение гражданского судопроизводства. Подготовка ГД к судебному разбирательству. Литература: ПП ВС РФ от 24.06.2008 г. О подготовке ГД к судебному разбирательству. ГПП РФ: учебник. Викут порядок предъявления иска. Последстви...
9263. Судебное разбирательство 86.5 KB
  Тема №17:Судебное разбирательство - Постановление от 26.06.2008 г. О применении норм ГПК при рассмотрении и разрешении дел в суде первой инстанции Сущность и значение судебного разбирательства. В соответствии с действующим законодательст...
9264. Постановление суда 1 инстанции 73 KB
  Постановление суда 1 инстанции понятие и виды сущность и значение судебного решения содержание СР требования, предъявляемые к СР законная сила СР устранение недостатков решения вынесшим его судом определение...