96889

МЕТОД ГЛАВНЫХ КОМПОНЕНТОВ. ПРИМЕНЕНИЕ К ПОСТРОЕНИЮ РЕЙТИНГОВ

Курсовая

Социология, социальная работа и статистика

Рассмотрение различных подходов к построению рейтингов, выявление недостатков этих подходов, изучение метода главных компонент, в том числе основных понятий и определений, вычисления главных компонент, основных числовых характеристик главных компонент, геометрической интерпретации главных компонент, применения главных компонент.

Русский

2015-10-11

58.16 KB

3 чел.

федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Петрозаводский государственный университет»

МАТЕМАТИЧЕСКИЙ ФАКУЛЬТЕТ

Кафедра математического анализа

                                                                          

 

КУРСОВАЯ РАБОТА

на тему:

«МЕТОД ГЛАВНЫХ КОМПОНЕНТ.

ПРИМЕНЕНИЕ к ПОСТРОЕНИЮ РЕЙТИНГОВ»

Студент: Горовая Екатерина Николаевна

Группа: 22308

Руководитель: к.ф.-м.н., доцент

Кручек Марина Марленовна

 «Допустить к защите»

«______» __________ 2015 г.

Дата представления работы: «______» __________ 2015 г.

Дата защиты:                           «______» __________ 2015 г.

Оценка: _________________

Петрозаводск

2015 год

Содержание

ВВЕДЕНИЕ…………………………………………………………….....3

  1.  Подходы к построению рейтингов………………………………..4
  2.  Метод главных компонент……………………………………..5-12

2.1 Основные понятия и определения…………………………..5-6

2.2 Вычисление главных компонент……………………………6-7

2.3 Основные числовые характеристики главных компонент…..7

2.4 Матрица «нагрузок» главных компонент…………………….8

2.5 Применение главных компонент……………………………8-9

2.6 Геометрическая интерпретация главных компонент…….9-11

2.7 Подготовка данных………………………………………..11-12

2.8 Возможные трудности при использовании метода главных компонент………………………………………………………….12

  1.    Источники данных для применения метода главных компонент……………………………………………………...13-14

    3.1 База данных Института для метрической системы мер Здоровья и оценки……………………………………………………13

        3.2 Федеральная служба государственной статистики (Росстат)……………………………………………………………...13-14

ЗАКЛЮЧЕНИЕ…………………………………………………………15

СПИСОК ИСТОЧНИКОВ И ЛИТЕРАТУРЫ………………………...16


ВВЕДЕНИЕ

Целью исследования является изучение метода главных компонент и его применения при построении рейтингов.

Тема актуальна, потому что метод позволяет существенно сократить затрачиваемые ресурсы при построении рейтингов и построить более точные рейтинги.

Для достижения цели курсовой работы были поставлены следующие задачи:

  1.  рассмотрение различных подходов к построению рейтингов,
  2.  выявление недостатков этих подходов,
  3.  изучение метода главных компонент, в том числе основных понятий и определений, вычисления главных компонент, основных числовых характеристик главных компонент, геометрической интерпретации главных компонент, применения главных компонент.
  4.  Изучение источников данных, пригодных для применения главных компонент в том числе, извлечение данных и их обработка для применения метода


  1.  Подходы к построению рейтингов

Существуют различные способы составления рейтингов, многие из которых обладают существенными недостатками или ограничениями их применимости. К таким методам можно отнести:

  1.  метод «суммирования значений всех показателей» (может быть применён только в том случае, когда показатели, по которым производится ранжирование, сопоставимы);
  2.  метод «суммы мест» (объекты ранжируются по каждому из показателей, а затем значения мест по каждому из объектов суммируются);
  3.  метод «суммы баллов» (задаются шкалы для оценки каждого показателя).

Недостатки данных методов очевидны. Так для применения последнего метода необходимо разрабатывать шкалы, и, в случае большого количество показателей, этот процесс будет трудоёмким. При использовании метода «суммы мест» не учитывается тот факт, что показатели в различной степени могут оказывать своё влияние на итоговую рейтинговую оценку объекта. Конечно же можно в этом случае прибегнуть к помощи экспертов,  и задать показателям весовые коэффициенты, но неизвестно, насколько они будут точны. С.А. Айвазян в своей книге «Анализ качества и образа жизни населения: экономический подход» упоминает, что весовые коэффициенты экспертов по одним и тем же показателям зачастую разнятся между собой. Применение метода «суммирования значений всех показателей» практически не возможно в случае большого количества этих показателей.

Методика С.А. Айвазяна позволяет не только ранжировать количественные показатели разной природы за счёт их унификации, но и при помощи использования метода главных компонент позволяет снизить размерность исходного пространства показателей, задав каждому из показателей свой вес.

  1.  Метод главных компонент
  2.  Основные понятия и определения

Задача снижения размерности набора данных состоит в описании точек данных с помощью величин количеством меньшим по сравнению с размерностью пространства.  Данные величины должны быть функциями исходных координат, т. е. :

ŋk=Fk(ξ1, ξ2,…, ξm), k = 1… m', m' < m.

Функции Fk задают отображение   F из исходного пространства Rm в пространство Rm'.

В методе главных компонент F – некоторое линейное ортогональное нормированное отображение, т. е. :

Fk(ξ1, ξ2,…, ξm) = c1k(ξ11)+…+cmk(ξmm), где µj=-

средние по набору данных значения признаков, а на коэффициенты  cij накладываются условия:

, , i,j=1…m,i≠j.

Вид критерия J:

, где D вычисление дисперсии случайной величины.

Согласно этому критерию, количество сохраненной информации равно доле «объясненной» с помощью новых признаков ŋ1…ŋm дисперсии исходных признаков.

Первая главная компонента – это нормированно-центрированная линейная комбинация исходных признаков, которая среди всех прочих нормировано-центрированных линейных комбинаций обладает на данном наборе данных наибольшей дисперсией.

k-ой главной компонентой (k = 2…m) называется такая нормировано-центрированная линейная комбинация исходных признаков, которая не коррелированна с (k-1) предыдущими главными компонентами и среди всех прочих нормированно - центрированных линейных комбинаций, не коррелированных с предыдущими (k-1) главными компонентами обладает на данном наборе данных наибольшей дисперсией.

  1.  Вычисление главных компонент

Рассмотрим итерационный алгоритм вычисления главных компонент. Возьмем прямую следующего вида:

y=at+b.

Тогда сумма квадратов расстояний от точек наблюдений до вышеуказанной прямой будет равна выражению:

Q=.

Пусть a, - произвольные вектора

Данная сумма- это критерий, минимизируемый с помощью алгоритма:

  1.  Определяем набор :

  1.  Определяем новые координаты векторов a и b:

  1.  Проверяем на останов. Алгоритм прерывается в том случае, если , где 𝛥Q – изменение величины Q за итерацию,

𝜀 – малая величина.

Этот способ вычисления первой главной компоненты обладает важным преимуществом: алгоритм обобщается в том случае, если данные содержат неполные значения. Неизвестное значение пропускается. Появляется вектор значения всех координат (иначе, «эффективный» вектор среднего):

Вектор a при полных данных задаст направление первой главной компоненты, а при неполных - «эффективную» первую главную компоненту.

  1.   Основные числовые характеристики главных компонент
  2.  EZ=E(LX)=L×EX=0
  3.  Ковариационная матрица вектора главных компонент:

L

в) Сумма дисперсий исходных признаков равна сумме дисперсий всех главных компонент

г) Обобщенная дисперсия исходных признаков равна обобщенной дисперсии главных компонент

д) «Матрица нагрузок» - это матрица перехода из исходного пространства переменных  в пространство главных компонент.

  1.   Матрица «нагрузок» главных компонент

Матрица «нагрузок» A = , i,j = 1,2…,p, главных компонент на исходные признаки тоже одна из важных характеристик главных компонент. Если анализируемые переменные X = (x(1), x(2),…,x(p))T , которые процентрированы и пронормированы, т. е. если главные компоненты построены для признаков X*= (x*(1), x*(2),…,x*(p))T, Ex*(i)=0, Dx*(i)=1, i=1,2,...,p, то элементы матрицы «нагрузок»   определяют степень тесноты линейной связи (по парному коэффициенту корреляции) между x*(i) и z(j) и удельный вес влияния пронормированной j-той главной компоненты на признак x*(i).

Матрица «нагрузок» А определяется соотношением вида:

, где

=.

Свойства матрицы А:

  1.  Сумма квадратов элементов любого j-го столбца матрицы А равна дисперсии (j-ой) главной компоненты λj.
  2.  Сумма квадратов элементов любой (i-ой) строки матрицы нагрузок А равна единице.

Данные свойства применимы и для содержательной интерпретации главных компонент.

  1.  Применение главных компонент

Главные компоненты применяются в решении задач  анализа данных. Основные задачи:

  1.  упрощение, сокращение размерностей анализируемых моделей статистического исследования зависимостей или классификации, что способно облегчить вычисления и интерпретацию статистических выводов;
  2.  визуализация исходных многомерных данных;
  3.  предварительная ортогонализация объясняющих переменных используется для устранения мультиколлинеарностью;
  4.  сокращение статистической информации.

Рассмотрим подробнее одно из распространенных приложений метода главных компонент – визуализацию данных.

Визуализация данных – представление данных в наглядной форме.

Первым выбором в визуализации множества данных является ортогональное проецирование на плоскость первых двух главных компонент. Плоскость проектирования является, по сути плоским двумерным «экраном», расположенным таким образом, чтобы обеспечить «картинку» данных с наименьшими искажениями. Такая проекция будет оптимальна в трех отношениях:

  1.  Минимальна сумма квадратов расстояний от точек данных до проекций на плоскость первых главных компонент, то есть экран расположен максимально близко по отношению к облаку точек.
  2.  Минимальна сумма искажений квадратов расстояний между всеми парами точек из облака данных после проецирования точек на плоскость.
  3.  Минимальна сумма искажений квадратов расстояний между всеми точками данных и их «центром тяжести».

2.6 Геометрическая интерпретация главных компонент

Переход к меньшему числу переменных (пусть это число p') z(1),z(2),…,z(p'), который осуществляется при помощи ортогонального линейного преобразования матрицы С = (сij), i=1,2,…, p', j=1,2,…,p, рассмотрим в качестве проекции исследуемых наблюдений Х12,…,Хn  в пространство с размерностью p', натянутое на оси Oz(1),Oz(2),…,Oz(p'), причем:

Z(i)=, i=1,2,…,p'.

В данном случае проекциями p-мерных исходных наблюдений Xi (i=1,2,…,n) будет следующие точки:

Zi=CXi, i=1,2,…,n.

Геометрическую интерпретацию будем рассматривать на примере двумерной системы набдюдений ,, i=1,2,…,n, которая извлечена из нормальной генеральной совокупности со средним значением a = (a(1), a(2)) и следующей ковариционной матрицей:

, ≤1, 𝞼1>0, 𝞼2>0, где

- дисперсии компонент x(1) и x(2),

r- коэффициент корреляции между ними.

Геометрическим представлением этого будет эллипсоид, в очертаниях которого располагаются точки  ,. Ниже представлен график полученного эллипсоида рассеивания:

Рис. 1. Эллипс рассеяния исследуемых наблюдений

и направление координатных осей главных компонент

2.7 Подготовка данных

Пусть имеется матрица переменных X размерностью (I×J), где I - число образцов (строк), а J - это число независимых переменных (столбцов), которых, как правило, много (J>>1). Исходные переменные xj (j=1,…J).

Перед применением метода главных компонент исходные данные нужно предварительно подготовить при помощи центрирования и нормирования. Указанные преобразования выполняются по переменным.

Центрирование – это вычитание из каждой переменной xj среднего значения:

Нормирование- преобразование, которое выравнивает вклад разных переменных. При нормировании каждая переменная xj делится на своё стандартное отклонение:

.

В совокупности центрирование и нормирование называется автошкалированием:

2.8 Возможные трудности при использовании метода главных компонент

  1.  Отсутствие необходимой информации в данных
  2.  Использование недостаточного количества главных компонент
  3.  Использование излишнего количества главных компонент
  4.  Не удаленные выбросы
  5.  Удаленные псевдовыбросы (точки, которые содержат важную информацию)
  6.  Неполный анализ графиков счетов и графиков нагрузок
  7.  Использование стандартной (машинной) диагностики без содержательного анализа
  8.  Использование неправильных методов предварительной обработки исходных данных

3. Источники данных для применения метода главных компонент

Немаловажной частью для применения метода главных компонент является извлечение нужных данных. Были изучены база данных Института для метрической системы мер Здоровья и оценки и базы данных сайта службы государственной статистики.

3.1 База данных Института для метрической системы мер Здоровья и оценки (Institute for Health Metrics and Evaluation (IHME))

Институт для метрической системы мер Здоровья и оценки – это научно-исследовательский центр, который занимается глобальными статистическими исследованиями и оценкой в области здравоохранения. Сбор данных, связанных со здоровьем, происходит из всех доступных источников. Это способствует развитию аналитических инструментов для отслеживания тенденций смертности, болезней и факторов риска. IHME создал глобальный обмен данными здравоохранения (Global Health Data Exchange (GHD)), где данные занесены в каталог и находятся в свободном доступе.

3.2 Федеральная служба государственной статистики (Росстат)

Федеральная служба государственной статистики (Росстат) является федеральным органом исполнительной власти, осуществляющим функции по формированию официальной статистической информации о социальном, экономическомдемографическом и экологическом положении страны, а также функции по контролю и надзору в области государственной статистической деятельности на территории Российской Федерации.

Одной из основных функций Федеральной службы государственной статистики является представление в установленном порядке статистической информации гражданам, Президенту Российской ФедерацииПравительству Российской ФедерацииФедеральному Собранию Российской Федерации, органам государственной власти, средствам массовой информации, другим организациям, в том числе международным.

На Едином Интернет - портале Росстата представлены следующие базы данных:

  1.  Центральная база статистических данных (ЦБСД) 
  2.  Единая межведомственная информационно – статистическая система (ЕМИСС)
  3.  Показатели муниципальных образований
  4.  Список витрин данных.


ЗАКЛЮЧЕНИЕ

В ходе работы были рассмотрены некоторые подходы к построению рейтингов, выявлены их недостатки. А также был детально изучен метод главных компонент. Основными целями метода главных компонент являются представление объектов в пространстве, отражающем внутреннюю структуру изучаемых данных и понижение размерности системы, отделение содержательной части от шума.

Идея метода главных компонент состоит в переходе от исходных переменных (показателей) к новому набору переменных, называемых главными компонентами. Каждая главная компонента является линейной комбинацией исходных переменных. Все главные компоненты взаимно ортогональны и центрированы, следовательно, избыточная информация из исходных данных отсутствует.

Для применения метода необходимы специальные данные, поэтому были взяты два источника данных – база данных Института для метрической системы мер Здоровья и оценки и базы данных федеральной службы государственной статистики.


ИСТОЧНИКИ И ЛИТЕРАТУРА

  1.  Айвазян С. А., Мхитарян В. С. Теория вероятностей и прикладная статистика. Т. 1 / Прикладная статистика и основы эконометрики: Учебник для вузов: В 2 т. 2-е изд., испр., М.: ЮНИТИ, 2001
  2.  Айвазян С. А. Анализ качества и образа жизни населения (эконометрический подход). — М.: Наука, 2010
  3.  Зиновьев А. Ю., Визуализация многомерных данных, Красноярск, Изд. КГТУ, 2000
  4.  http://chemometrics.ru/materials/textbooks/pca.htm#Eq2/
  5.  http://www.healthdata.org/
  6.  http://www.gks.ru/


 

А также другие работы, которые могут Вас заинтересовать

77619. Оценка конкурентоспособности ООО «Инком-Арт» и разработка бенчмаркингового авант-проекта по повышению конкурентоспособности на мебельном рынке 1.45 MB
  Завоевать рынок, превзойти конкурентов, создать лучший продукт или услугу и получить прибыль хотят все организации. Можно решать подобные задачи самостоятельно, а можно воспользоваться опытом успешных организаций.
77620. Автоматизоване робоче місце диспетчера автогосподарства при УМВС України 863 KB
  Метою розробки є створення програмного продукту автоматизації робочого місця диспетчера гаража в автогосподарстві. Розроблений проект реалізує функції процесу обслуговування диспетчера в автогосподарстві. Програмний засіб забезпечує швидку та ефективну роботу працівників автогосподарства.
77621. СОВЕРШЕНСТВОВАНИЕ ТОВАРНОЙ ПОЛИТИКИ СП «ФРОСТ И К» 1.25 MB
  В рамках развития рыночных отношений в Республике Беларусь, в период мощной экспансии европейских производителей перед предприятиями появился ряд вопросов, связанных с повышением рентабельности хозяйственной деятельности.
77622. ПРОЕКТ ЕЛЕМЕМНТIВ IНТЕР’ЄРУ КОРИДОРУ НАВЧАЛЬНОГО ЗАКЛАДУ З ПРАКТИЧНИМ ВИКОНАННЯМ В МАТЕРIАЛI 241.05 KB
  Інформаційні стенди зараз дають докладну інформацію про будьяку подію застерігають зазивають тобто грають людським сприйняттям. Інформаційні стенди бувають декількох різновидів: пробкові маркерні фетрові поворотномобільні а так само готові стенди.
77624. Расчет оборудования для сборки и сварки механизированной крепи 1.46 MB
  Крепь применяется для поддержания и управления кровлей в горизонтальных и наклонных очистных выработках, разрабатываемых длинными очистными забоями, с вынимаемой мощностью пласта 0,9 – 3,0 м, способ управления кровлей – с полным обрушением, с частичной или полной закладкой выработанного пространства.
77625. ОЦЕНКА ДЕЙСТВИЯ БИОГУМУСА НА УРОЖАЙНОСТЬ ПШЕНИЦЫ 160.05 KB
  Цель работы - оценить влияние нового вида удобрения – биогумуса на показатели плодородия почв и на урожайность пшеницы. Задачи: дать агрохимическую характеристику биогумуса; исследовать изменения агрохимических показателей чернозема обыкновенного под действием разных доз биогумуса и птичьего помета...
77627. Методы стабилизации коэффициента усиления оптических усилителей 2.25 MB
  Объектом разработки данной дипломной работы являются оптические усилители предназначение для усиления сигнала в составе волоконно-оптических линия связи их характеристики и методы их оптимального функционирования.