96889

МЕТОД ГЛАВНЫХ КОМПОНЕНТОВ. ПРИМЕНЕНИЕ К ПОСТРОЕНИЮ РЕЙТИНГОВ

Курсовая

Социология, социальная работа и статистика

Рассмотрение различных подходов к построению рейтингов, выявление недостатков этих подходов, изучение метода главных компонент, в том числе основных понятий и определений, вычисления главных компонент, основных числовых характеристик главных компонент, геометрической интерпретации главных компонент, применения главных компонент.

Русский

2015-10-11

58.16 KB

7 чел.

федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Петрозаводский государственный университет»

МАТЕМАТИЧЕСКИЙ ФАКУЛЬТЕТ

Кафедра математического анализа

                                                                          

 

КУРСОВАЯ РАБОТА

на тему:

«МЕТОД ГЛАВНЫХ КОМПОНЕНТ.

ПРИМЕНЕНИЕ к ПОСТРОЕНИЮ РЕЙТИНГОВ»

Студент: Горовая Екатерина Николаевна

Группа: 22308

Руководитель: к.ф.-м.н., доцент

Кручек Марина Марленовна

 «Допустить к защите»

«______» __________ 2015 г.

Дата представления работы: «______» __________ 2015 г.

Дата защиты:                           «______» __________ 2015 г.

Оценка: _________________

Петрозаводск

2015 год

Содержание

ВВЕДЕНИЕ…………………………………………………………….....3

  1.  Подходы к построению рейтингов………………………………..4
  2.  Метод главных компонент……………………………………..5-12

2.1 Основные понятия и определения…………………………..5-6

2.2 Вычисление главных компонент……………………………6-7

2.3 Основные числовые характеристики главных компонент…..7

2.4 Матрица «нагрузок» главных компонент…………………….8

2.5 Применение главных компонент……………………………8-9

2.6 Геометрическая интерпретация главных компонент…….9-11

2.7 Подготовка данных………………………………………..11-12

2.8 Возможные трудности при использовании метода главных компонент………………………………………………………….12

  1.    Источники данных для применения метода главных компонент……………………………………………………...13-14

    3.1 База данных Института для метрической системы мер Здоровья и оценки……………………………………………………13

        3.2 Федеральная служба государственной статистики (Росстат)……………………………………………………………...13-14

ЗАКЛЮЧЕНИЕ…………………………………………………………15

СПИСОК ИСТОЧНИКОВ И ЛИТЕРАТУРЫ………………………...16


ВВЕДЕНИЕ

Целью исследования является изучение метода главных компонент и его применения при построении рейтингов.

Тема актуальна, потому что метод позволяет существенно сократить затрачиваемые ресурсы при построении рейтингов и построить более точные рейтинги.

Для достижения цели курсовой работы были поставлены следующие задачи:

  1.  рассмотрение различных подходов к построению рейтингов,
  2.  выявление недостатков этих подходов,
  3.  изучение метода главных компонент, в том числе основных понятий и определений, вычисления главных компонент, основных числовых характеристик главных компонент, геометрической интерпретации главных компонент, применения главных компонент.
  4.  Изучение источников данных, пригодных для применения главных компонент в том числе, извлечение данных и их обработка для применения метода


  1.  Подходы к построению рейтингов

Существуют различные способы составления рейтингов, многие из которых обладают существенными недостатками или ограничениями их применимости. К таким методам можно отнести:

  1.  метод «суммирования значений всех показателей» (может быть применён только в том случае, когда показатели, по которым производится ранжирование, сопоставимы);
  2.  метод «суммы мест» (объекты ранжируются по каждому из показателей, а затем значения мест по каждому из объектов суммируются);
  3.  метод «суммы баллов» (задаются шкалы для оценки каждого показателя).

Недостатки данных методов очевидны. Так для применения последнего метода необходимо разрабатывать шкалы, и, в случае большого количество показателей, этот процесс будет трудоёмким. При использовании метода «суммы мест» не учитывается тот факт, что показатели в различной степени могут оказывать своё влияние на итоговую рейтинговую оценку объекта. Конечно же можно в этом случае прибегнуть к помощи экспертов,  и задать показателям весовые коэффициенты, но неизвестно, насколько они будут точны. С.А. Айвазян в своей книге «Анализ качества и образа жизни населения: экономический подход» упоминает, что весовые коэффициенты экспертов по одним и тем же показателям зачастую разнятся между собой. Применение метода «суммирования значений всех показателей» практически не возможно в случае большого количества этих показателей.

Методика С.А. Айвазяна позволяет не только ранжировать количественные показатели разной природы за счёт их унификации, но и при помощи использования метода главных компонент позволяет снизить размерность исходного пространства показателей, задав каждому из показателей свой вес.

  1.  Метод главных компонент
  2.  Основные понятия и определения

Задача снижения размерности набора данных состоит в описании точек данных с помощью величин количеством меньшим по сравнению с размерностью пространства.  Данные величины должны быть функциями исходных координат, т. е. :

ŋk=Fk(ξ1, ξ2,…, ξm), k = 1… m', m' < m.

Функции Fk задают отображение   F из исходного пространства Rm в пространство Rm'.

В методе главных компонент F – некоторое линейное ортогональное нормированное отображение, т. е. :

Fk(ξ1, ξ2,…, ξm) = c1k(ξ11)+…+cmk(ξmm), где µj=-

средние по набору данных значения признаков, а на коэффициенты  cij накладываются условия:

, , i,j=1…m,i≠j.

Вид критерия J:

, где D вычисление дисперсии случайной величины.

Согласно этому критерию, количество сохраненной информации равно доле «объясненной» с помощью новых признаков ŋ1…ŋm дисперсии исходных признаков.

Первая главная компонента – это нормированно-центрированная линейная комбинация исходных признаков, которая среди всех прочих нормировано-центрированных линейных комбинаций обладает на данном наборе данных наибольшей дисперсией.

k-ой главной компонентой (k = 2…m) называется такая нормировано-центрированная линейная комбинация исходных признаков, которая не коррелированна с (k-1) предыдущими главными компонентами и среди всех прочих нормированно - центрированных линейных комбинаций, не коррелированных с предыдущими (k-1) главными компонентами обладает на данном наборе данных наибольшей дисперсией.

  1.  Вычисление главных компонент

Рассмотрим итерационный алгоритм вычисления главных компонент. Возьмем прямую следующего вида:

y=at+b.

Тогда сумма квадратов расстояний от точек наблюдений до вышеуказанной прямой будет равна выражению:

Q=.

Пусть a, - произвольные вектора

Данная сумма- это критерий, минимизируемый с помощью алгоритма:

  1.  Определяем набор :

  1.  Определяем новые координаты векторов a и b:

  1.  Проверяем на останов. Алгоритм прерывается в том случае, если , где 𝛥Q – изменение величины Q за итерацию,

𝜀 – малая величина.

Этот способ вычисления первой главной компоненты обладает важным преимуществом: алгоритм обобщается в том случае, если данные содержат неполные значения. Неизвестное значение пропускается. Появляется вектор значения всех координат (иначе, «эффективный» вектор среднего):

Вектор a при полных данных задаст направление первой главной компоненты, а при неполных - «эффективную» первую главную компоненту.

  1.   Основные числовые характеристики главных компонент
  2.  EZ=E(LX)=L×EX=0
  3.  Ковариационная матрица вектора главных компонент:

L

в) Сумма дисперсий исходных признаков равна сумме дисперсий всех главных компонент

г) Обобщенная дисперсия исходных признаков равна обобщенной дисперсии главных компонент

д) «Матрица нагрузок» - это матрица перехода из исходного пространства переменных  в пространство главных компонент.

  1.   Матрица «нагрузок» главных компонент

Матрица «нагрузок» A = , i,j = 1,2…,p, главных компонент на исходные признаки тоже одна из важных характеристик главных компонент. Если анализируемые переменные X = (x(1), x(2),…,x(p))T , которые процентрированы и пронормированы, т. е. если главные компоненты построены для признаков X*= (x*(1), x*(2),…,x*(p))T, Ex*(i)=0, Dx*(i)=1, i=1,2,...,p, то элементы матрицы «нагрузок»   определяют степень тесноты линейной связи (по парному коэффициенту корреляции) между x*(i) и z(j) и удельный вес влияния пронормированной j-той главной компоненты на признак x*(i).

Матрица «нагрузок» А определяется соотношением вида:

, где

=.

Свойства матрицы А:

  1.  Сумма квадратов элементов любого j-го столбца матрицы А равна дисперсии (j-ой) главной компоненты λj.
  2.  Сумма квадратов элементов любой (i-ой) строки матрицы нагрузок А равна единице.

Данные свойства применимы и для содержательной интерпретации главных компонент.

  1.  Применение главных компонент

Главные компоненты применяются в решении задач  анализа данных. Основные задачи:

  1.  упрощение, сокращение размерностей анализируемых моделей статистического исследования зависимостей или классификации, что способно облегчить вычисления и интерпретацию статистических выводов;
  2.  визуализация исходных многомерных данных;
  3.  предварительная ортогонализация объясняющих переменных используется для устранения мультиколлинеарностью;
  4.  сокращение статистической информации.

Рассмотрим подробнее одно из распространенных приложений метода главных компонент – визуализацию данных.

Визуализация данных – представление данных в наглядной форме.

Первым выбором в визуализации множества данных является ортогональное проецирование на плоскость первых двух главных компонент. Плоскость проектирования является, по сути плоским двумерным «экраном», расположенным таким образом, чтобы обеспечить «картинку» данных с наименьшими искажениями. Такая проекция будет оптимальна в трех отношениях:

  1.  Минимальна сумма квадратов расстояний от точек данных до проекций на плоскость первых главных компонент, то есть экран расположен максимально близко по отношению к облаку точек.
  2.  Минимальна сумма искажений квадратов расстояний между всеми парами точек из облака данных после проецирования точек на плоскость.
  3.  Минимальна сумма искажений квадратов расстояний между всеми точками данных и их «центром тяжести».

2.6 Геометрическая интерпретация главных компонент

Переход к меньшему числу переменных (пусть это число p') z(1),z(2),…,z(p'), который осуществляется при помощи ортогонального линейного преобразования матрицы С = (сij), i=1,2,…, p', j=1,2,…,p, рассмотрим в качестве проекции исследуемых наблюдений Х12,…,Хn  в пространство с размерностью p', натянутое на оси Oz(1),Oz(2),…,Oz(p'), причем:

Z(i)=, i=1,2,…,p'.

В данном случае проекциями p-мерных исходных наблюдений Xi (i=1,2,…,n) будет следующие точки:

Zi=CXi, i=1,2,…,n.

Геометрическую интерпретацию будем рассматривать на примере двумерной системы набдюдений ,, i=1,2,…,n, которая извлечена из нормальной генеральной совокупности со средним значением a = (a(1), a(2)) и следующей ковариционной матрицей:

, ≤1, 𝞼1>0, 𝞼2>0, где

- дисперсии компонент x(1) и x(2),

r- коэффициент корреляции между ними.

Геометрическим представлением этого будет эллипсоид, в очертаниях которого располагаются точки  ,. Ниже представлен график полученного эллипсоида рассеивания:

Рис. 1. Эллипс рассеяния исследуемых наблюдений

и направление координатных осей главных компонент

2.7 Подготовка данных

Пусть имеется матрица переменных X размерностью (I×J), где I - число образцов (строк), а J - это число независимых переменных (столбцов), которых, как правило, много (J>>1). Исходные переменные xj (j=1,…J).

Перед применением метода главных компонент исходные данные нужно предварительно подготовить при помощи центрирования и нормирования. Указанные преобразования выполняются по переменным.

Центрирование – это вычитание из каждой переменной xj среднего значения:

Нормирование- преобразование, которое выравнивает вклад разных переменных. При нормировании каждая переменная xj делится на своё стандартное отклонение:

.

В совокупности центрирование и нормирование называется автошкалированием:

2.8 Возможные трудности при использовании метода главных компонент

  1.  Отсутствие необходимой информации в данных
  2.  Использование недостаточного количества главных компонент
  3.  Использование излишнего количества главных компонент
  4.  Не удаленные выбросы
  5.  Удаленные псевдовыбросы (точки, которые содержат важную информацию)
  6.  Неполный анализ графиков счетов и графиков нагрузок
  7.  Использование стандартной (машинной) диагностики без содержательного анализа
  8.  Использование неправильных методов предварительной обработки исходных данных

3. Источники данных для применения метода главных компонент

Немаловажной частью для применения метода главных компонент является извлечение нужных данных. Были изучены база данных Института для метрической системы мер Здоровья и оценки и базы данных сайта службы государственной статистики.

3.1 База данных Института для метрической системы мер Здоровья и оценки (Institute for Health Metrics and Evaluation (IHME))

Институт для метрической системы мер Здоровья и оценки – это научно-исследовательский центр, который занимается глобальными статистическими исследованиями и оценкой в области здравоохранения. Сбор данных, связанных со здоровьем, происходит из всех доступных источников. Это способствует развитию аналитических инструментов для отслеживания тенденций смертности, болезней и факторов риска. IHME создал глобальный обмен данными здравоохранения (Global Health Data Exchange (GHD)), где данные занесены в каталог и находятся в свободном доступе.

3.2 Федеральная служба государственной статистики (Росстат)

Федеральная служба государственной статистики (Росстат) является федеральным органом исполнительной власти, осуществляющим функции по формированию официальной статистической информации о социальном, экономическомдемографическом и экологическом положении страны, а также функции по контролю и надзору в области государственной статистической деятельности на территории Российской Федерации.

Одной из основных функций Федеральной службы государственной статистики является представление в установленном порядке статистической информации гражданам, Президенту Российской ФедерацииПравительству Российской ФедерацииФедеральному Собранию Российской Федерации, органам государственной власти, средствам массовой информации, другим организациям, в том числе международным.

На Едином Интернет - портале Росстата представлены следующие базы данных:

  1.  Центральная база статистических данных (ЦБСД) 
  2.  Единая межведомственная информационно – статистическая система (ЕМИСС)
  3.  Показатели муниципальных образований
  4.  Список витрин данных.


ЗАКЛЮЧЕНИЕ

В ходе работы были рассмотрены некоторые подходы к построению рейтингов, выявлены их недостатки. А также был детально изучен метод главных компонент. Основными целями метода главных компонент являются представление объектов в пространстве, отражающем внутреннюю структуру изучаемых данных и понижение размерности системы, отделение содержательной части от шума.

Идея метода главных компонент состоит в переходе от исходных переменных (показателей) к новому набору переменных, называемых главными компонентами. Каждая главная компонента является линейной комбинацией исходных переменных. Все главные компоненты взаимно ортогональны и центрированы, следовательно, избыточная информация из исходных данных отсутствует.

Для применения метода необходимы специальные данные, поэтому были взяты два источника данных – база данных Института для метрической системы мер Здоровья и оценки и базы данных федеральной службы государственной статистики.


ИСТОЧНИКИ И ЛИТЕРАТУРА

  1.  Айвазян С. А., Мхитарян В. С. Теория вероятностей и прикладная статистика. Т. 1 / Прикладная статистика и основы эконометрики: Учебник для вузов: В 2 т. 2-е изд., испр., М.: ЮНИТИ, 2001
  2.  Айвазян С. А. Анализ качества и образа жизни населения (эконометрический подход). — М.: Наука, 2010
  3.  Зиновьев А. Ю., Визуализация многомерных данных, Красноярск, Изд. КГТУ, 2000
  4.  http://chemometrics.ru/materials/textbooks/pca.htm#Eq2/
  5.  http://www.healthdata.org/
  6.  http://www.gks.ru/


 

А также другие работы, которые могут Вас заинтересовать

29854. Роль региональных и местных бюджетов в социально-экономическом развитии территорий 15.14 KB
  Роль региональных и местных бюджетов в социальноэкономическом развитии территорий Бюдже́т от старонормандского bougette кошель сумка кожаный мешок схема доходов и расходов определённого лица семьи бизнеса организации государства и т. Бюджет это важнейшая концепция как в микроэкономике так и в макроэкономике государственный бюджет. Изучением бюджета занимается наука финансы. Региональный бюджет совокупность валют правил и норм их использования взаимного обмена применения в качестве платежных средств а также...
29855. Валютные операции коммерческих банков, в России и за рубежом 18.25 KB
  Валютный рынок это вся совокупность конверсионных и кредитнодепозитных операций в иностранных валютах осуществляемых между контрагентами участниками валютного рынка. Валютные рынки можно классифицировать по следующим признакам: по виду операций. Например существует мировой рынок конверсионных операций в нём можно выделить сегменты конверсионных операций типа евро доллар или доллар иена а также мировой рынок кредитнодепозитных операций; по территориальному признаку. Текущие конверсионные операции по обмену одной валюты на другую а...
29856. Инновационная политика государства. Методы стимулирования и возможности. Мировой опыт 13.75 KB
  Под государственной инновационной политикой понимается комплекс целей а также методов воздействия государственных структур на экономику и общество в целом связанных с инициированием и повышением экономической и социальной эффективности инновационных процессов. Инновационная политика приобретает важное значение в условиях повышения инновационной активности коммерческих и государственных предприятий и структурной перестройки страны в целом. Формирование инновационной политики взаимосвязано прежде всего с переориентацией системы...
29857. Проблемы межбюджетных отношений и пути их решения 14.41 KB
  Проблемы межбюджетных отношений и пути их решения. Основная задача бюджетного федерализма заключается в том чтобы в конкретных экономических и политических условиях выбрать наиболее эффективную модель бюджетных отношений. Каждая страна решает задачу выбора модели бюджетных отношений посвоему. Эффективность межбюджетных отношений определяется не степенью централизации децентрализации бюджетной системы не наличием или отсутствием регулирующих налогов не долями доходов расходов федерального правительства не объемом и способами передачи...
29858. Иностранные инвестиции, их роль в экономике, создание благоприятного инвестиционного климата в РФ 15.6 KB
  Переход к устойчивому экономическому росту насущнейшая проблема развития экономики России успешное решение которой в первую очередь зависит от масштабного притока инвестиций в реальный сектор экономики. Привлечение иностранных инвестиций в российскую экономику должно способствовать решению следующих проблем социальноэкономического развития: освоение невостребованного научнотехнического потенциала России особенно на конверсируемых предприятиях военнопромышленного комплекса; продвижение российских товаров и технологий на внешний...
29859. Анализ финансового состояния компании и его содержания 16.82 KB
  Анализ финансового состояния компании и его содержания. Цель анализа состоит не только и не столько в том чтобы установить и оценить финансовое состояние предприятия но еще и в том чтобы постоянно проводить работу направленную на его улучшение. Анализ финансового состояния показывает по каким конкретным направлением надо вести эту работу дает возможность выявить наиболее важные аспекты и наиболее слабые позиции. Оценка финансового состояния может быть выполнена с различной степенью детализации в зависимости от цели анализа имеющейся...
29860. Направления совершенствования бюджетной классификации 12.67 KB
  направления совершенствования бюджетной классификации Бюджетная классификация Российской Федерации является группировкой доходов и расходов бюджетов всех уровней бюджетной системы Российской Федерации а также источников финансирования дефицитов этих бюджетов применяется при составлении проектов бюджетов и исполнении бюджетов всех уровней обеспечивает сопоставимость показателей бюджетов всех уровней бюджетной системы Российской Федерации. Бюджетная классификация Российской Федерации включает: 1 классификацию доходов бюджетов Российской...
29861. Инвестиционные риски и направления их минимизации 12.78 KB
  При управлении инвестиционными рисками используется ряд приемов: в основном они состоят из средств разрешения рисков и приемов снижения степени риска. Средствами разрешения рисков являются избежание их удержание передача снижение степени риска. Избежание риска означает простое уклонение от мероприятия связанного с риском. Однако избежание риска для инвестора чаще является отказом от прибыли.
29862. Факторный анализ динамики финансово-экономических показателей 14.31 KB
  факторный анализ динамики финансовоэкономических показателей Под факторным анализом понимается методика комплексного и системного изучения и измерения воздействия факторов на величину результативных показателей. Отбор факторов определяющих исследуемые результативные показатели. Классификация и систематизация факторов с целью обеспечения комплексного и системного подхода к исследованию их влияния на результаты хозяйственной деятельности. Расчет влияния факторов и оценка роли каждого из них в изменении величины результативного показателя.