42140

ПОДГОТОВКА И АНАЛИЗ ДАННЫХ

Лабораторная работа

Информатика, кибернетика и программирование

Очень часто происходит ситуация когда анализ данных проводимый между этапом сбора данных и собственно эконометрическим моделированием позволяет сократить количество лишней работы связанной с фактическим выбором модели и анализом технической информации во время моделирования. Предварительный анализ данных можно условно разделить на три этапа: графический анализ данных; фильтрация очистка рядов данных; анализ выборочных характеристик рассматриваемых рядов. Эконометрическое исследование проводится как минимум для двух рядов...

Русский

2013-10-27

444 KB

21 чел.

Лабораторная работа №2

ПОДГОТОВКА И АНАЛИЗ ДАННЫХ

Эконометрическое исследование, целью которого является определение вида модели (уравнения), характеризующей взаимосвязь двух и более переменных, а также определение наилучших значений коэффициентов в данной модели, всегда должен предварять этап подготовки и анализа данных.

Очень часто происходит ситуация, когда анализ данных, проводимый между этапом сбора данных и собственно эконометрическим моделированием, позволяет сократить количество «лишней» работы, связанной с фактическим выбором модели и анализом «технической» информации во время моделирования.

Предварительный анализ данных можно условно разделить на три этапа:

  1.  графический анализ данных;
  2.  фильтрация (очистка) рядов данных;
  3.  анализ выборочных характеристик рассматриваемых рядов.

На практике данные этапы не всегда выполняются в указанной последовательности. При работе с реальными данными они постоянно повторяются, меняются местами, в силу того, что каждое исследование требует своей степени обработки информации. Эконометрическое исследование проводится как минимум для двух рядов данных, поэтому при подготовке  и анализе данных они рассматриваются как по отдельности, так и совместно.

Указанные выше этапы подготовки и анализа можно провести средствами любого пакета, позволяющего работать со статистическими данными, но пакет Eviews обладает рядом преимуществ, о которых будет сказать ниже.

В качестве примера в данной лабораторной работе мы рассмотрим данные по уровню ВВП на душу населения по ППС, уровень инфляции и безработицы в 2007 году для развитых и развивающихся стран. Исследование предполает проверку гипотезы об обратной связи инфляции и уровня безработицы и их возможное влияние на уровень ВВП.
Файл с исходными данным –
lab2.xls

  1.  Создание рабочего файла и  создание рядов данных.

Перед началом анализа необходимо собранные данные перенести в Eviews. Для этого воспользуйтесь информацией из п.п. 1, 2, 3 лабораторной работы №1. Обратите внимание, что Eviews в качестве разделителя разрядов использует точку, поэтому при копировании данных из файлов других форматов, нужно предварительно провести соответствующие изменения. При этом с учетом того, что каждая тройка значений (ВВП-инфляция-безработица), относится к конкретной стране, желательно зафиксировать данную привязку, чтобы любые выводы подразумевали конкретную страну. Для этого мы можем скопировать при создании группы в Eviews в один из столбцов названия стран. Для хранения данной информации будет создан ряд данные типа Series alpha (текстовый ряд данных), обозначаемый в рабочем файле. Группа содержащая все ряды данных будет выглядеть следующим образом (см.рис. 2.1.)

Рис. 2.1. Группа DATA, содержащая текстовые и числовые ряды

2. Графический анализ данных

Исходные данные зачастую содержат множество наблюдений, способных существенно ухудшить качество модели. Это может быть вызвано многими причинами.

Во-первых, при подготовки данных для проверки какого-либо теоретического утверждения, не анализируется текущая ситуация в экономике. Так, например, нельзя сравнивать в одном исследовании страны с ползущей и галопирующей инфляциями.

Во-вторых, во многих странах (компаниях, агентствах и т.п.) статистическая информация собирается и анализируется при помощи совершенно разных инструментов и методов, что делает необходимым предварительную проверку данных на «совместность».

В-третьих, при сборе и обработке информации могут случаться ошибки, вызванные человеческим фактором (опечатка и т.п.), которые также необходимо исключить для получения достоверного исследования.

Первичный анализ  данных можно провести при помощи визуального анализа графиков. В п.8 лабораторной работы №1 приведен метод пример построения графика одного ряда данных. Аналогичные инструменты работают и в объекте Group, при этом предоставляется возможность получить либо одновременные графики, либо набор графиков для всех рядов группы (Multiple Graphs).

Графическое представление данных дает возможность увидеть наблюдения, «выпадающие» из общей картины. Так, значение уровня безработицы для 40-го наблюдения существенно выше основной массы (см. рис.2.2.). Это значение принадлежит Сербии. При этом соответствующих положительных/отрицательных колебаний в значениях инфляции и уровня ВВП нет. Следовательно, причина факта высокой безработицы имеет какие-то особые причины, необъясняемые выбранными нами данными. Такие наблюдения из выборки, которая будет использоваться при моделировании лучше удалить. Средства пакета Eviews позволяют не удалять из рабочего файла «лишние» наблюдения, а сократить используемую для моделирования выборку (см. п.4.).

Рис. 2.2. Одновременное представление двух рядов данных

3. Анализ графика зависимости рядов.

Анализ графиков рядов позволяет легко увидеть наблюдения, значения которых существенно больше или меньше средних уровней ряда. Поскольку конечной целью эконометрического моделирования является построение уравнения, отражающего зависимость некоторого результативного признака от влияющих факторов, то на данном этапе необходимо определить, объясняются ли отклонения рассматриваемыми в исследовании факторами.

График зависимости рядов или диаграмма рассеяния является удобным инструментом для проведения такого анализа. Создание графика зависимости рядов посредством специальных команд описано в п.8 лабораторной работы №1. Чтобы получить диаграмму рассеяния при помощи меню, необходимо в группе в меню View/Graph или View/Multiple Graphs в пункте Scatter выбрать необходимую форму диаграммы рассеяния.

ЗАМЕЧАНИЕ! Если в группе с данными первым столбцом является текстовая информация, как в нашем примере (см. рис.2.1.), Eviews не сможет корректно отобразить график зависимости рядов, так как при построении пакет обычно отталкивается от первого столбца группы).

Важно, чтобы ряды, которые будут отражены по оси ординат имели сопоставимый порядок значений. При расхождении значений в 10 и более раз масштаб построенного графика не будет удобным для полноценного анализа.

При исследовании, в первую очередь, рассматривают диаграммы рассеяния, отражающие зависимость результативного ряда и рядов факторов. Именно из их анализа можно сделать предположения о функциональной форме зависимости рядов. Также, можно увидеть «выпадающие» из общей массы значения. Так на рис.2.3. видно, что есть наблюдение с чрезмерно большим уровнем ВВП при средних значениях инфляции и уровня безработицы, а также наблюдения с высоким уровнем безработицы.

Рис.2.3. График зависимости рядов

Идеальным вариантом является максимально близкое соответствие диаграммы рассеяния выбранной форме зависимости (линейной, квадратичной и т.д.). В противном случае, качество полученного уравнения может оказаться не высоким.

Подтвердить или опровергнуть предположения о наличии связи можно при помощи коэффициента корреляции. Способы его расчета будут описаны ниже. Важно помнить, что коэффициент корреляции характеризует тесноту и направление линейной связи исследуемых рядов.

4. Фильтрация данных

Если в результате предварительного анализа принято решение сократить используемую для моделирования выборку, это можно сделать при помощи средств фильтрации данных.

Если точно известны значения конкретного ряда, которые являются «нормальными» для рассматриваемой выборки, то можно исключить «лишние» наблюдения, задавая условие фильтрации данных if при определение sample  (текущей выборки). Это можно сделать как при помощи специального окна для изменения sample (п.6. лабораторной работы №1), так и при помощи команды smpl.

В рассматриваемой выборке, Сербия с уровнем безработицы,
превышающем 18%, Люксембург с значением ВВП, превышающим
80 тыс. долларов слишком сильно нарушают относительную однородность выборки.

smpl @all if  unemp<18 – отобразить все наблюдения в которых переменная unemp меньше 18;

smpl @all if unemp<18 and GDP<80000 – отобразить все наблюдения в которых одновременно переменные unemp<13 и GDP<80000.

Рис. 2.4. Фильтрация данных

При использовании окна “Sample” для изменения текущей выборки, условие фильтрации записывается в поле «IF condition (optional
(рис.2.4).

5. Расчет и анализ выборочных характеристик рядов данных

При первичном анализе рядов важную роль играет анализ выборочных статистических характеристик. Они позволяю оценить как ряды по отдельности, так и зависимость рядов. Эти характеристики могут служить математическим подтверждением выводов, построенных на анализе графиков и диаграмм рассеяния.

Расчет выборочных характеристик может быть проведен как при помощи специальных команд, используемых в пакете Eviews, так и при помощи встроенных средств.

В первом случае используются следующие функции:

  •  @mean(x) – выборочное математическое ожидание x;
  •  @var(x) – выборочная дисперсия х;
  •  @cor(x,y) – выборочный коэффициент корреляции х и у;
  •  @cov(x,y) – выборочный коэффициент ковариации х и у.

Например, для того чтобы рассчитать выборочный коэффициент корреляции между величинами X и Y, необходимо сначала определить ряд для коэффициента корреляции (пусть это будет ряд R), а затем в строке ввода формул ввести R=@cor(X,Y).

Во втором случае, необходимо в объекте Series (если необходимо рассмотреть характеристики только одного ряда) или в объекте Group выбрать в окне ряда меню View / Descriptive Statistics / Histogram and Stats или View / Descriptive Statistics / Common sample, соответственно.

Если описательная статистика рассчитывается для ряда данных, то появится окно, содержащее гистограмму частот ряда и выборочные характеристики (см. рис.2.5.). Если же характеристики строятся для группы рядов данных, то результатом будет являться таблица, отражающая перечисленные ниже характеристики для всех рядов, представленных в группе.

Рис. 2.5. Статистические характеристики ряда

При вызове описательной статистике, пакет представляет следующие характеристики ряда:

  •  Mean  - средняя арифметическая ряда;
  •  Median - медиана ряда;
  •  Maximum - максимальное значение ряда;
  •  Minimum - минимальное значение ряда;
  •  Std. Dev. - стандартное отклонение ряда;
  •  Skewness - коэффициент асимметрии (если Skewness>0, то правосторонняя асимметрия, если меньше 0 - левосторонняя);
  •  Kurtosis - коэффициент эксцесса (у нормального распределения эксцесс равен нулю).
  •  Jarque-Bera  - показывает нормальность распределения (при доверительной вероятности 0,95, если Probability>0,05, то распределение нормальное, если меньше 0,05 – не является нормальным).

Для расчета выборочных ковариаций и коэффициентов корреляции, необходимо в группе выбрать в меню следующие пункты View /  Covariance / Common Sample или View /  Correlations / Common Sample. Результатом будет ковариационная или корреляционная матрица.

Анализ выборочных статистических характеристик позволяет:

  •  проверить гипотезу о нормальности рядов данных, используемых при построении модели;
  •  оценить степень разброса значений результирующего признака и влияющих факторов;
  •  определить степень тесноты исследуемых рядов и близость их зависимости к линейному виду.

Задания:

Исследуется зависимость между уровнем жизни (ВВП на душу населения), экономической активностью государства (текущий счет баланса), численностью населения и уровнем инфляции. Необходимо проверить собранные данные, провести первичный анализ и, при необходимости, скорректировать рабочую выборку.

Исходные данные по вариантам находятся в файле lab 2.xls, номер варианта соответствует номеру страницы в файле.

  1.  Создайте рабочий файл, соответствующий размерности выборки в вашем варианте.
    1.  Создайте ряды данных, в которые скопируйте необходимую информацию.
    2.  Создайте в рабочем файле группу (ы), включающая (ие) необходимые для анализа ряды данных.
    3.  Проведите графический анализ данных, совместное поведение исследуемых величин, отразите в тетради ваши заключения.
    4.  Проведите анализ диаграмм рассеяния, подготовьте выводы о форме функциональной зависимости между рядами, о тесноте связи (рассчитайте выборочные коэффициенты корреляции).
    5.  Проведите анализ выборочных характеристик рядов данных. Определите соразмерность колебаний. Сопоставьте полученные выводы с выводами, сделанными при проведении графического анализа и анализа графиков зависимости.
    6.  Проведите фильтрацию (очистку) рядов данных в соответствии с вашими выводами.
    7.  Сохраните рабочий файл в вашем разделе под именем «фамилия студента»_2.WF1.
    8.  Результаты покажите преподавателю и подготовьте аргументацию ваших действий.

Команды, используемые в лабораторной работе:

  •  series x либо genr x – создание дискретного ряда с именем x;
  •  alpha x – создание текстового ряда с именем x;
  •  group first x y – создание группы с именем first и включить в нее ряды x и y;
  •  line x y – создание графика с рядами x y;
  •  bar x y –  создание гистограммы с рядами x y;
  •  scat x y – создание графика зависимости (облака рассеяния) значений ряда y от значений ряда x;
  •  smpl 1 100 – изменение размера текущей выборки до 100 наблюдения;
  •  smpl @all if – изменение размера текущей выборки в соответствии с условием после команды if.


 

А также другие работы, которые могут Вас заинтересовать

79171. Междисциплинарные аспекты развития технознания. Роль техники в формализации и математизации научного знания, гуманитарные приложения технических наук 35.5 KB
  Роль техники в формализации и математизации научного знания гуманитарные приложения технических наук Технознание целостная система знаний о технике технологии и техносфере. В связи с возрастанием сложности проектируемых технических систем появлением новых прикладных дисциплин выработкой системных принципов исследования особое значение приобретает деятельность направленная на организацию и руководство такими видами деятельности как с одной стороны проектирование компонентов конструирование отладка разработка технологии а с другой...
79172. Философско-методологические аспекты соотношения научного и вненаучного. Наука, паранаука и мифология в их соотношении 36.5 KB
  Научное знание основано на принятой в данном обществе концепции рациональности которая находится в соответствии с др. Включает в себя учения или размышления трактаты о явлениях объяснения о которых не является убедительными Лженаучное знания домыслы и рассуждения Квазинаучное знания Осуществляется через методы насилия и принуждения отрицание кибернетики Лысенковчина Антинаучное знание Сознательное искажение действительности Псевдонаучное знание интеллектуальная активность специализирующееся на популярных исследованиях. IV...
79174. Эволюционная эпистемология, её генезис и современные тенденции развития. Глобальный эволюционизм и современная научная картина мира 39 KB
  Эпистемология- согласно Фуко это исторически изменчивые структуры которые определяют условия образования сознания в конкретный исторический период.
79175. Культурологический дискурс техники. Техноидиллия и технический алармизм в современной культуре. Традиционная и проектная культура 33 KB
  Культурологический дискурс техники. Это связано в первую очередь с развитием техники. Техника и технология основные понятия фил техники. История становления современного чел связана с историей развития и услож техники.
79176. Антропологический дискурс техники и технознания. Теория органопроекций. Орудийная и праксеологическая концепции техники 16.94 KB
  В работе Общая и сравнительная география 1845 рассматривает историю как результат активного взаимодействия человека и окружающей его среды. В своей философской концепции техники Капп исходит из антропологического критерия который провозглашает человека фактическим центром мироздания и объявляет его исходным пунктом и конечной целью т. Человек мера всех вещей Протагор При этом человека который с антропологической точки зрения находится в центре мира следует брать и понимать как неразрывное единство тела и сознания. Однако...
79177. Гуманистические традиции философии техники. Антисциентизм и антитехницизм в их соотношении. Проблемы гуманизации современной техники 26.5 KB
  В современной философии конституируется более широкий взгляд на дегуманизацию культуры в техногенной цивилизации связанный с признанием невозможности рационализировать техническое развитие и сделать его нерепрессивным по отношению к человеку ибо техника есть естественное порождение и органичное выражение самой сущности человека плоть от плоть его отношения к миру как к объекту потребления ярчайший пример отношение к природе артикулированное в категориях природопользования где техника выступает лишь средством инструментом...
79178. Техника и технознание в контексте современной глобалистики. Техника как коммуникативная стратегия современности 28 KB
  Техника и технознание в контексте современной глобалистики. Техника как коммуникативная стратегия современности. Широкий смысл понятия техники: искусственный или организованный прием усиливающий улучшающий или облегчающий действие техника письма техника плавания техника вопросов и т. Созидательный характер техники: техника есть основание на котором стоит техногенная цивилизация: в аспекте творчества: средство реализации сущностных сил человека форма материализации потенций человека и природы во всем их многообразии; в аспекте...