42140

ПОДГОТОВКА И АНАЛИЗ ДАННЫХ

Лабораторная работа

Информатика, кибернетика и программирование

Очень часто происходит ситуация когда анализ данных проводимый между этапом сбора данных и собственно эконометрическим моделированием позволяет сократить количество лишней работы связанной с фактическим выбором модели и анализом технической информации во время моделирования. Предварительный анализ данных можно условно разделить на три этапа: графический анализ данных; фильтрация очистка рядов данных; анализ выборочных характеристик рассматриваемых рядов. Эконометрическое исследование проводится как минимум для двух рядов...

Русский

2013-10-27

444 KB

18 чел.

Лабораторная работа №2

ПОДГОТОВКА И АНАЛИЗ ДАННЫХ

Эконометрическое исследование, целью которого является определение вида модели (уравнения), характеризующей взаимосвязь двух и более переменных, а также определение наилучших значений коэффициентов в данной модели, всегда должен предварять этап подготовки и анализа данных.

Очень часто происходит ситуация, когда анализ данных, проводимый между этапом сбора данных и собственно эконометрическим моделированием, позволяет сократить количество «лишней» работы, связанной с фактическим выбором модели и анализом «технической» информации во время моделирования.

Предварительный анализ данных можно условно разделить на три этапа:

  1.  графический анализ данных;
  2.  фильтрация (очистка) рядов данных;
  3.  анализ выборочных характеристик рассматриваемых рядов.

На практике данные этапы не всегда выполняются в указанной последовательности. При работе с реальными данными они постоянно повторяются, меняются местами, в силу того, что каждое исследование требует своей степени обработки информации. Эконометрическое исследование проводится как минимум для двух рядов данных, поэтому при подготовке  и анализе данных они рассматриваются как по отдельности, так и совместно.

Указанные выше этапы подготовки и анализа можно провести средствами любого пакета, позволяющего работать со статистическими данными, но пакет Eviews обладает рядом преимуществ, о которых будет сказать ниже.

В качестве примера в данной лабораторной работе мы рассмотрим данные по уровню ВВП на душу населения по ППС, уровень инфляции и безработицы в 2007 году для развитых и развивающихся стран. Исследование предполает проверку гипотезы об обратной связи инфляции и уровня безработицы и их возможное влияние на уровень ВВП.
Файл с исходными данным –
lab2.xls

  1.  Создание рабочего файла и  создание рядов данных.

Перед началом анализа необходимо собранные данные перенести в Eviews. Для этого воспользуйтесь информацией из п.п. 1, 2, 3 лабораторной работы №1. Обратите внимание, что Eviews в качестве разделителя разрядов использует точку, поэтому при копировании данных из файлов других форматов, нужно предварительно провести соответствующие изменения. При этом с учетом того, что каждая тройка значений (ВВП-инфляция-безработица), относится к конкретной стране, желательно зафиксировать данную привязку, чтобы любые выводы подразумевали конкретную страну. Для этого мы можем скопировать при создании группы в Eviews в один из столбцов названия стран. Для хранения данной информации будет создан ряд данные типа Series alpha (текстовый ряд данных), обозначаемый в рабочем файле. Группа содержащая все ряды данных будет выглядеть следующим образом (см.рис. 2.1.)

Рис. 2.1. Группа DATA, содержащая текстовые и числовые ряды

2. Графический анализ данных

Исходные данные зачастую содержат множество наблюдений, способных существенно ухудшить качество модели. Это может быть вызвано многими причинами.

Во-первых, при подготовки данных для проверки какого-либо теоретического утверждения, не анализируется текущая ситуация в экономике. Так, например, нельзя сравнивать в одном исследовании страны с ползущей и галопирующей инфляциями.

Во-вторых, во многих странах (компаниях, агентствах и т.п.) статистическая информация собирается и анализируется при помощи совершенно разных инструментов и методов, что делает необходимым предварительную проверку данных на «совместность».

В-третьих, при сборе и обработке информации могут случаться ошибки, вызванные человеческим фактором (опечатка и т.п.), которые также необходимо исключить для получения достоверного исследования.

Первичный анализ  данных можно провести при помощи визуального анализа графиков. В п.8 лабораторной работы №1 приведен метод пример построения графика одного ряда данных. Аналогичные инструменты работают и в объекте Group, при этом предоставляется возможность получить либо одновременные графики, либо набор графиков для всех рядов группы (Multiple Graphs).

Графическое представление данных дает возможность увидеть наблюдения, «выпадающие» из общей картины. Так, значение уровня безработицы для 40-го наблюдения существенно выше основной массы (см. рис.2.2.). Это значение принадлежит Сербии. При этом соответствующих положительных/отрицательных колебаний в значениях инфляции и уровня ВВП нет. Следовательно, причина факта высокой безработицы имеет какие-то особые причины, необъясняемые выбранными нами данными. Такие наблюдения из выборки, которая будет использоваться при моделировании лучше удалить. Средства пакета Eviews позволяют не удалять из рабочего файла «лишние» наблюдения, а сократить используемую для моделирования выборку (см. п.4.).

Рис. 2.2. Одновременное представление двух рядов данных

3. Анализ графика зависимости рядов.

Анализ графиков рядов позволяет легко увидеть наблюдения, значения которых существенно больше или меньше средних уровней ряда. Поскольку конечной целью эконометрического моделирования является построение уравнения, отражающего зависимость некоторого результативного признака от влияющих факторов, то на данном этапе необходимо определить, объясняются ли отклонения рассматриваемыми в исследовании факторами.

График зависимости рядов или диаграмма рассеяния является удобным инструментом для проведения такого анализа. Создание графика зависимости рядов посредством специальных команд описано в п.8 лабораторной работы №1. Чтобы получить диаграмму рассеяния при помощи меню, необходимо в группе в меню View/Graph или View/Multiple Graphs в пункте Scatter выбрать необходимую форму диаграммы рассеяния.

ЗАМЕЧАНИЕ! Если в группе с данными первым столбцом является текстовая информация, как в нашем примере (см. рис.2.1.), Eviews не сможет корректно отобразить график зависимости рядов, так как при построении пакет обычно отталкивается от первого столбца группы).

Важно, чтобы ряды, которые будут отражены по оси ординат имели сопоставимый порядок значений. При расхождении значений в 10 и более раз масштаб построенного графика не будет удобным для полноценного анализа.

При исследовании, в первую очередь, рассматривают диаграммы рассеяния, отражающие зависимость результативного ряда и рядов факторов. Именно из их анализа можно сделать предположения о функциональной форме зависимости рядов. Также, можно увидеть «выпадающие» из общей массы значения. Так на рис.2.3. видно, что есть наблюдение с чрезмерно большим уровнем ВВП при средних значениях инфляции и уровня безработицы, а также наблюдения с высоким уровнем безработицы.

Рис.2.3. График зависимости рядов

Идеальным вариантом является максимально близкое соответствие диаграммы рассеяния выбранной форме зависимости (линейной, квадратичной и т.д.). В противном случае, качество полученного уравнения может оказаться не высоким.

Подтвердить или опровергнуть предположения о наличии связи можно при помощи коэффициента корреляции. Способы его расчета будут описаны ниже. Важно помнить, что коэффициент корреляции характеризует тесноту и направление линейной связи исследуемых рядов.

4. Фильтрация данных

Если в результате предварительного анализа принято решение сократить используемую для моделирования выборку, это можно сделать при помощи средств фильтрации данных.

Если точно известны значения конкретного ряда, которые являются «нормальными» для рассматриваемой выборки, то можно исключить «лишние» наблюдения, задавая условие фильтрации данных if при определение sample  (текущей выборки). Это можно сделать как при помощи специального окна для изменения sample (п.6. лабораторной работы №1), так и при помощи команды smpl.

В рассматриваемой выборке, Сербия с уровнем безработицы,
превышающем 18%, Люксембург с значением ВВП, превышающим
80 тыс. долларов слишком сильно нарушают относительную однородность выборки.

smpl @all if  unemp<18 – отобразить все наблюдения в которых переменная unemp меньше 18;

smpl @all if unemp<18 and GDP<80000 – отобразить все наблюдения в которых одновременно переменные unemp<13 и GDP<80000.

Рис. 2.4. Фильтрация данных

При использовании окна “Sample” для изменения текущей выборки, условие фильтрации записывается в поле «IF condition (optional
(рис.2.4).

5. Расчет и анализ выборочных характеристик рядов данных

При первичном анализе рядов важную роль играет анализ выборочных статистических характеристик. Они позволяю оценить как ряды по отдельности, так и зависимость рядов. Эти характеристики могут служить математическим подтверждением выводов, построенных на анализе графиков и диаграмм рассеяния.

Расчет выборочных характеристик может быть проведен как при помощи специальных команд, используемых в пакете Eviews, так и при помощи встроенных средств.

В первом случае используются следующие функции:

  •  @mean(x) – выборочное математическое ожидание x;
  •  @var(x) – выборочная дисперсия х;
  •  @cor(x,y) – выборочный коэффициент корреляции х и у;
  •  @cov(x,y) – выборочный коэффициент ковариации х и у.

Например, для того чтобы рассчитать выборочный коэффициент корреляции между величинами X и Y, необходимо сначала определить ряд для коэффициента корреляции (пусть это будет ряд R), а затем в строке ввода формул ввести R=@cor(X,Y).

Во втором случае, необходимо в объекте Series (если необходимо рассмотреть характеристики только одного ряда) или в объекте Group выбрать в окне ряда меню View / Descriptive Statistics / Histogram and Stats или View / Descriptive Statistics / Common sample, соответственно.

Если описательная статистика рассчитывается для ряда данных, то появится окно, содержащее гистограмму частот ряда и выборочные характеристики (см. рис.2.5.). Если же характеристики строятся для группы рядов данных, то результатом будет являться таблица, отражающая перечисленные ниже характеристики для всех рядов, представленных в группе.

Рис. 2.5. Статистические характеристики ряда

При вызове описательной статистике, пакет представляет следующие характеристики ряда:

  •  Mean  - средняя арифметическая ряда;
  •  Median - медиана ряда;
  •  Maximum - максимальное значение ряда;
  •  Minimum - минимальное значение ряда;
  •  Std. Dev. - стандартное отклонение ряда;
  •  Skewness - коэффициент асимметрии (если Skewness>0, то правосторонняя асимметрия, если меньше 0 - левосторонняя);
  •  Kurtosis - коэффициент эксцесса (у нормального распределения эксцесс равен нулю).
  •  Jarque-Bera  - показывает нормальность распределения (при доверительной вероятности 0,95, если Probability>0,05, то распределение нормальное, если меньше 0,05 – не является нормальным).

Для расчета выборочных ковариаций и коэффициентов корреляции, необходимо в группе выбрать в меню следующие пункты View /  Covariance / Common Sample или View /  Correlations / Common Sample. Результатом будет ковариационная или корреляционная матрица.

Анализ выборочных статистических характеристик позволяет:

  •  проверить гипотезу о нормальности рядов данных, используемых при построении модели;
  •  оценить степень разброса значений результирующего признака и влияющих факторов;
  •  определить степень тесноты исследуемых рядов и близость их зависимости к линейному виду.

Задания:

Исследуется зависимость между уровнем жизни (ВВП на душу населения), экономической активностью государства (текущий счет баланса), численностью населения и уровнем инфляции. Необходимо проверить собранные данные, провести первичный анализ и, при необходимости, скорректировать рабочую выборку.

Исходные данные по вариантам находятся в файле lab 2.xls, номер варианта соответствует номеру страницы в файле.

  1.  Создайте рабочий файл, соответствующий размерности выборки в вашем варианте.
    1.  Создайте ряды данных, в которые скопируйте необходимую информацию.
    2.  Создайте в рабочем файле группу (ы), включающая (ие) необходимые для анализа ряды данных.
    3.  Проведите графический анализ данных, совместное поведение исследуемых величин, отразите в тетради ваши заключения.
    4.  Проведите анализ диаграмм рассеяния, подготовьте выводы о форме функциональной зависимости между рядами, о тесноте связи (рассчитайте выборочные коэффициенты корреляции).
    5.  Проведите анализ выборочных характеристик рядов данных. Определите соразмерность колебаний. Сопоставьте полученные выводы с выводами, сделанными при проведении графического анализа и анализа графиков зависимости.
    6.  Проведите фильтрацию (очистку) рядов данных в соответствии с вашими выводами.
    7.  Сохраните рабочий файл в вашем разделе под именем «фамилия студента»_2.WF1.
    8.  Результаты покажите преподавателю и подготовьте аргументацию ваших действий.

Команды, используемые в лабораторной работе:

  •  series x либо genr x – создание дискретного ряда с именем x;
  •  alpha x – создание текстового ряда с именем x;
  •  group first x y – создание группы с именем first и включить в нее ряды x и y;
  •  line x y – создание графика с рядами x y;
  •  bar x y –  создание гистограммы с рядами x y;
  •  scat x y – создание графика зависимости (облака рассеяния) значений ряда y от значений ряда x;
  •  smpl 1 100 – изменение размера текущей выборки до 100 наблюдения;
  •  smpl @all if – изменение размера текущей выборки в соответствии с условием после команды if.


 

А также другие работы, которые могут Вас заинтересовать

30492. Перспективы информатизации регионального управления 120.5 KB
  История и специфика отдельных европейских стран обуславливают крайнее разнообразие систем их государственного устройства и управления вообще и места в них регионального звена в частности и в особенности.
30493. Основные технико-технологические проблемы разведки, освоения и эксплуатации нефтегазовых месторождений 74 KB
  Чтобы управлять технологическими процессами представляющими собой различные этапы (ступени) эксплуатации нефтегазовых месторождений, необходимо сначала изучить закономерности их поведения, а затем на основе имеющихся данных, которые характеризуют различные свойства изучаемого объекта (нефтегазового месторождения)
30494. Органеллы цитоплазмы: пластиды, как специфические органеллы растительной клетки 42 KB
  Пластиды встречаются только у растений. В зависимости от окраски различают три типа пластид: хлоропласты - зеленого цвета; хромопласты - желтого, оранжевого, красного цветов и лейкопласты - бесцветные.
30495. Современные геофизические методы как средство изучения строения и свойств геологической среды 93.5 KB
  Современные геофизические методы служат основой создания многопараметровой базы данных, как основы математического моделирования технологических процессов в нефтегазодобыче.
30496. ПРИМЕНЕНИЕ ГЕОФИЗИЧЕСКИХ МЕТОДОВ ПРИ ПОИСКАХ ЗОН ВЫКЛИНИВАНИЯ И РИФОВ 1018.5 KB
  Поиски залежей нефти и газа в литолого-стратиграфических ловушках являются в несколько раз менее эффективными, чем поиски месторождений на сводах антиклиналей. Это обусловлено в значительной мере ограниченными возможностями современных методов полевой геофизики в надежном выявлении таких ловушек.
30498. Многочлены. Кольцо многочленов над кольцом с единицей. Делимость многочленов, теорема о делении с остатком. Значение и корень многочлена. Теорема Безу 57.56 KB
  о делении мннов: 2ух мннов f и g≠0 мнны q и r такие что f=qgr причем или r=0 или degr degg.degrx degx а degx=1 degrx=0. Доказательство: Поделим с остатком многочлен fx на многочлен x: fx=xqxrx Так как degrx degx а degx=1 то rx многочлен степени не выше 0 т. Докво: единственность пусть где или deg degg то откуда следует но deg degg .