15701

КОРРЕЛЯЦИЯ И ПРОСТАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ

Лабораторная работа

Информатика, кибернетика и программирование

Лабораторная работа 3. Корреляция и простая линейная регрессия Коэффициент корреляции – это показатель степени связи. Он изменяется от –1 до 1. Величина по модулю коэффициента корреляции показывает силу связи чем больше величина тем сильнее с

Русский

2013-06-15

109.5 KB

18 чел.

Лабораторная  работа 3.

Корреляция и простая линейная регрессия

Коэффициент корреляции – это показатель степени связи. Он изменяется от –1 до +1. Величина (по модулю) коэффициента корреляции показывает силу связи (чем больше величина, тем сильнее связь). Знак коэффициента корреляции показывает направление отношений (“+” - прямая зависимость, “-” – обратная).

Задание 3: поможем студенту сделать курсовую работу! 

Студент пишет курсовую работу на тему «Взаимозависимость личностных и профессиональных качеств». Он собрал у испытуемых (студентов ФФСН в прошлом году) следующие данные:

  1.  Показатель, характеризующий какой вы друг (переменная FRIEND) – изменяется от 10 до 30 баллов.

Если вы набрали от 21 до 30 баллов, то вы действительно хороший друг. Ваши друзья верят вам и восхищаются вами. Если вы набрали от 15 до 20 баллов, то, как и большинство из нас, иногда не проявляете в отношениях с друзьями должного понимания. Если вы набрали от 10 до 14 баллов, то склонны больше обращать внимания на себя, чем на окружающих. Эта черта – барьер перед подлинной дружбой.

  1.  Показатель, характеризующий какой вы психолог (переменная PSYCHOL) – изменяется от 10 до 38 баллов. Сумма 35 и более баллов: вам очень легко составить мнение о человеке, вам достаточно посмотреть на кого-либо, и вы уже знаете, что он за птица. От 26 до 34 баллов: вы умеете объективно оценивать ситуации и окружающих, у вас действительно есть «нюх» на людей, и для вас не составит сложности угадать характер человека; из вас вышел бы отличный психолог. От 16 до 25 баллов: вы, как правило, не бываете уверены в своем мнении, легко принимаете постороннюю точку зрения, таким образом, ваша наблюдательность притупляется, и все это в конце концов может привести к тому, что вы вообще не сможете сформулировать свое самостоятельное мнение. 15 и менее баллов: вы .чрезвычайно доверчивы и судите о людях лишь по внешним признакам.
  2.  Уровень самооценки (переменная EVALUAT) – изменяется от 0 до 60 баллов.

Если уровень самооценки меньше 10 баллов, вам надо избавляться от чувства превосходства над окружающими, зазнайства, хвастовства. Если сумма превышает 30 баллов, то вы себя недооцениваете. Набранное количество баллов от 10 до 30 свидетельствует о психологической зрелости, которая проявляется прежде всего в адекватности самоотражения, т.е. реалистической оценке своих сил, возможностей, внешности.

  1.  Рост (в см) (переменная HEIGHT)
  2.  Размер обуви (переменная SIZE)
  3.  Средний балл за сданные сессии (переменная RATING)
  4.  Показатели по 8 шкалам теста Лири – изменяются от 0 до 16 баллов. Чем больше балл, тем ярче выражено личностное качество, определяемое шкалой:
  5.  Властный-лидирующий (переменная LIRY_1)
  6.  Независимый-доминирующий (переменная LIRY_2)
  7.  Прямолинейный-агрессивный (переменная LIRY_3)
  8.  Недоверчиво-скептический (переменная LIRY_4)
  9.  Покорно-застенчивый (переменная LIRY_5)
  10.  Зависимый-послушный (переменная LIRY_6)
  11.  Сотрудничающий-конвенциальный (переменная LIRY_7)
  12.  Ответственно-великодушный (переменная LIRY_8)

Надо помочь студенту провести корреляционный анализ и правильно интерпретировать результаты.

  1.  Загрузите файл данных.
    1.  Скопируйте файл Correlation.xls в свою рабочую папку.
    2.  Запустите программу STATISTICA.
    3.  Импортируйте файл Correlation.xls:  File  Open

В графе «Тип файла» выберите Excel Files (*.xls). Найдите нужный файл в своей папке и нажмите кнопку Открыть. Появится окно Opening file. Нажмите кнопку Import selected sheet to a Spreadsheet. Это значит, что надо импортировать только один лист из всего файла. (Если вы захотите импортировать все листы, нажмете кнопку Import all sheets to a Workbook). Согласитесь импортировать лист под названием «Данные». Когда нажмете кнопку ОК, увидите окно Open Excel File. Как правило, программа сама правильно определяет ту часть файла, которую надо импортировать, но на всякий случай проверьте: должно быть 14 переменных и 101 наблюдение. Теперь задайте дополнительные требования:

 Get case names from the 1st column of specified rangeпервый столбец превращается 

в имена (или номера) наблюдений

Get variable names from the 1st row of specified rangeпервая строчка превращается 

в имена переменных

Import cell formattingимпортировать формат ячеек 

Нажмите ОК и сохраните файл под удобным для вас названием. Правда, получилось очень красиво?

2. Подсчет коэффициента корреляции Пирсона.

Коэффициент корреляции Пирсона можно посчитать так

Statistics  Basic Statistics/Tables Correlation Matrices

2.1 Загрузим этот модуль Statistics  Basic Statistics/Tables Correlation Matrices   Вы попадаете в окно, где можно задать различные условия подсчета коэффициентов корреляции

Закладка Quick:

Выбор переменных:

One variable list – задаем все переменные, которые нас интересуют, в результате получается квадратная матрица корреляций всех переменных со всеми

Two lists (rect. matrix) – задаем два списка переменных, в результате получается прямоугольная матрица корреляций.

Summary: Correlation matrix – кнопка, которую нажимаем в самом конце, когда все условия заданы. Она, как и кнопка Summary, служит для вычисления коэффициентов корреляции.

Scatterplot Matrix for selected variables – показывает матричную диаграмму рассеяния, по которой можно приблизительно оценить силу и направление связи.

Закладка Advanced/Plot:

Тут добавляются еще кнопки

- это кнопка, которая служит для сохранения корреляционной матрицы в виде файла данных программы STSTISTICA. Такая матрица может понадобиться вам для проведения каких-либо более сложных анализов.

2D Scatterp. – показывает диаграмму рассеяния с коэффициентом корреляции, регрессионной прямой и ее уравнением, а также доверительный эллипс

3D Scatterp. – показывает трехмерную диаграмму рассеяния и больше ничего.

Categ. Scatterp. – очень интересная диаграмма рассеяния, которая позволяет рассмотреть отдельно разные группы испытуемых (как пользоваться этой кнопкой, описано ниже)

Закладка Options (выбираем условия вычислений):

Display simple matrix (highlight p) – корреляционная матрица в самом компактном виде (значимые коэффициенты корреляции выделены красным цветом)

Display r, p-levels, and N’s – кроме коэффициентов корреляции приведены точные значения уровня статистической значимости для каждого коэффициента и число пар значений, использовавшихся для подсчета; информации больше, но вид у матрицы более громоздкий

Display detailed table of results – вывод результатов не в матричной форме; кроме коэффициентов корреляции посчитаны средние значения, стандартные отклонения, r2, регрессионные коэффициенты и др.

Display long variable names – при выводе результатов указывается длинное имя переменной (или формула, по которой вычислялась переменная), если оно было задано (задать длинное имя можно в том же окне, где и формулу для вычисления переменной: двойной щелчок мыши на название переменной)

Extended precision calculations – повышенная точность вычислений – стоит использовать это условие для «трудных» данных, когда одна или несколько переменных имеют очень маленькие относительные дисперсии (например, стандартное отклонение, деленное на среднее, меньше, чем 0,0000000000001)

Обратите внимание, что для всех закладок доступны следующие возможности:

MD deletion – обработка пропусков

Casewise – если помечено это условие, то из анализа исключаются все (!) испытуемые, у которых нет хотя бы одного показателя;

Pairwise – если помечено это условие, то испытуемые исключаются из анализа только тех коэффициентов корреляции, куда входят переменные, у которых не хватает значений

  1.  Посчитайте корреляционную матрицу для всех переменных, сначала пометив условие Casewise Deletion of MD, а затем Pairwise. Сравните получившиеся матрицы. Есть ли разница?
    1.  Теперь посчитайте корреляционную матрицу, отметив условие Display r, p-levels, and N’s. Найдите на матрице точные значения уровня статистической значимости коэффициента корреляции. Какой вид матрицы вам нравится больше?
    2.  Посчитайте корреляционную матрицу, отметив условие Detailed table of results. Попробуйте найти средние значения и стандартные отклонения для переменных PSYCHOL и FRIEND, а также коэффициенты регрессионной прямой.
    3.  Постройте диаграммы рассеяния для переменных PSYCHOL и FRIEND. Проверьте, есть ли на диаграмме выбросы (экстремальные значения). Попробуйте удалить такой выброс и заново построить диаграмму рассеяния. Что изменилось?
    4.  Постройте диаграмму рассеяния для всех остальных пар переменных. Оцените направление и силу зависимости. Найдите на графике регрессионную прямую и ее уравнение.
    5.  Определите, насколько вы станете лучше как психолог, если ваша самооценка улучшится на 1 балл.
    6.  Определите, как изменится размер вашей обуви, если вы вырастете еще на 10 см. А на сколько при этом изменится ваша «завимость-послушность» (значения по шкале 6 теста Лири)?
    7.  Проанализируйте зависимость между ростом и средним баллом. Определите, какой у вас будет средний балл в зимнюю сессию при вашем росте.
    8.  Можно ли предсказать средний балл по какой-либо шкале теста Лири?
    9.  Попробуем теперь, что дает кнопка Categ. Scatterp. (закладка Advanced/Plot). Для этого выберите только две переменные для подсчета коэффициента корреляции – PSYCHOL и FRIEND. Нажмите кнопку Categ. Scatterp. В появившемся окне опять выберите эти же переменные – одну справа, а другую слева. Нажмите ОК. Появится еще одно окно со списком всех переменных. Предположим, что мы хотим оценить связь между «психологией» и «дружбой» у тех, кто учится на 7, и тех, кто учится на 8. Поэтому в появившемся окне слева выберем переменную RATING. Нажмем на ОК и в появившемся маленьком окошке наберем интересующие нас уровни этой переменной – 7 и 8 через пробел или запятую. Нажмите на ОК и полюбуйтесь диаграммами рассеяния. Такие диаграмму удобно строить, например, для группы мужчин и для группы женщин, т.е. каждый раз, когда вы хотите рассмотреть связи в частях выборки.

  1.  Подсчет коэффициентов корреляции для шкал порядка.

Если данные у вас непаметрические, то следует считать другие коэффициенты корреляции. Их в программе STATISTICA целых три: Спирмена, Кендалла и G. Тау Кендалла эквивалентен коэффициенту корреляции Спирмена по вычислительной мощности, однако отличается от него по величине, потому что логика вычислений и формулы разные. Эти коэффициенты также имеют различные интерпретации. Коэффициент корреляции Спирмена может быть интерпретирован, как и коэффициент корреляции Пирсона, в терминах объясненной дисперсии (разброса данных). Тау Кендалла представляет собой вероятность, т.е. это разность между вероятностью того, что данные двух переменных упорядочены одинаково, и вероятностью того, что данные двух переменных упорядочены по-разному. Гамма (G) предпочтительнее коэффициентов Спирмена и Кендалла, когда данные имеют много связанных наблюдений (одинаковых). По интерпретации Гамма больше похожа на коэффициент корреляции Кендалла (это тоже вероятность)

Все эти коэффициенты корреляции можно посчитать в модуле

Statistics Nonparametric Statistics Correlations (Spearman, Kendall tau, gamma)

  •  

Загрузите этот модуль. Вы попадаете в окно, где можно задать различные условия подсчета коэффициентов корреляции:

  1.  Посчитайте корреляционную матрицу, используя коэффициент корреляции Спирмена. Определите значимость коэффициентов корреляции.
    1.  Сравните матрицу корреляций Пирсона с матрицей корреляций Спирмена. Какие коэффициенты больше по абсолютной величине? Какой коэффициент корреляции (параметрический или непараметрический) следует использовать для этих данных?
    2.  Посчитайте корреляционную матрицу, используя коэффициент корреляции Кендалла. Определите значимость коэффициентов корреляции. Сравните с матрицей коэффициентов Спирмена. Что изменилось?
    3.  Посчитайте корреляционную матрицу, используя коэффициент корреляции Гамма. Определите значимость коэффициентов корреляции. Сравните с матрицей коэффициентов Спирмена и Кендалла. Какой из непараметрических коэффициентов корреляции кажется вам наиболее подходящим?

4. Напишите отчет в MS Word, используя таблицы и графики, которые считаете нужными. Этот отчет должен представлять собой анализ и интерпретацию данных для курсовой работы

  •  Для отчета выберите подходящий коэффициент корреляции (Пирсона или Спирмена) и обязательно обоснуйте свой выбор.
  •  Если вы исключали из анализа какие-либо данные (например, выбросы), то это должно быть обязательно отмечено в отчете.
  •  Обязательно приведите в отчете корреляционную матрицу, укажите уровень статистической значимости коэффициентов
  •  Обязательно проинтерпретируйте все возможные коэффициенты корреляции. Попробуйте объяснить с психологической точки зрения получившиеся зависимости. Что можно сказать о взаимозависимости личностных и профессиональных качеств?

 

А также другие работы, которые могут Вас заинтересовать

42811. Мораль: понятие, источники, значение для Современной России 56.98 KB
  Особая роль принадлежит морали в формировании сознания, внутреннего мира и мировоззрения, активной жизненной позиции, мораль является важнейшим социальным регулятором, который входит в систему общественных отношений. Мораль имеет серьезное воздействие на развитие совершенствование многих сфер человеческой жизнедеятельности, поскольку она присуща всем сферам, где есть контакт между людьми.
42812. Расчет электродвигателя и его основных характеристик 351.05 KB
  Эквивалентное время работы Эквивалентное число циклов нагружения для колеса для шестерни Базовое число циклов нагружения для колеса для шестерни Коэффициенты долговечности: для колеса для шестерни Базовый предел контактной выносливости для колеса для шестерени Смотри Журнал лабораторных работ табл 11] Допускаемые контактные напряжения для колеса для шестерни SH=1. Эквивалентное время работы при HBср 350 Эквивалентное число циклов нагружения для колеса...
42813. Разработка конструкции и расчёт жатки зерноуборочного комбайна 666.66 KB
  Разработка и расчёт мотовила 4. Регулировка положения мотовила по высоте производится на ходу с помощью гидросистемы трактора. Технические характеристики: Пропускная способность кг с 55 Производительность т ч 72 Приспособления для уборки незерновой части урожая капот измельчитель универсальный измельчительразбрасыватель копнитель Жатка ширина захвата жатки м предварительные установки высоты среза мм скорость срезов ножа срезов мин частота вращения мотовила об мин 41 50 60 50 100 130 180 452 1542 Обмолот диаметр...
42814. Розрахунок електтродвигуна з заданими характеристиками 354.91 KB
  Зазвичай обирається електродвигун з потужністю, яка трохи більша, ніж потрібна. За потрібною потужністю електродвигуна та синхронною частотою обертання обираємо електродвигун з характеристиками, які наведено у таблиці
42815. Расчет электродвигателя мощностью 4000Вт 485.77 KB
  Мощность на выходном валу P= 4000Вт Скорость выходного вала V=1м с Термообработка зубчатого колеса улучшение HB 350 Время работы редуктора L = 15000ч Долговечность роликовых подшипников L10h = 25000ч Выбор электродвигателя. частота 2900 1455 970 730 D вала 42 48 48 55 По таблице выбираем ближайшую стандартную мощность электродвигателя Рэ. Частота вращения вала электродвигателя nвых= об мин где р – шаг резьбы винтовой передачи = 0. Определение частоты вращения валов: nт = nвых = 300об мин – частота вращения вала тихоходной...
42816. Розробка серії графічних елементів портфоліо, відео композиції, художньої графіки 460.5 KB
  Дипломна робота присвячена розробці дизайн проекту на основі розробки сайту, відео презентації, єлектроного та друкованого портфоліо за допомогою теоретичних знань та практичних навичок, які були набуті на протязі навчання з використанням комп’ютерної графіки та сучасних новітніх матеріалів.
42818. установочное приспособление для растачивания отверстия детали «Кронштейн» 1.14 MB
  Изучение закономерности влияния приспособления на точность и производительность выполняемых операций позволяет проектировать приспособления интенсифицирующее производство и повышающее его точность. Проводимая работа по унификации и стандартизации элементов приспособления создала основу для автоматизированного проектирования приспособлений с использованием ЭВМ и автоматов для графического изображения что приводит к ускорению технологической подготовке производства. неподвижная опора с плоской формой рабочей...
42819. Технологический процесс производства детали Вилка 8А67-20275 2.02 MB
  Технологический контроль чертежа детали и анализ детали на технологичность Определяем тип производства по коэффициенту закрепления операций. Определяем величину производственной партии = 1. Определяем массу заготовки: = ; 2. Определяем объем заготовки: = ; 2.