35432

Психодиагностика. ОБЩЕЕ ПОНЯТИЕ О ПСИХОМЕТРИИ И ОБЛАСТИ ЕЕ ПРИМЕНЕНИЯ

Шпаргалка

Психология и эзотерика

Под ВЫБОРКОЙ понимается случайным образом формируемое из генеральной или выборочной совокупности множество заданий или испытуемых. В совокупности сведений характеризующих валидность теста содержится информация об адекватности применяемой модели деятельности с точки зрения отражения в ней изучаемой психологической особенности о степени однородности заданий субтестов включенных в тест их сопоставимости при количественной оценке результатов теста в целом. для проверки нет ли упущений: преобразуйте этот список в перечень заданий...

Русский

2013-09-10

332.5 KB

23 чел.

Психодиагностика

Юнита 2.

1. ОБЩЕЕ ПОНЯТИЕ О ПСИХОМЕТРИИ И ОБЛАСТИ ЕЕ ПРИМЕНЕНИЯ

Психометрия - это математизированная технология создания стандартизированных измерительных психодиагностических методик.Она обосновывает требования, которым должны удовлетворять измерительные психодиагностические методы, процедуры и правила их разработки и применения.

В психологии, как и в других науках о человеке, особое место занимает вопрос о качестве информации, получаемой в процессе применения различных методов и средств. В этой связи могут быть выделены два вида параметров качества информации: объективные и субъективные.

Такое допущение вытекает из той особенности психологии, что источником информации в ней всегда является человек. Значит, не считаться с этим фактом нельзя и следует лишь обеспечить максимально возможный уровень надежности тех параметров, которые квалифицируются как “субъективные”. Конечно, ответы на вопросы теста или анкеты составляют “субъективную” информацию, но и ее можно получить в максимально полной и надежной форме, а можно упустить многие важные моменты, проистекающие из этой “субъективности”. Для преодоления ошибок такого рода и вводится ряд психометрических требований.

Данные требования в первую очередь касаются качества того инструмента (теста), посредством которого собираются данные. Психологический тест может быть охарактеризован как эффективный при условии, что он удовлетворяет определенным требованиям. Основные из них следующие:

- использование шкалы интервалов:

- надежность;

- валидность;

- дискриминативность:

- наличие нормативных данных (либо критериев, установленных экспертами).

2. Типы шкал

ШКАЛА это форма фиксации совокупности признаков изучаемого объекта с упорядочиванием их в определенную числовую систему.

Применение шкал связывается с необходимостью качественной и количественной оценки (с задачей последующего сравнения) определенных признаков и переменных. Признаки и переменные это измеряемые психологические явления. Такими явлениями могут быть время решения задачи,количество допущенных ошибок, уровень тревожности, показатель интеллектуальной лабильности, интенсивность агрессивных реакций, угол поворота корпуса в беседе, показатель социометрического статуса и множество других переменных.

Понятия признака и переменной могут использоваться как взаимозаменяемые. Они являются наиболее общими. Иногда вместо них используются понятия показателя или уровня, например уровень настойчивости, показатель вербального интеллекта и др. Понятия показателя и уровня указывают на то, что признак может быть измерен количественно, так как к ним применимыопределения “высокий” или “низкий”, например высокий уровень интеллекта, низкие показатели тревожности и др.

Значения признака определяются (измеряются) при помощи специальных шкал измерения. Под ИЗМЕРЕНИЕМ понимается процедура, с помощью которой измеряемый объект сравнивается с некоторым эталоном и получает числовое выражение в определенном масштабе или шкале. Существуют шкалы нескольких уровней, иерархически упорядоченных по сложности. Это следующие уровни, начиная с простейшего:

1. Номинативные шкалы (шкалы наименований)  это шкалы, классифицирующие по названию: потеп (лат.) имя, название. Название не измеряется количественно, оно лишь позволяет отличить один объект от другого. Это простейшая классификация испытуемых: мужчина/женщина - классификация по номинативной шкале.

Пример номинативной шкалы - дихотомическая шкала, состоящая всего из двух ячеек, например: “имеет братьев и сестер - единственный ребенок в семье”: “иностранец - соотечественник”: “проголосовал “за” проголосовал “против” и т.п. Признак, который изменяется по дихотомической шкале наименований, называется альтернативным. Он может принимать всего два значения.

Более сложный вариант номинативной шкалы - классификация из трех и более ячеек, например: “экстрапунитивные - интрапунитивные - импунитивные реакции”: “выбор кандидатуры А - кандидатуры Б - кандидатуры В - кандидатуры Г”: “старший средний - младший - единственный ребенок в семье” и др.

Расклассифицировав все объекты, реакции или всех испытуемых по ячейкам классификации, мы получаем возможность от наименований перейти к числам, подсчитав количество наблюдений в каждой из ячеек. Таким образом, НОМИНАТИВНАЯ ШКАЛА позволяет нам подсчитывать частоты встречаемости разных “наименований”, или значений признака, и затем работать с этими частотами с помощью математических методов.

Возможными операциями с числами для номинативной шкалы являются следующие:

- нахождение частот распределения по пунктам шкалы с помощью процентирования или в натуральных единицах:

- поиск средней тенденции по модальной частоте (модальной (Мо) называют группу с наибольшей численностью):

- установление взаимосвязи между рядами свойств, расположенных неупорядоченно (с этой целью составляются специальные таблицы, посредством которых, помимо простой процентовки, в них можно подсчитать критерий сопряженности признаков по Пирсону (Х2).

2. ПОРЯДКОВАЯ ШКАЛА это шкала, классифицирующая по принципу “больше - меньше”. Здесь субъекты ранжированы, например по весу или росту. В порядковой шкале должно быть не менее трех классов, например “положительная реакция - нейтральная реакция - отрицательная реакция” или “подходит для занятия вакантной должности • подходит с оговорками - не подходит”.

В порядковой шкале мы не знаем истинного расстояния между классами, а знаем лишь, что они образуют последовательность. Например, классы “подходит для занятия вакантной должности” и “подходит с оговорками” могут быть реально ближе друг к другу, чем класс “подходит с оговорками” к классу “не подходит”.

От классов легко перейти к числам, если мы условимся считать, что низший класс получает ранг 1, средний класс 2, а высший - ранг 3, или наоборот. Например, мы можем легко оценить различия между двумя выборками испытуемых по преобладанию у них более высоких или более низких рангов или подсчитать коэффициент ранговой корреляции между двумя переменными, измеренными в порядковой шкале, допустим, между оценками профессиональной компетентности руководителя, данными ему разными экспертами.

Под ВЫБОРКОЙ понимается случайным образом формируемое из генеральной или выборочной совокупности множество заданий или испытуемых.

Все психологические методы, использующие ранжирование, построены на применении шкалы порядка. Если предлагается упорядочить 18 ценностей по степени их значимости для испытуемого, проранжировать список личностных качеств социального работника или 10 претендентов на эту должность по степени их профессиональной пригодности, то во всех этих случаях испытуемый совершает так называемое принудительное ранжирование, при котором количество рангов соответствует количеству ранжируемых субъектов или объектов (ценностей, качеств и т.п.).

Однако, если у нас имеется всего 3 возможных класса и следовательно, 3 ранга, и при этом 20 ранжируемых испытуемых, то некоторые из них неизбежно получат одинаковые ранги. Все многообразие жизни не может уместиться в 3 градации, поэтому в один и тот же класс могут попасть люди, достаточно серьезно различающиеся между собой.

С другой стороны, принудительное ранжирование может искусственно преувеличивать различия между людьми. Кроме того, данные, полученные в разных группах, могут изначально различаться по уровню развития исследуемого качества, и испытуемый, получивший в одной группе высший ранг, в другой получил бы всего лишь средний.

Выход из положения может быть найден, если задавать достаточно дробную классификационную систему, скажем, из 10 классов, или градаций, признака. В сущности, подавляющее большинство психологических методик, использующих экспертную оценку, построено на измерении одним и тем же “аршином” из 10, 20 или даже 100 градаций разных испытуемых в разных выборках.

Итак, единица измерения в шкале порядка - расстояние в 1 класс или в 1 ранг, при этом расстояние между классами и рангами может быть разным (оно нам не известно).

При операциях с числами порядковой шкалы необходимо помнить, что интервалы в шкале не равны, поэтому числа обозначают лишь порядок следования признаков. И операции с числами - это операции с рангами, но не с количественным выражением свойств в каждом пункте.

Числа поддаются монотонным преобразованиям: их можно заменять другими с сохранением прежнего порядка (например, вместо ранжирования от 1 до 5 можно упорядочить тот же ряд в числах от 2 до 10 или от (-1) до (+1). Отношения между рангами останутся неизменными). Кроме этого, возможно использование модальных показателей, поиск средней тенденции с помощью медианы (Me), которая делит ранжированный ряд пополам.

Наиболее сильный показатель для таких шкал - корреляции рангов (по Спирмену - р или по Кендаллу - R). Ранговые корреляции указывают на наличие или отсутствие функциональных связей в двух рядах признаков, измеренных упорядоченными номинальными шкалами.

3. ИНТЕРВАЛЬНАЯ ШКАЛА – это шкала, классифицирующая по принципу “больше на определенное количество единиц - меньше на определенное количество единиц”. Шкала представляет собой полностью упорядоченный ряд с измеренными интервалами между пунктами, причем отсчет начинается спроизвольно выбранной величины. Каждое из возможных значений признака отстоит от другого на равном расстоянии.

Эквивалентные интервальные шкалы могут быть линейно преобразованы друг в друга, что позволяет приводить результаты тестирования к общим шкалам и таким образом осуществлять сравнение показателей. Более того, многие статистические процедуры предполагают измерения по шкале интервалов.

Главная трудность в построении таких шкал - обоснование равенства или разности дистанций между пунктами.

Можно предположить, что если мы измеряем время решения задачи в секундах, то это уже явно шкала интервалов. Однако на самом деле это не так, поскольку психологически различие в 20 секунд между испытуемым А и Б может быть отнюдь не равно различию в 20 секунд между испытуемыми Б и Г, если испытуемый А решил задачу за 2 секунды, Б - за 22, В - за 222, а Г - за 242.

Выход может быть найден путем перевода сырых баллов в единицы стандартного отклонения, при которых определенная часть результатов будет попадать в тот или иной отрезок, приравненный к различному уровню развития измеряемого свойства.

Для интервальной шкалы применимы линейные преобразования чисел, переход от одной шкалы к шкале другой дробности пунктов или точкой отсчета. Возможно вычисление коэффициента ранговой корреляции, а также коэффициента парной корреляции по Пирсону (r).

4. ШКАЛА РАВНЫХ ОТНОШЕНИЙ – это шкала, классифицирующая объекты или субъекты пропорционально степени выраженности измеряемого свойства. В отличие от интервальной шкалы она имеет значимую нулевую точку, которая не произвольна, а указывает на полное отсутствие измеряемого свойства.

В шкалах отношений классы обозначаются числами, которые пропорциональны друг другу, 2 так относится к 4, как 4 к 8.

Наличие нулевой точки проблема для большинства психологических переменных. Возможности человеческой психики столь велики, что трудно себе представить абсолютный нуль в какой либо измеряемой психологической переменной. Абсолютная глупость и абсолютная честность понятия скорее житейской психологии. То же относится и к установлению равных отношений: только метафора обыденной речи допускает, чтобы Иванов был в 2 раза (3, 10, 100) умнее Петрова, или наоборот.

Абсолютный нуль, правда, может иметь место при подсчете количества объектов или субъектов. Например, при выборе одной из 3 альтернатив испытуемые не выбрали альтернативу А ни разу, альтернативу Б - 14 раз и альтернативу В - 28 раз. В этом случае мы можем утверждать, что альтернативу В выбирают в два раза чаще, чем альтернативу Б. Однако при этом не измерено психологическое свойство человека, а соотношение выборов у 42 человек.

По отношению к показателям частот возможно применять все арифметические операции, сложение, вычитание, деление и умножение. Единица измерения в этой шкале отношений - наблюдение, выбор, реакция и т.п.

3. РАСПРЕДЕЛЕНИЕ ПРИЗНАКА. ПАРАМЕТРЫ РАСПРЕДЕЛЕНИЯ

РАСПРЕДЕЛЕНИЕМ называется закономерность встречаемости разных его значений. Статистическое распределение может иметь графическое представление в виде полигона частот (ломаной линии, соединяющей точки, соответствующие величинам частот, откладываемым по оси ординат). Форма распределения является некоторой обобщенной характеристикой выборки. Кривые распределения бывают одновершинные и многовершинные.

В психологических исследованиях чаще всего ссылаются на нормальное распределение. Нормальное распределение характеризуется тем, что крайние значения признака в нем ссылаются достаточно редко, а значения, близкие к средней величине достаточно часто.

Нормальным такое распределение называется потому, что оно очень часто встречалось в естественнонаучных исследованиях и казалось “нормой” всякого массового проявления признаков. Это распределение следует закону, открытому в разное время: Муавром в 1733 г. в Англии, Гауссом в 1809 г. в Германии и Лапласом в 1812 г. во Франции. График нормального распределения представляет так называемую колоколообразную кривую (верхняя часть колокола).

ПАРАМЕТРЫ РАСПРЕДЕЛЕНИЯ  это его числовые характеристики, указывающие, где в “среднем” располагаются значения признака, насколько эти значения изменчивы и наблюдается ли преимущественное появление определенных значений признака. Наиболее практически важными параметрами являются математическое ожидание, дисперсия, показатели асимметрии и эксцесса.

Среднее арифметическое (оценка математического ожидания) это обобщающий показатель положения уровня центра распределения. Оно вычисляется по формуле:

где хi каждое наблюдаемое значение признака:

i - индекс, указывающий на порядковый номер данного значения признака:

n - количество наблюдений;

- знак суммирования.

Дисперсия (S) характеризует средний разброс значений по выборке относительно среднего арифметического, возведенный в квадрат. На практике, однако, чаще используют другой показатель - стандартное отклонение (s) - представляющий собой квадратный корень из несмещенной оценки дисперсии.

В тех случаях, когда какие-нибудь причины благоприятствуют более частому появлению значений, которые выше или, наоборот, ниже среднего, образуются асимметричные распределения. Показатель асимметрии может быть положительным или отрицательным. При левосторонней, или положительной асимметрии, в распределении чаще встречаются более низкие значения признака, а при правосторонней, или отрицательной более высокие.

В тех случаях, когда какие-нибудь причины способствуют преимущественному появлению средних или близких к средним значений, образуется распределение с положительным эксцессом (Е). Если же в распределении преобладают крайние значения, причем одновременно и более низкие, и более высокие, то такое распределение характеризуется отрицательным эксцессом, и в центре распределения может образоваться впадина, превращающая его в двувершинное.

В нормальных распределениях Е и А равны нулю.

Кроме вышеназванных параметров, очень часто приходится оценивать и другие показатели:

а) медиана (Me) - центральное значение переменной: результат, находящийся в середине последовательности показателей, если их расположить в порядке возрастания или убывания;

б) мода (Мо) - наиболее часто встречающийся результат (самая высокая точка кривой распределения): в) размах распределения - разность между самым высоким и самым низким результатом:

г) корреляция - это связанные изменения двух переменных. Корреляция -связь между статистическими вариациями по различным признакам. Коэффициент корреляции - математический показатель силы связи между двумя сопоставляемыми статистическими признаками (при К=1 связь однозначна, при К= -1 связь обратно пропорциональна, при К=0 связи нет).

Связь отдельных переменных (или совокупности переменных) между собой может образовывать особые векторы, выступающие в роли особых оснований общности связи данных переменных. Данные векторы, или факторы, являются предметом многомерного статистического анализа - факторного анализа, позволяющего снижать размерность изучаемых признаков посредством определения (нахождения) общих факторных нагрузок между переменными.

Если фактор имеет нагрузки по всем переменным, он назывется генеральным (соответствует всем элементам рассматриваемого множества переменных). Общий фактор соответствует, по крайней мере, двум элементам множества переменных. Специфический фактор имеет нагрузку по одной переменной, групповой - на группу переменных. Ортогональные факторы факторы, которые не коррелируют между собой.

4. ХАРАКТЕРИСТИКИ ЭФФЕКТИВНЫХ ПСИХОЛОГИЧЕСКИХ ТЕСТОВ

4.1. Валидность

ОБОСНОВАННОСТЬ (ВАЛИДНОСТЬ) ИНСТРУМЕНТА - это его способность измерять именно те характеристики объекта, которые и нужно измерить. Психолог, строя какую-либо шкалу, должен быть уверен, что эта шкала измерит именно те свойства, например, установок индивида, которые он намеревался измерить.

Валидность (англ. valid действительный, пригодный, имеющий силу) -комплексная характеристика методики (теста), включающая сведения об области исследуемых явлений и репрезентативности диагностической процедуры по отношению к ним.

В наиболее простой и общей формулировке валидность теста это “...понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает”                   (А. Анастази, 1982). В стандартных требованиях к педагогическим и психологическим тестам валидность определяется как комплекс сведений о том, относительно каких групп психологических свойств личности могут быть сделаны выводы, а также о степени их обоснованности на основании конкретных тестовых оценок или других форм оценивания.

В психологической диагностике валидность - обязательная и наиболее важная часть информации о методике, включающая (наряду с указанными выше) данные о степени согласованности результатов теста с другими сведениями об исследуемой личности, полученными из различных источников (теоретические ожидания, наблюдение, экспертные оценки, результаты других методик, достоверность которых установлена и т.д.), суждение об обоснованности прогноза развития исследуемого качества, связь изучаемой области поведения или особенности личности с определенными психологическими конструктами.

Валидность описывает также конкретную направленность методики (для чего предназначена), область применения теста (характеристика методики, указывающая на особенности контингента испытуемых, для которых предназначен тест: возраст, уровень образования, социально-культурная принадлежность и т.д.), а также степень обоснованности выводов в конкретных условиях использования теста.

В совокупности сведений, характеризующих валидность теста, содержится информация об адекватности применяемой модели деятельности с точки зрения отражения в ней изучаемой психологической особенности, о степени однородности заданий (субтестов), включенных в тест, их сопоставимости при количественной оценке результатов теста в целом.

Валидность методики измеряется либо коэффициентом корреляции между результатами обследования и объективными критериями внешнего проявления того или иного качества, либо характеризуется различными показателями в полярных группах по какому-то измеряемому свойству.

Как видно из вышеизложенного, в понятие валидности входит большое количество самой разнообразной информации о тесте. Различные категории этих сведений и способы их получения образуют типы валидности.

ОЧЕВИДНАЯ (ВНЕШНЯЯ) ВАЛИДНОСТЬ - представление о тесте, сфере его применения, результативности и прогностической ценности, которое возникает у испытуемого или другого лица, не располагающего специальными сведениями о характере использования и целях методики.

Тест является валидным, если о нем складывается впечатление, что он измеряет именно то, что подразумевается, особенно с точки зрения испытуемых. Этот вид валидности никакого отношения не имеет к истинной валидности и важен постольку, поскольку помогает иногда установить сотрудничество с испытуемыми, считающих своим правом отказаться от обследования по причине, если предлагаемая им методика не обладает внешними признаками валидности.

КОНКУРЕНТНАЯ ВАЛИДНОСТЬ - характеристика теста, отражающая его способность различать испытуемых на основании диагностического признака, являющегося объектом исследования в данной методике. Оценивается по корреляции результатов данного теста с результатами других тестов, предназначенных для измерения той же самой переменной. Если уже имеются эффективные тесты для измерения определенного свойства, то связь с ними должна быть высока, и наоборот, с тестами, измеряющими совершенно другие свойства оцениваемый тест не должен иметь никакой корреляции.

Для эффективного изучения конкурентной валидности существует несколько правил:

- убедитесь, что выборка испытуемых отражает ту категорию лиц (популяцию), для которой данный тест предназначен;

- убедитесь, что выборки достаточно велики для получения статистически значимых корреляций, которые могут быть затем использованы в факторном анализе (минимальное количество испытуемых - 200 человек);

- используйте настолько широкое разнообразие других тестов данной переменной, насколько это возможно - чтобы убедиться, что корреляция получена благодаря близости групповых факторов, а не специфических;

- если используется факторный анализ, убедитесь, что получена простая структура;

- при обсуждении результатов четко объясняйте, какие корреляции и нагрузки факторов можно ожидать (что позволяет судить о психологическом значении результатов).

ПРОГНОСТИЧЕСКАЯ ВАЛИДНОСТЬ - информация о тесте, характеризующаястепень точности и обоснованности суждения о диагностируемом психологическом качестве по его результату спустя определенное время после измерения: чем выше тест может прогнозировать критерий, тем выше его прогностическая валидность.

Заключение об этом типе валидности может быть получено, например, путем сравнения корреляции тестовых оценок в одной и той же группе испытуемых спустя определенное время с некоторым критерием, характеризующим измеряемое свойство (например, корреляция показателей интеллекта одних и тех же испытуемых в 11 и 16 лет с успеваемостью). Основной проблемой здесь является выделение критерия предсказания (по отношению к которому произодится оценка корреляции тестовых оценок).

Компонентами прогностической валидности являются валидность инкрементная (практическая ценность методики при проведении отбора) и дифференциальная (способность методики дифференцировать испытуемых по отдельным областям проявления исследуемых свойств).

ДИФФЕРЕНЦИАЛЬНУЮ ВАЛИДНОСТЬ можно было бы показать (если взять пример об академической успеваемости) сравнением ее корреляции с различными академическими дисциплинами: значения корреляции должны значительно различаться. Таким образом, в общем для демонстрации дифференциальной валидности предполагается различие корреляций с различными аспектами данного критерия.

СОДЕРЖАТЕЛЬНАЯ ВАЛИДНОСТЬ - один из основных типов валидности, характеризующий степень репрезентативности содержания теста по отношению к измеряемой области. Если можно показать, что задания теста отражают все аспекты исследуемой области поведения, то тест является, по существу, валидным. Например, исследуя “речевую способность”, необходимо вводить в тест задания не только на чтение, но и, выявляющие навыки письма.

Практическими процедурами для определения содержательной валидности являются следующие:

а) для тестов достижений:

- укажите точно категорию лиц, для которых этот тест предназначен; определите навыки, подлежащие тестированию;

- передайте этот список экспертам в данной области (учителям и т.п.) для проверки, нет ли упущений:

- преобразуйте этот список в перечень заданий, используя, когда это возможно, равное количество заданий на каждый навык:

- представьте эти задания экспертам для проверки:

б) для других тестов:

- если существует литература с описаниями, просмотрите ее и преобразуйте описания, в особенности поведения;

- для каждой упомянутой особенности поведения сформулируйте ряд заданий;

-  когда литература с описаниями отсутствует, получите описания поведения от грамотных специалистов: например, для изучения зависимости инфантильных пациентов опросите их лечащих врачей и медицинских сестер с целью получить описание зависимого поведения их пациентов:

- преобразовать полученные описания в задания (вопросы, утверждения) для испытуемых:

- подвергните задания теста обычным процедурам конструирования (см. 5. “Основные требования по созданию надежных тестов”).

КОНСТРУКТНАЯ ВАЛИДНОСТЬ - характеристика теста, отражающая степень репрезентации исследуемого психологического свойства (конструкта) в результатах теста: чем больше результаты теста соответствуют теоретической гипотезе о природе измеряемой переменной, тем выше конструктная валидность теста.

Понятие конструктной валидности впервые было введено Cronbach и Meehl (1955). Чтобы продемонстрировать конструктную валидность, необходимо настолько полно, насколько это возможно, описать переменную (конструкт), для измерения которой предназначен этот тест.

Для обеспечения конструктной и содержательной валидности прежде всего должны быть правильно отобраны все пункты-задания теста из области заданий. Область заданий - это множество заданий, материал, подбираемый исследователем и являющийся исходным для формирования теста. В этом плане, чем точнее и полнее выражают эти пункты реальное качество (свойство, конструкт), тем больше вероятность приближения результатов теста к истинному показателю.

Истинный показатель может быть определен как показатель, который бы получил конкретный испытуемый, если бы ему были предъявлены все возможные задания из генеральной совокупности заданий, релевантных реальному оцениваемому свойству.

ГЕНЕРАЛЬНАЯ СОВОКУПНОСТЬ - это гипотетическое множество элементов, объединенных общей характеристикой - всех возможных заданий для выявления измеряемой черты или свойства (а также всего контингента испытуемых). Генеральная совокупность заданий как бы исчерпывает все возможные аспекты того свойства, которое подлежит оценке. При этом чем выше коэффициент корреляции определенного задания из теста с другими заданиями (в своей совокупности представляющих истинный показатель), тем выше вероятность и обоснованность включения именно этого задания в тест и тем меньше вероятная величина погрешности измерения.

Процедуры определения конструктной валидности:

- перечислите точно гипотезы, касающиеся переменных, с которыми данный тест должен коррелировать (конкурентная валидность):

- перечислите точно гипотезы, касающиеся переменных, с которыми данный тест не должен коррелировать:

- укажите группы, которые должны давать низкие и высокие показатели по данному тесту:

- сформулируйте гипотезу о месте данного теста в факторном пространстве. Валидность методов и методик имеет не абсолютный, а относительный характер, который состоит в ее отнесенности к тем условиям, в которых оценивалась валидность тестов.

При проверке валидности тестов следует исходить из того, что совершенно необходимо устанавливать ее по крайней мере на двух группах, так как корреляция теста и внешнего критерия может быть обусловлена специфичными для данной выборки факторами (выборочными изменениями) и не иметь общего значения. Проведение нескольких исследований с последующим анализом и обобщением данных является не только предпочтительным, но и необходимым.

4.2. Понятие надежности теста

НАДЕЖНОСТЬ ТЕСТА - характеристика методики, отражающая точность психодиагностических измерений, а также устойчивость результатов теста к действию посторонних случайных факторов. Общий разброс (дисперсию) результатов произведенных измерений можно представить как результат суммации двух источников разнообразия: самого измеряемого свойства и нестабильности измерительной процедуры, обусловливающей наличие ошибки измерения.

К числу таких факторов следует отнести:

- разнообразие внешних материальных условий тестирования, меняющихся от одного испытуемого к другому (время суток, освещенность, температура в помещении, наличие посторонних звуков, отвлекающих внимание и т.п.);

- динамичные внутренние факторы, по разному действующие на разных испытуемых в ходе тестирования (время так называемой “врабатываемости” выхода на стабильные показатели темпа и точности действий после начала тестирования, скорость утомления и т.п.);

- информационно-социальные обстоятельства (различная динамика в установлении контакта с психологом или лаборантом, проводящим тестирование, возможное наличие других людей в помещении, наличие предыдущего опыта знакомства с данным тестом, наличие какого-то знания и отношения к тестам вообще и т.п.).

Разнообразие и изменчивость этих факторов обусловливают появление у испытуемых непрогнозируемого по размерам и направлению отклонения измеренного тестового балла от истинного тестового балла (который можно было бы в принципе получить в идеальных условиях). Средняя относительная величина этого отклонения определяется как “стандартная ошибка измерения” (Se). Величина ошибки измерения указывает на уровень неточности или ненадежности тестовой шкалы.

Ошибка измерения (Se) и надежность измерения (R), согласно общепринятой психометрической теории, связаны следующей формулой: R = 1 - Se2/Sx2, где Sx - дисперсия тестовых показателей X. В психометрии термин “надежность” имеет два значения. Тест называется надежным, если он является внутренне согласованным, а также, если он дает одни и те же показатели для каждого испытуемого при повторном тестировании.

Надежность при повторном тестировании по прошествии времени называется ретестовой надежностью. Способ измерения ретестовой надежности очень прост. Для этого надо вычислить коэффициент корреляции показателей для выборки испытуемых, протестированных в двух случаях. Наименьшим удовлетворительным значением для ретестовой надежности является 0,7. Существует два пути вычисления ретестовой надежности: с применением одного и того же теста и с применением двух взаимозаменяемых форм данного теста одним и тем же испытуемым.

Однако на практике довольно трудно обеспечить идентичность характеристик задания. Недостатком применения одного и того же теста является то, что испытуемые помнят свои ответы (если тестирование проводят спустя непродолжительное время). Если же тестирование провести через значительное время, то это уже будут “не те” испытуемые.

Внутренняя согласованность - это характеристика теста, указывающая на степень однородности состава заданий с точки зрения измеряемого качества. Однородность, в свою очередь, характеризует степень соответствия всех заданий измеряемой черте или свойству (определяется как средняя корреляция между заданиями теста). Измерение надежности теста по внутренней согласованности представляет собой коррелирование параллельных форм теста (четная и нечетная половины теста).

Источники неудовлетворительной надежности:

1. Субъективное оценивание. Субъективное оценивание является общим источником ошибок. При таком оценивании допускаются различия между результатами различных экспериментаторов и между результатами работы одного и того же экспериментатора в разных случаях. Решением этой проблемы будет использование только тех типов заданий, результаты выполнения которых могут быть обработаны объективно. При использовании таких типов заданий источником неудовлетворительной надежности может стать только случайная ошибка при подсчетах.

2. Угадывание. Влияние угадывания испытуемыми правильного ответа снижается с увеличением общего количества заданий теста.

3. Понятные задания. Использование понятных недвусмысленных заданий улучшает надежность тестов.

4. Величина теста. Чем длиннее тест, тем он надежнее. Для удовлетворительной надежности достаточно заданий.

5. Инструкции к тесту. Инструкции к тесту должны быть недвусмысленными и понятными. При помощи инструкций можно легко изменить уровень трудности заданий.

6. Неудовлетворительная ретестовая надежность. Ошибки, допускаемые при проведении повторного тестирования (изменения в условиях тестирования, вариации в самочувствии испытуемых и пр.), обычно являются источником неудовлетворительной ретестовой надежности.

7. Другие источники ошибок. Обычно к ним относят состояния испытуемых, которые могут являться причиной неудовлетворительной надежности теста.

4.3. Дискриминативность

ДИСКРИМИНАТИВНОСТЬ - это способность отдельных заданий теста и теста в целом дифференцировать обследуемых относительно “максимального” и “минимального” результатов теста. Дискриминативность измеряется показателем дельта Фергюсона и принимает максимальное значение при равномерном (прямоугольном) распределении показателей (d = 1).

Точность информации измеряется тем, насколько дробной шкалой являются применяемые метрики, или другими словами, насколько чувствителен инструмент. Таким образом, это степень приближения результатов измерения к истинному значению измеряемой величины.

Конечно, каждый исследователь должен стремиться получить наиболее точные данные. Однако создание инструмента, обладающего нужной степенью точности, в ряде случаев достаточно трудное дело. Всегда необходимо решить, какая мера точности является допустимой. При определении этой меры исследователь включает и весь арсенал своих теоретических представлений об объекте.

При помощи тщательного конструирования теста можно обеспечить соответствующий уровень дискриминативности, а это именно то, в чем тесты значительно выигрывают по сравнению с другими формами испытаний. В общем было обнаружено, что в оценке может быть использовано около девяти градаций, а в опросах, вероятно, наиболее эффективно использовать 3 (или пять) градации: ниже среднего, средний уровень и выше среднего. Подобно этому, шкалы ранжирования редко содержат более девяти градаций. Это означает, что испытуемые разбиваются в лучшем случае на девять групп.

Как видно из обсуждения проблемы, все вышеперечисленные требованияк методикам взаимосвязаны между собой. Нарушение одного требования сводит на нет и другое: скажем, данные могут быть обоснованны, но не устойчивы. В психологическом исследовании такая ситуация может возникнуть тогда, когда проводимое тестирование оказалось ситуативным, т. е. время его проведения могло играть определенную роль, и в силу этого возник какой-то дополнительный фактор, не проявляющийся в других ситуациях. Другой пример, когда данные могут быть устойчивы, но не обоснованны (если, предположим, весь тест вследствие слабого отбора пунктов оказался смещенным, то одна и та же картина будет повторяться на длительном отрезке времени, но картина-то будет ложной).

Многие исследователи отмечают, что все способы проверки информации на надежность недостаточно совершенны. Кроме того, Р.Пэнто и М. Гравитц, например, справедливо замечают, что работают эти способы только в руках квалифицированного специалиста. В руках неопытных исследователей проверка “дает неточные результаты, не оправдывает заложенного труда и служит основой для несостоятельных утверждений”.

Требования, которые считаются элементарными в исследованиях других наук, в психологии обрастают рядом трудностей в силу прежде всего специфического источника информации.

Какие же характерные черты такого источника, как человек, осложняют ситуацию?

Прежде чем стать источником информации, человек должен понять вопрос, инструкцию или любое другое требование психолога. Но люди обладают различной способностью понимания. Следовательно, уже в этом пункте исследователя поджидают различные неожиданности.

Далее, чтобы стать источником информации, человек должен обладать ею, но ведь выборка испытуемых не строится с точки зрения подбора тех, кто информацией обладает, и отвержения тех, кто ею не обладает (ибо, чтобы выявить это различие между испытуемыми, опять-таки надо проводить специальное исследование).

Следующее обстоятельство касается свойств человеческой памяти: если человек понял вопрос, обладает информацией, он еще должен вспомнить все то, что необходимо для полноты информации. Но качество памяти - вещь строго индивидуальная, и нет никаких гарантий, что в выборке испытуемые подобраны по принципу более или менее одинаковой памяти.

Есть еще одно важное обстоятельство: человек должен дать согласие выдать информацию. Его мотивация в этом случае, конечно в определенной степени, может быть стимулирована инструкцией условиями проведения исследования, но все эти обстоятельства не гарантируют согласия испытуемых на сотрудничество с психологом.

4.4. Достоверность теста

Особой разновидностью валидности является достоверность, которая требует специальных усилий и процедур по ее обеспечению. Речь идет о сознательных или бессознательных искажениях, которые вносит в тестовые результаты сам испытуемый, руководствуясь в ходе теста особой мотивацией, отличающейся от той, которая присуща ему в реальном поведении.

Способность теста защищать информацию от мотивационных искажений и есть достоверность теста. Особенно остро эта проблема стоит в случае тест-опросников, которые допускают больше свободы в выборе испытуемым любого варианта ответа.

Типичный прием обеспечения достоверности - наличие в тест-опросниках шкал лжи. ШКАЛА ЛЖИ - это шкала, состоящая из вопросов, касающихся незначительных проступков, которые совершаются большинством людей. Эти шкалы основываются главным образом на феномене социальной желательности - стремлении испытуемых давать в ходе тестирования социально одобряемую информацию. Если испытуемый набрал по шкале лжи балл выше критического, то его протокол объявляется недостоверным и ему предлагается либо выполнить данный тест еще раз более откровенно, либо выполнить другой тест. Многие более специфичные “ловушки”, направленные на измерение достоверности, часто входят как компонент в структуру конкретного теста.

Достоверность тестирования тесно связана со степенью доверительности общения с психологом. Здесь принято различать две диагностические ситуации: консультативную (ситуация клиента) и аттестационную (ситуация экспертизы). В первом случае испытуемый участвует в тестировании на добровольной основе и сам заинтересован получить рекомендации по результатам тестирования (например, в профконсультации). Во втором случае тестирование проводится по инициативе педагога или администрации, психолога, родителей, т.е. других лиц, и эти другие больше заинтересованы в результатах, чем сам испытуемый.

Понятно, что в аттестационной ситуации вопрос о достоверности особенно актуален. И опросники, не снабженные шкалами лжи, использовать в таких ситуациях бесполезно. Наоборот, в ситуации клиента могут быть использованы методики, на которые испытуемый заведомо будет отвечать некорректно в ситуации экспертизы.

5. СТАНДАРТИЗАЦИЯ И НОРМЫ

5.1. Виды норм

Дальнейшая характеристика эффективных тестов - это наличие нормативных данных. Нормы - это множество показателей из четко определенных выборок, а разработка и процедуры получения этих показателей составляют процесс стандартизации теста.

В психодиагностике принято различать два вида норм: статистические и социокультурные. Первый вид чаще применяется для оценки стилевых и мотивационных черт, второй вид - для оценки способностей и достижений. Статистическая норма – это средний показатель значений измеряемого свойства (область, прилегающая к центральной линии на профиле). Нормой здесь считается близость значения свойства к тому уровню, который характеризует статистически среднего индивида. Значимое отклонение от нормы в этом случае (т.е. выход за пределы среднего диапазона) называется акцентуацией, а данная личностная черта называется акцентуированной.

Другой вид норм - социокультурный норматив - это уровень свойства, который явно или неявно считается в обществе необходимым.

Нормы позволяют использующему тест адекватно интерпретировать показатели, которые он получает от индивидуумов, и сравнивать отдельные показатели между собой. Применение тестовых норм в психодиагностике основывается на переводе тестовых баллов из “сырой” шкалы в “стандартную”. Эта процедура называется стандартизацией тестового балла.

5.2. Понятие о выборке

Выборка испытуемых, на которой определяются статистические нормы, называется ВЫБОРКОЙ СТАНДАРТИЗАЦИИ. Ее численность, как правило, должнабыть не меньше 200 человек (т.е. столько человек должно принять участие в эксперименте по определению тестовых норм - эксперименте по стандартизации теста). Достаточно большое количество испытуемых необходимо для того, чтобы обеспечить представительность, или репрезентативность. РЕПРЕЗЕНТАТИВНОСТЬ - это свойство выборочной совокупности представлять характеристики генеральной совокупности. Ту выборку, которая соответствует данному требованию, называют репрезентативной выборкой.

Различие характеристик выборки и генеральной совокупности называют ошибкой репрезентативности.

Систематические ошибки возникают, когда исследователь неправильно построит выборку, когда она не будет отражать качества генеральной совокупности. Например, на основе проведенного телефонного опроса сообщить, что большая часть избирателей думает так-то. Но ведь телефоны имеет определенная часть населения. Также, как и телевизор тоже смотрит вполне определенная категория людей. Систематические ошибки устраняются изменением способа формирования выборки.

Случайные ошибки присутствуют всегда, при любом тестировании, они определяются вероятностными законами, особенностями измерительных шкал, количеством испытуемых и поэтому поддаются оценке. Любая выборка имеет определенный уровень репрезентативности, оцениваемый уровнем случайной ошибки (ошибки репрезентативности).

То, насколько выборка стандартизации позволяет применять тест на широкой популяции, называется репрезентативностью тестовых норм (под популяцией обычно понимают категорию испытуемых определенной социальной, профессиональной или половозрастной принадлежности).

Например, если тест проходил стандартизацию на студентах, то перед его применением на школьниках следует вначале провести рестандартизацию, то есть снова собрать тестовые нормы на представительной выборке, сформированной именно из школьников. В противном случае диагностические выводы будут производиться по неадекватным тестовым нормам и будут неточны и неверны.

5.3. Стандартизация теста

Методику, отвечающую требованиям валидности, надежности и дифференцированности, необходимо стандартизировать относительно выборки, на которой ее будут применять, т.е. необходимо разработать свои диагностические шкалы.

Стандартизация “сырых” психологических показателей по какой-либо из методик осуществляется их преобразованием в стандартную шкалу: процентили, Z-оценки (х=0:  =1), Т-оценки (х=50:  =20) - стобалльную (от 1 до 100), стэны (х=5,5: =2) - десятибалльную (от 1 до 10), станайны (х=5,  =2) - девятибалльную (от 1 до 9), десятибальную (х=5;  =2) - от 0 до 10 или другую, что дает возможность сравнения оценок, полученных испытуемыми при обследовании по одной из методик или оценок одного испытуемого по нескольким методикам.

Наименее удобными являются процентили и Z-оценки, т.к. первые не сохраняют распределение первичных показателей и сводят их к прямоугольному, а вторые - имеют отрицательные значения и дроби. Остальные шкалы являются нормально распределенными оценками. Использование той или иной шкалы зависит от размаха распределения первичных показателей. Например, если опросник содержит 200 вопросов, то перевод “сырых” баллов в стэны будет являться сильным “ужатием”, что крайне неоправданно. Надо всегда стремиться к соразмерности “сырых” и стандартных баллов.

Переход от одной шкалы к другой или разработка новых шкал осуществляется через накопленную частоту или среднее арифметическое (х) и стандартное отклонение ().

Простейшая линейная стандартизация тестового балла производится по формуле:

:

где Z - стандартный балл на так называемой шкале Z (с центром 0 и отклонением 1), Х - сырой балл по тесту, Хср. - средний балл по выборке стандартизации, Sх - стандартное отклонение по выборке стандартизации.

После получения стандартного балла Z можно перевести тестовый балл в любую стандартную тестовую шкалу, принятую в психодиагностике. Например, перевод в шкалу IQ переводится по формуле.

IQ = Z..15 + 100.

Напомним, что в шкале IQ центр равен 100, а отклонение равно 15. Если перевод требуется в шкалу “стэнов” (от английского “standard ten” - стандартная десятка), то формула пересчета из шкалы Z выглядит так:

Sten = Z..2 + 5.5,

так как в шкале стенов центр равен 5.5, а отклонение равно 2.

Обобщенная формула перевода сырого балла в заданную стандартную шкалу имеет вид:

Y = Ss  Z+М,

где Y - стандартный балл по произвольной шкале с центром М и отклонением Ss.

Для серьезных профессиональных тестов вместо линейной стандартизации используется более сложная процедура нелинейной нормализации (форсированный переход к нормальному распределению). В результате этой более точной процедуры тест, как правило, снабжается “конверсионной таблицей” для перевода сырых баллов в стандартные баллы по заданной шкале. В ней приводится полный перечень соответствий между интервалами сырой шкалы и интервалами стандартной.

После того, как балл по тесту стандартизирован, можно выносить диагностическое заключение. Общее правило таково: если стандартный балл Y превышает единицу “верхней” (или “высокой”) группы M+Ss, то данному испытуемому приписывается повышенное значение измеренного психического свойства. Например, про ученика говорят, что он является определенно более дисциплинированным, чем средний ученик в российской школе. Если же стандартный балл Y ниже границы “нижней” (“низкой”) группы M-Ss, то о данном испытуемом формулируется заключение, соответствующее низкому полюсу измеряемого свойства. Если мы имеем дело с биполярным (двухполюсным) психическим свойством, например “гибкость - ригидность”, то для “высокой” группы формулируется заключение как для “гибких” людей, а для “низкой” группы - как для ригидных людей. Соответственно средняя группа из центрального интервала признается нейтральной, неполяризованной по данному тестовому параметру.

Проверка репрезентативности тестовых норм осуществляется с помощью анализа так называемого распределения частот тестовых баллов. Одним из простейших методов является проверка нормальности этого распределения. Более сложный и универсальный подход предполагает сравнение двух распределений, построенных для двух случайных половин выборки стандартизации. Если два этих распределения оказываются практически тождественными, то можно говорить о репрезентативности тестовых норм.

Введение понятия репрезентативности позволяет дать более строгое определение того, что такое стандартизация теста. О стандартизации теста в строгом смысле можно говорить, когда задана полная таблица соответствия сырой шкалы и стандартной шкалы и содержание этой таблицы обосновано статистической процедурой распределения тестовых баллов на выборке стандартизации.

Кроме статистических тестовых норм, в современных тестах часто используются критериальные нормы. Они особенно важны для сферы образования. При построении так называемого “теста по критерию” шкала сырых тестовых баллов калибруется особыми реперными точками, которые соответствуют уровням рассчитанной вероятности достижения какого-то критерия (заданной эффективности деятельности).

Например, если оператор АЭС был точен в 45 из 48 процентов заданий, то это может еще и не соответствовать требуемому уровню критериальной “надежности оператора” (в данном случае “надежность” - измеряемое свойство), а вот если он был точен в 47 из 48 заданий, то это может считаться достаточным уровнем “надежности”. Таким образом, при построении диагностических заключений по критериальным тестам мы интересуемся не степенью отклонения балла от центра шкалы, а достижением или недостижением какого-то критического уровня на шкале.

Результаты, отличающиеся от нормального распределения, переводят в стандартную шкалу через процент распределения. При этом их количество должно быть достаточно большим (по крайней мере больше 100).

Например, методику необходимо стандартизировать в 10-балльную шкалу (от 0 до 10) со средним 5 и стандартным отклонением 2. Для этого протестировали 300 человек.

Расчет шкалы производится следующим образом: из всего массива абсолютных показателей (“сырых” баллов) выделяется 0,9% самых лучших и 0,9% самых худших показателей и им присваиваются соответственно баллы 10 и 0. Затем из оставшихся выделяется по 2,8% лучших и худших результатов и соответственно присваиваются баллы 9 и 1 и т.д.

Для перевода сырых показателей в стандартизированные баллы используют также сигмальную шкалу, когда высокому, среднему и низкому уровням выраженности оцениваемого свойства соответствует область значений, находящихся в интервалах больше или меньше Хср.+  (высокий и низкий уровни), а также в пределах этого интервала (средний уровень).

6. ОСНОВНЫЕ ТРЕБОВАНИЯ ПО СОЗДАНИЮ НАДЕЖНЫХ ТЕСТОВ

6.1. Разработка заданий

Разработка заданий является важным элементом, обеспечивающим надежность создаваемого теста. Инструкции для испытуемых должны быть настолько простыми и понятными, насколько это возможно. Если они будут сложными, некоторые испытуемые не смогут их понять, что отрицательно отразится на полученных результатах. В этом плане полезным является использование примеров или простейших заданий, позволяющих удостовериться, что инструкция понята правильно.

6.2. Форма и содержание заданий

Основными видами заданий, используемых в большинстве тестов являются: задания на аналогии (форма заданий тестов интеллекта, в которой испытуемый должен выявить отношение аналогии между парами элементов (слов, наименований, цифр, изображений и пр.);

- задания-последовательности (требуется на основе предварительного выделения сходства и различия объектов, отношений между ними продлить стимульный ряд с числовым, графическим, вербальным и т.п. материалом, т.е. завершить последовательность элементов);

- задания на исключение лишнего (форма заданий тестов интеллекта, в которой испытуемый должен выявить общую закономерность для списка элементов и устранить лишний для этой закономерности элемент, у которого этой общей характеристики нет);

- задания с несколькими вариантами выбора (задание, состоящее из двух частей: утверждение и варианты выбора, один из которых правильный, а остальные (являющиеся дистракторами) - нет.

Дистракторами называются варианты ответов, близкие к правильному. Из данных вариантов испытуемые должны выбрать правильный ответ. Преимуществами является возможность высокой надежности каждого задания, легкость вычисления показателей. Недостаток - возможность угадывания);

- альтернативные задания (форма задания, содержащего некоторое утверждение, которое испытуемый должен оценить как истинное или ложное и дать ответ “да” или “нет”);

- задания на восстановление соответствия (форма заданий, в которых испытуемому предлагается восстановить соответствие между элементами двух списков).

- задания со свободным ответом (форма заданий, в которых на ответы не накладываются никакие ограничения, однако при корректной формулировке заданий предполагается наличие только одного правильного ответа. Например: “Что измеряется стандартным отклонением?”);

- задания с ограниченным ответом (форма заданий, в которых испытуемые должны давать ответы, возможности формулирования которых соответствующимобразом ограничены. “Стандартное отклонение измеряет ...).

Содержание заданий зависит от того, какие теоретические положения являются определяющими для психолога в понимании природы изучаемых явлений. Процедура их составления состоит в переводе предварительно выделенных признаков изучаемого свойства на язык заданий для испытуемого. При этом могут применяться как прямые, так и косвенные вопросы-задания, направленные на предупреждение установки на социально одобряемый ответ.

При принятии решения, какой тип задания использовать, следует помнить о влиянии специфических факторов. Если тест состоит из заданий одного типа, возникает опасность влияния некоторого специфического фактора, связанного с этой частной формой задания.

Кроме этого, источником ошибок при тестировании часто является утомление, которое наступает при работе с тестами, требующими необходимых усилий по концентрации, сосредоточению внимания на заданиях одного типа. В этом плане целесообразным будет включение в тест заданий различного типа.

Существует несколько правил для выбора и упорядочивания заданий при испытаниях теста:

1. Располагать задания каждого типа вместе. Это дает возможность испытуемым приспособиться к данному типу заданий, а, следовательно, достаточно понимания одной части инструкции для множества заданий.

2. Располагать задания в порядке трудности. Это предотвратит случаи, когда слишком старательный испытуемый тратит все свое время (или слишком много времени) на задания, которые он не может решить и, таким образом, лишает себя возможности попытаться выполнить другие, по которым он мог бы получить баллы, а в результате все формы анализа заданий будут неточными.

3. В рамках ограничений ( 1 ) и (2) располагать материал настолько случайно (произвольно), насколько это возможно. Это снижает монотонность и связанное с ней утомление.

4. Не комплектовать вместе такое количество заданий, что среднему испытуемому для их выполнения требуется более полутора часов (для взрослых). Для детей период сосредоточения в тестах способностей должен быть более ограниченным.

5. Чтобы убедиться, сколько времени требуется на выполнение заданий теста, дать указание испытуемым отмечать, какое задание теста они выполняют в различные моменты времени в процессе тестирования.

6. Предотвращение случайного угадывания. Следует выбирать ту форму заданий, которая сокращает вероятность случайного угадывания правильных ответов настолько, насколько это возможно.

7. Отношения между заданиями. Необходимо следить за тем, чтобы форма задания (варианты выбора или списки для восставновления соответствий) не содержали в себе или не раскрывали ответы на другие задания.

8. Если задания выглядят в равной степени эффективными, выбирать тот тип заданий, который менее всего представлен.

Для того, чтобы задание было эффективным (а, следовательно, и весь тест), необходимо соблюдать следующие правила их формулировки:

1. Простота. Задание должно быть настолько простым, насколько это возможно для его точного понимания. Нежелательно, чтобы на результаты оказывали влияние уровень словарного запаса испытуемого или его общие способности.

2. В заданиях с несколькими вариантами выбора все дистракторы (неверные варианты ответов) должны быть такими, чтобы каждый из них мог привлечь внимание испытуемых (то есть быть “похожими” на правильный ответ). Таким образом, при оценивании заданий каждый дистрактор должен в идеале в равной мере использоваться всеми испытуемыми, не выполнившими задание правильно. В то же время необходимо убедиться, что предложенные дистракторы не вводят в заблуждение лучших испытуемых.

3. Только один вариант ответа из предложенного набора должен соответствовать правильному ответу. Иногда различные взгляды на одну и ту же проблему могут привести к непредусмотренному ответу, который тоже будет правильным.

4. Ответ на один вопрос не должен давать ключа к ответам на другие. То есть не следует использовать дистракторы из одного задания в перечне других.

5. Избегайте тестировать тривиальное ввиду простоты его обнаружения.

Для анализа заданий существенными являются два показателя: а) доля испытуемых, давших ключевые (т.е. совпадающие с ключом) ответы; б) величина корреляции заданий с общим показателем.

Анализ заданий при вычислении вручную предполагает использование специальных таблиц (таблицы Фэна). Процедура анализа заданий состоит из следующих шагов:

1. Отобрать 27% лучших (группа Н) и 27% худших (группа L) испытуемых по каждому тесту.

2. Для каждого задания подсчитать долю испытуемых из группы Н, давших правильный (ключевой) ответ: Рн.

3. Сделать то же самое для группы L: Рl.

4. Для каждого задания посмотреть таблицы Фэна, которые для каждой возможной комбинации Ph и Рl дают приближенную оценку Р и коэффициента точечно-бисериальной корреляции rрbis (коэффициент корреляции между заданием и общим показателем), - на пересечении строк и столбцов: каждая строка соответствует значению Ph, а каждый столбец - значению Рl.

В дальнейшем при отборе заданий необходимо ориентироваться на следующие критерии:

- величина теста (не менее 20-30 заданий);

- по содержанию вопросы должны охватывать разнообразные аспекты оцениваемого свойства;

- корреляция заданий с общим показателем не должна быть меньше 0,2;

- уровень трудности заданий (зависит от цели и характера теста и должен обеспечивать оптимальную дискриминативность заданий, позволяющих выявлять различия между испытуемыми);

- коэффициент надежности должен быть не менее 0,7.

6.3. Требования к выборке

Требования к выборке становятся актуальными при проведении психологических исследований, когда получаемые результаты и выводы в дальнейшем планируется распространить на генеральную совокупность, а также в случае необходимости получения статистически достоверных результатов.

В зависимости от характера исследования может применяться тот или иной тип выборки:

1. Простая случайная. Из однородной совокупности, все элементы которой известны и могут быть пронумерованы, осуществляется отбор единиц выборки с помощью таблиц случайных чисел.

2. Систематическая. Для ее определения необходим полный список единицгенеральной совокупности. В выборку отбирается по одному объекту через интервал, равный шагу отбора, - отношению объема генеральной совокупности к объему выборки.

3. Гнездовая. Выборочные единицы отбираются с помощью одного из способов случайного отбора. Единицы отбора представляют собой статистические группы (гнезда), которые целиком или выборочно подвергаются обследованию.

4. Стратифицированная районированная выборка. Исследуемая совокупность предварительно разделяется на страты (слои) в соответствии с генеральным распределением известных и значимых для исследования признаков.

а) Пропорциональное размещение - объем выборки из страты пропорционален размеру страты в генеральной совокупности.

б) Оптимальное размещение - объем выборки из страты пропорционален в страте среднеквадратичному отклонению признака и обратно пропорционален издержкам на получение выборки.

5. Многоступенчатая. Процедура построения выборки разбивается на ряд этапов (ступеней). На каждой ступени меняется единица отбора.

а) Случайная - на каждой ступени единицы отбираются одним из способов случайного отбора.

б) Комбинированная - отбор на каждой из ступеней может осуществляться любым из вышеописанных способов.

6. Квотная. Производится разбиение генеральной совокупности на классы согласно нескольким распределениям выбранных признаков. На основе знания статистического объема каждого класса и заданной доли отбора из него определяется “квота” - объем выборки соответствующего класса.

Важнейшим требованием к качеству выборки является обеспечение ее репрезентативности. Требование репрезентативности выборки означает, что по выделенным параметрам (критериям) состав выборки обследуемых должен приближаться к соответствующим пропорциям в генеральной совокупности. Между тем, строго репрезентативную выборку по всем важным для проблематики исследования параметрам обеспечить невозможно и поэтому следует гарантировать репрезентацию по главному направлению анализа данных.

Прежде всего надо уяснить, какие из имеющихся сведений о характеристиках генеральной совокупности существенны для целей исследования. Во многих случаях - это половозрастной и социально-профессиональный состав обследуемых, их пространственная локализация.

6.3.1. Пол испытуемых

Половозрастная структура “замыкает” на себя многие показатели семейного состояния. При конструировании заданий для теста необходимо учитывать, что весьма вероятны различия в ответах на них в зависимости от пола испытуемых. Так, обычно при выполнении тестов способностей детьми до 16 лет девочки демонстрируют превосходство в словесно логических навыках, а мальчики - в работе с цифрами. Вероятнее всего, что задания из этих областей будут иметь различные статистические оценки. Различия испытуемых по полу обнаруживаются во многих заданиях личностных тестов, например тех, которые касаются интереса к одежде, спорту, своей внешности, вождению автомобиля, рисованию, верховой езде.

Одним из решений этой проблемы было бы разделить мужчин и женщин на отдельные выборки, а затем отобрать задания, удовлетворяющие критериям процедуры анализа заданий для обеих групп. Хотя при этом возникают некоторые трудности.

Первая проблема состоит в том, что, хотя задания почти всегда могут быть сформулированы так, что они пройдут процедуру анализа (с корреляцией задание/ общий показатель 0,2 и долей Р ответивших в соответствии с ключом испытуемых в пределах от 0,2 до 0,8) в обеих группах, даже для эффективных заданий эти оценки могут быть не идентичными. Особенно важным здесь является коэффициент Р, так как если он всегда больше, скажем, для мужчин, чем для женщин на большом количестве заданий, то это может привести к влиянию пола испытуемых на результаты тестирования.

Вторая проблема является более фундаментальной. Если мы отберем задания, получившие в процедуре их анализа одинаковые оценки для мужчин и для женщин, мы фактически создадим тест, на результаты которого пол испытуемых не влияет. С другой стороны, мы могли бы отобрать задания, по которым женщины показывают более высокие результаты. Каково, однако, значение такой идентичности или различия в показателях? Чтобы вычленить эту проблему, следует вспомнить, что средние значения и дисперсии для тестов являются функциями отдельных наборов заданий. Так что не имеет смысла утверждать, что, исходя из показателей по тесту, девочки выполняют его лучше или хуже, или так же, как мальчики. Это должно быть функцией конкретного набора заданий.

На практике это означает, что если у нас нет некоторой веской причины ожидать влияния пола испытуемых на тест, то должны отбираться те задания, которые не выявляют половых различий. В случае большинства личностных и мотивационных переменных это наиболее оптимальный подход. Следует заметить, что если по данной переменной существуют реальные различия между полами, то не имеет значения, сколько заданий испытывается - это проявится в статистических оценках заданий. Так, если постоянно для каждого задания обнаруживается устойчивая тенденция, то тогда лучше всего будет использовать эти задания, пусть даже тест и показывает теперь различия между полами.

6.3.2. Возраст испытуемых

Возраст содержит указания на жизненный опыт и, как правило, на рабочий или профессиональный стаж. При испытании заданий существенно, чтобы вся сформированная выборка была подобна той, для которой тест предназначен. Однако полезно также провести анализ заданий данного теста отдельно для различных возрастных групп в рамках одной выборки.

6.3.3. Другие переменные

Социально-профессиональные характеристики - это свидетельства особого рода занятий, с чем связаны интересы, особенности режима труда и отдыха, многие другие важные показатели деятельности людей. Пространственная локализация (по территории, подразделениям предприятий, учреждений) важна с точки зрения особенностей условий жизнедеятельности определенной группы людей.

Весьма полезна следующая приблизительная оценка надежности результатов выборочного обследования. Повышенная надежность допускает ошибку выборки до 3%, обыкновенная -до 3-10%, приближенная - от 10до 20%, ориентировочная - от 20 до 40%, а прикидочная - более 40%.

Численность (объем) выборки зависит от уровня однородности или разнородности изучаемых объектов. Чем более они однородны, тем меньшая Зависимость объема выборки от объема генеральной

совокупности при допустимой ошибке 5%

(доверительная вероятность - 0,95)

Объем  

генсово-   500  1000  2000 3000  4000  5000 10000 100000  Бесконечная

купности

Объем    222  286  333  350  360  370  385   398         400

Выборки

численность может обеспечить статистически достоверные выводы. Какие шаги в связи с этим необходимо осуществить для достижения необходимого качества выборки:

1. Определить структуру генеральной совокупности - количественные пропорции подгрупп (квот) по различным социально демографическим характеристикам.

2. Определить объем представительной выборки.

3. Объем пропорционально делится на квоты, так чтобы структура выборки моделировала структуру генеральной совокупности.

6.4. Конструирование шкалы как эталона измерения

Нахождение эталона измерения осуществляется в четыре стадии, каждая из которых - необходимая предпосылка надежности будущей шкалы.

1. Качественная классификация объектов (измеряемых свойств). Собираясь, например, измерять структуру ценностных ориентаций личности, мы прежде всего должны четко классифицировать типы ориентаций, исходя из теоретической концепции и задач исследования. Можно положить в основу классификации иерархию потребностей или интересов, сфер деятельности, социальные функции ориентаций, социальные ситуации, которые бы различались по степени свободы выбора целей и средств деятельности и т.д.

2. Поиск протяженности выделенных в качественном анализе свойств. Следует установить, обладают ли эти свойства прерывной или непрерывной протяженностью? Можно ли их представить в виде различных последовательных состояний измеряемого качества? Например, определенные ценностные ориентации (материальный достаток, творчество и т.п.) могут быть представлены как градации, отражающие их “протяженность”: “сильная - средняя - слабая”, “устойчивая - малоустойчивая - неустойчивая”, “центральная - периферийная”.

3. Установление эмпирических индикаторов или внешних признаков тех свойств объекта, которые поддаются расположению в континуум. Индикатор - это внешне хорошо различимый показатель измеряемого признака. С его помощью устанавливается наличие или отсутствие признака, его состояние. Например, высота ртутного столбика термометра - индикатор температуры.

Простейший индикатор расположения какого-либо объекта среди других объектов - порядковое место, отмечаемое опрашиваемым в заданном списке.

Например, из 18 объектов он помечает объект М порядковым номером “1”. Этот номер - индикатор доминирования объекта М. Объект N, помеченный порядковым номером “18”, будет располагаться в конце протяженности (“подавленная ориентация на N”).

Сложнее найти индикатор для протяженности по критерию “сильные”, “средние”, “слабые” ориентации. Один из возможных вариантов таков.

Испытуемым предлагают три ситуации, в которых они принимают решение о выборе “ценностного ориентира”. Ситуации различаются по степени свободы выбора “ценностного ориентира”. Допустим, измерению подлежат интересы к различным видам занятий в сфере досуга. Предлагаются три одинаковых списка возможных занятий, число которых в каждом списке 18.

В первой ситуации (широкий выбор диапазона) испытуемый имеет право без ограничения указать любые занятия, которые ему нравятся. Во второй ситуации (средний диапазон выбора) он оставляет в списке лишь шесть наиболее важных для него занятий, в третьем случае (узкий диапазон) - не более трех, для него особенно значимых.

Индикатор “сильной” ориентации - выбор данного занятия - имел место во всех трех ситуациях; “средний” - выбор в первой и второй ситуациях, “слабый” -выбор имел место только при широком диапазоне принятия решения.

4. Уяснение того, все ли единицы, составляющие измеряемый объект, укладываются в ранжируемый ряд, все ли они обладают свойством занимать определенное место в континууме отношений по принятым индикаторам.

В итоге описанных операций устанавливается эталон или шкала измерения. Отношения между пунктами шкалы должны отображать отношение свойств объекта в понятиях “равно”, “больше”, “меньше”.

6.5. Способы проверки процедуры первичного измерения на надежность

Понятие надежности измерения правомерно относить именно к инструменту, с помощью которого производится измерение, но не к самим данным, подлежащим измерению. В отношении данных, как и заключительных выводов из обследования (исследования), правильнее говорить, что они достоверны (или относительно достоверны) и потому, что фиксированы надежным инструментом.

Надежность шкалы, как обобщающей характеристики инструмента измерения, может быть рассмотрена в трех аспектах: обоснованность, устойчивость, правильность.

Обоснованность (синоним валидности) шкалы заключается в том, что с ее помощью целенаправленно измеряют вполне определенное свойство или признак, не смешивая его с другими. Вполне справедливо выделяют два существенно разных аспекта обоснованности: теоретический и практический. Первый (теоретический) непосредственно связан с содержательными предпосылками исследования и предполагает установление значимых связей с широким классом ситуаций, предсказываемых теорией, второй требует доказательства надежной регистрации данных в сравнительно узком секторе, в частном проявлении изучаемых объектов. Если валидность эмпирическую через измерение обеспечивают, то валидность теоретическую только проверяют, т.е. уточняют область валидности методики, границы интерпретации получаемых материалов.

Чтобы повысить обоснованность измерения, используют ряд технических приемов:

а) логические рассуждения на основе опыта и здравого смысла. Логические рассуждения хотя и являются достаточно хорошим средством повышения обоснованности, но не являются прямым доказательством того, что мы измеряем искомое свойство;

б) тест по “эталонной группе”. Смысл проверки - в сопоставлении данных, полученных путем измерения по шкале, с достоверными сведениями об объекте измерения. Так, шкала на отношение к соблюдению норм права обосновывается опросом осужденных правонарушителей в сравнении с “эталонной” группойзаконопослушных граждан. Дихотомизация полярных групп по шкале должна совпадать с фактической поляризацией эталонных групп в пределах допустимой ошибки, величина которой зависит от задач исследования;

в) поиск независимого критерия как разновидность внешнего контроля надежности для измерения того же самого объекта или свойства. Если бы был возможен такой прибор, который объективно фиксировал интенсивность мнений человека относительно опрашиваемых событий, фактов, других людей и т.п., то данный прибор бы выступал в роли независимого критерия, позволяющего сопоставлять с ним субъективные мнения, ощущения, настроения человека. В качестве независимого критерия зачастую выступают объективные показатели эффективности деятельности и учебы (количество продукции, наличие ошибок, средний балл по учебным предметам и т.п.);

г) использование метода судей для отбора пунктов шкалы. Сомнения в обоснованности возникают уже на стадии первоначального отбора пунктов шкалы. Численность судей (участвующих в отборе пунктов: например, определении единиц измерения) зависит от меры однородности или разнородности выборочной совокупности основного обследования. Рекомендуется отбирать для судейства половину мужчин и половину женщин;

д) совмещение нескольких показателей для регистрации определенного одного свойства или построение индекса. Типы индексов крайне разнообразны. Суть индексной обоснованности в том, что согласно гипотезе, данному свойству находится множество его проявлений, для каждого из которых формируют отдельную шкалу. Затем измерения по частным шкалам либо суммируются, либо из них образуют логические конструкции (например, логический квадрат).

Устойчивость измерения выражается в однозначности информации, которую мы извлекаем с помощью данной процедуры. Нередко устойчивость ошибочно отождествляют с надежностью процедуры в целом. И хотя последняя зависит не только от устойчивости, но также от обоснованности и правильности операций, подобное смешение не случайно: проверка инструмента на устойчивость -важнейшее условие повышения его надежности.

Приемы контроля на устойчивость:

а) повторное измерение. Один и тот же объект, свойство измеряется дважды с двух-трехнедельным временным интервалом и с помощью одинаковой процедуры. Шкала считается устойчивой, если совпадения между первой и второй сериями измерений будут достаточно высокими. Так, вычисляется общий процент совпадений ответов в первой и второй сериях. Те пункты шкалы, в которых обнаружено несовпадение даже у весьма “устойчивых” субъектов, должны быть переформулированы.

Другим показателем полной устойчивости является мера сдвига, оцененная как среднеарифметическая ошибка различения градаций шкалы. Этот показатель означает, какую долю градации данной шкалы (в среднем) все испытуемые как бы не улавливают, т.е. каковы истинные границы различения градаций.

Например, уточним среднеарифметическую ошибку в различении трехчленной шкалы согласия-несогласия с каким-то суждением (пусть это будет суждение о привлекательности некоторого занятия на досуге). Из 28 человек, участвующих в испытании 17 полностью повторяют свои оценки данного занятия в обеих пробах, (сумма по диагонали схемы: 7+6+4=17), а остальные 11 испытуемых дают разные ответы в двух пробах.

Для оценки искомой ошибки вычисляем отличия ответов респондентов как сдвиги между 2 и 1 пробами, например, во 2 пробе из тех, кто в 1 пробе ответил “занятие привлекательно”, 3 человека сообщили, что оно “не очень привлекательно”, т.е. это разность (2–1). Теперь суммируем все разности в ответах испытуемых и получим меру среднеарифметической ошибки различения пунктов градации данной шкалы:

Ср.арифм.ошибка == 0,39 градации

Значит, среднеарифметический “сдвиг” в оценке по трехчленной шкале составляет около 40% одного ее деления, т.е. менее половины деления, что в общем можно признать удовлетворительным, хотя и не идеальным.

Рассматривая устойчивость как воспроизводимость результатов измерений, можно использовать и иные показатели ее меры наряду с обычными расчетами корреляции итогов двух последовательных измерений.

Какая же мера устойчивости удовлетворительна? Это зависит от существа измеряемого свойства, его значимости для целей и задач исследования. В принципе для немногочленной шкалы среднеарифметическая ошибка различения градаций в 40% ее деления невысока, а соответствующая мера устойчивости (100% - 40% = 60%) вполне достаточна, ибо не перекрывает границы между двумя соседними интервалами шкалы, то ошибка была бы явно недопустима, ибо не перекрываются границы между двумя соседними интервалами шкалы. Если бы неустойчивость составила не 40%, а 60%, т.е. более половины деления шкалы, то ошибка была бы явно недопустима, ибо в среднем испытуемые не различают соседние градации из трех.

Для многочленных шкал, например из 10 градаций, ошибка в 60% одного деления не слишком велика, так как перекрываются два деления из 10, т.е. не  2/3, а 0,2 общей “длины” шкалы. Если при обработке данных градации укрупнить, объединяя две соседние, то ошибка минимизируется до вполне уверенного уровня устойчивости.

Помимо показателей полной устойчивости шкалы возможны также показатели ее относительной устойчивости. Они полезны при сравнении разных шкал, например для выбора из нескольких вариантов наиболее правильной и точной шкалы или для того, чтобы сопоставить уровни устойчивости измерения разных свойств, каждое из которых фиксируется шкалами разного типа и разной степени дробности.

б) Использование нескольких лиц для измерения одного свойства.

Случается, что шкала неустойчива потому, что ее пункты произвольно интерпретируются самими исследователями. В особенности это характерно для шкал качественной классификации объектов. В таких (номинальных) шкалахгруппы объектов классифицируют с помощью описания всех качественных признаков, по которым каждый объект относится к определенному пункту шкалы - классу.

Предположим, что выделено несколько признаков для отнесения определенной деятельности к разряду профессий определенного типа (например, человек-знак). Чтобы выполнить эту операцию однозначно, нужно убедиться, что признаки ясно различимы и при соотнесении видов деятельности с пунктами шкалы не возникает путаницы.

В этом случае объект измеряют одновременно несколько (минимум трое) лаборантов, использующих единую процедуру. Если данные полученные разными лаборантами, высоко согласуются, шкала устойчивая, если нет - неустойчива, и мы начинаем искать другую, более приемлимую размерную величину. Причина неустойчивости шкалы - в плохом отборе индикаторов.

в) Расщепление шкалы. Шкала раздваивается на две половины. Если окажется, что измерения по каждой из них совпадают, их можно рассматривать как равноценные шкалы, суммировать данные и впредь пользоваться одновременно обеими половинами, образующими теперь единую и более надежную шкалу, чем каждая из ее составляющих.

Пример расщепления пункта шкалы:

Первоначальный      После

вариант       расщепления   

А. Специальность а1. Считаю свою

очень нравится    специальность                  лучше всех   

                                 других

               а2.Моя              специальность   

                             одна из лучших   

Точность и правильность измерения зависят от (а) степени устойчивости измеряемого объекта или свойства, (б) чувствительности эталона измерения (дробности пунктов шкалы), (в) отсутствия систематических ошибок измерения и, конечно, (г) от устойчивости измерения.

Дробность методики - чувствительность шкалы - прямо связана с точностью измерения. Шкала в 10 делений измеряет точнее, чем в 5 или 3 деления. Но дробность пунктов шкалы нельзя увеличивать беспредельно. Надо установить оптимум, удовлетворяющий двум требованиям: максимум градаций шкалы при условии высокой устойчивости результатов измерения. Постепенно повышая дробность эталона измерения и параллельно проверяя шкалу на устойчивость, мы найдем границу, за пределами которой дальнейшее повышение дробности влечет понижение устойчивости измеряемого свойства. Таким образом, достижение устойчивых данных при максимальной дробности метрики повышает точность измерения. Оно будет удовлетворительно точным, если абсолютная ошибка измерения не превышает 0,5 деления шкалы. Вместе с тем, если ошибка вообще отсутствует, то не исключено что шкала обладает заниженной чувствительностью (особенно в случаях, когда мы предполагаем достаточную вариабельность измеряемого свойства).

Но измерение может быть вполне точным и, вместе с тем, неправильным, постоянно воспроизводя какую-то систематическую ошибку, как это случается с испорченным термометром, в котором ртутный столбик изначально был фиксирован на неверной исходной отметке и постоянно завышает температуру, скажем на 0,8 градусов.

    При квантификации психологических характеристик проблема правильности, т.е. отсутствия отклонений от истинного значения измеряемого свойства, намного сложнее, ибо часто мы в принципе не способны установить, каковы же истинные значения измеряемых свойств (скажем, ценностных ориентаций).

      Одна из возможных систематических ошибок - отсутствие “разброса” информации по шкале вследствие того, что какие-то ее пункты “не работают”, т.е. не реагируют на определенное состояние измеряемого свойства. Например, при опросе все ответы концентрируются в позитивном или только в негативном полюсе шкалы.

       Другой причиной неправильности может быть плохая различительная способность соседних пунктов шкалы высокой дробности (состоящей, к примеру, из 20 и более градаций).

7. ЛИЧНОСТНЫЕ ОПРОСНИКИ. РАЗРАБОТКА ЗАДАНИЙ

7.1. Проблемы конструирования личностных опросников

Как и в случае тестов, качество отдельных заданий (вопросов, утверждений) является определяющим для всего опросника. При разработке заданий для личностных опросников необходимо учитывать следующие проблемы, которые, если их не обойти, неизбежно приведут к низкой валидности тестов.

     1. Установка на согласие. Это тенденция испытуемого соглашаться с утверждениями или отвечать на вопросы “да” независимо от их содержания. Чаще всего проявляется, когда вопросы неоднозначны или неопределенны.

     2. Установка на социально одобряемые ответы. Это тенденция испытуемых отвечать на вопросы теста так, чтобы выглядеть “социально положительным”: если возможен “социально желательный” ответ, то весьма вероятно, что испытуемые будут его давать.

    3 Установка на неопределенные или средние ответы. Если в опроснике представлена средняя категория ответов, отражающая нерешительность или неуверенность в ответе (например, “не уверен”, “не знаю” или “затрудняюсь ответить”), то многие испытуемые склонны к ней прибегать как к безопасному компромиссу. Это приводит к снижению валидности заданий, поскольку большинство методов анализа вопросов основывается на крайних значениях показателей.

    4. Установка на “крайние” (расположенные по краям шкалы) ответы. Эта установка может проявиться при использовании многоэлементной рейтинговой шкалы. Некоторые испытуемые, независимо от содержания вопросов, предпочитают выбирать крайние ответы.

   5. Очевидная валидность вопросов (утверждений). Несомненно, в тестах личности необходима уверенность в том, что ответы на вопросы могут рассматриваться как правдивые. Данные опросника рассматриваются как данные Q и Q1. Данные из первого множества рассматриваются так, как если бы они отражали поведение испытуемого, данные из второго - как ответ на отдельный вопрос, ответ, который либо нагружен некоторым фактором, либо нет, в зависимости от того, отражает ли он поведение испытуемого.

    6. Выборка из генеральной  совокупности вопросов. В тестах интеллекта и специальных способностей относительно легко убедиться в том, что задания принадлежат или с высокой степенью вероятности выглядят принадлежащими к подразумеваемой для них генеральной совокупности заданий. Лингвистические задания нелегко перепутать с математическими или какими-либо другими. Однако в области особенностей личности и темперамента все гораздо сложнее. Врезультате возникает проблема выбора адекватных заданий из генеральной совокупности для обеспечения высокой валидности опросника.

   7. Выборка из генеральной совокупности испытуемых. Как указано выше, в личностных тестах труднее обеспечить адекватность выборки из выборочной совокупности, чем в тестах способностей. При использовании тестов способностей обычно известна вполне определенная категория лиц (популяция), для которой данный тест предназначен, и, таким образом, по крайней мере в принципе, можно эффективно подбирать выборки. Однако в личностных тестах, в отличие от тестов, разрабатывающихся для испытуемых с той или иной патологией, в идеале нужны выборки из общей популяции (т.е. всего населения страны), в которой встречаются все возможные показатели. Такие выборки, как показано, должны быть большими, и их обычно трудно получить.

     8. Проблемы в установлении адекватного критерия валидности. Существует значительная трудность в нахождении адекватного критерия. Например, если мы пытаемся измерить авторитаризм,то будем вынуждены полагаться на рейтинги, поскольку нет никаких других внешних мерил (в отличие от, например, школьных экзаменов в случае диагностики способностей). Рейтинги - это неадекватный инструмент, а если бы они подходили, тест был бы не нужен. Аналогично, если существуют высокоэффективные тесты авторитаризма, которые могут быть использованы в качестве критерия валидности, вероятно, в новом тесте нет необходимости.

Таким образом, мы вынуждены ограничиваться исследованиями конструктной валидности, обычно основывающимися на мультивариативном анализе разрабатываемого теста по сравнению с другими переменными, а также исследованиями специальных групп, имеющих по предположению контрольные показатели по рассматриваемой переменной.

7.2. Формулирование вопросов (утверждений)                    для личностных опросников

Наиболее распространенными формами вопросов являются:

    а) Вопросы с ответом типа “да-нет”. Такие вопросы легко формулировать, они понятны испытуемым и ответы на них даются быстро (например, типичный дихотомический вопрос: “Любите ли вы загорать на пляже?”).

    б) Вопросы с ответами типа “да-нет”, “да-затрудняюсь ответить- нет”. Это вариант вопросов типа “да-нет”, описанных выше, с добавлением категории неопределенности, потому что некоторые испытуемые становятся раздражительными и несговорчивыми, если их заставляют отвечать либо “да”, либо “нет” на вопросы, в ответах на которые они не очень уверены.

Трудность с такими вопросами состоит в том, что эта “средняя” категория очень привлекательна для испытуемых и редко бывает информативной.

       в) Альтернативные задания (с ответами типа “правда-ложь”. Эти задания состоят из утверждений (часто от первого лица), которые испытуемые должны отметить как верные или неверные для них. Примером альтернативного задания является: “Я ненавижу втискиваться в переполненный автобус”. Это форма утверждений, используемая в ММРI. По существу она ненамного отличается от дихотомических вопросов, хотя формулирование их как альтернативных утверждений, а не как дихотомических вопросов, может до некоторой степени повлиять на языковую представленность задания.

        г) Задания с ответами типа “нравится - не нравится” (одно слово или фраза). Это весьма оригинальная форма задания, которая в настоящее время используется в некоторых тестах.

д) Задания с рейтинговыми шкалами. Эти задания состоят из предложений, к которым прилагаются рейтинговые шкалы. В этих заданиях преодолеваются трудности, связанные с коррелирующими дихотомическими заданиями. Кроме этого, испытуемым они кажутся более разумными, хотя и может проявиться установка на крайние ответы. Типичным примером может быть:”Мне нравится бывать с друзьями в кафе: всегда, очень часто, часто, от случая к случаю, редко, очень редко, никогда”. Очевидной проблемой для этой шкалы является различная интерпретация индивидуумами терминов частоты.

      е) Разнообразные трихотомические задания. Примерами трихотомий являются: “обычно - иногда - никогда”, “верно - не знаю - неверно”. Эти варианты представляют большую гибкость при формулировании заданий, чем жесткие формы типа “да-нет” (дихотомическая) или альтернативные.

     ж) Трихотомические задания с выбором. Это варианты типа “е”, позволяющие вложить в лаконичную форму задания почти любую мысль. В них используются три завершающих предложение фразы, одну из которых испытуемый должен выбрать. Вот типичный пример: “Когда мне нечего делать, я могу: а) позвонить другу, чтобы поболтать; б) заняться разгадыванием трудного кроссворда; в) пойти на джазовый концерт”. Могут быть использованы задания с двумя, тремя и более вариантами выбора.

     з) Задания с вынужденным выбором. В таких заданиях испытуемые принуждаются к выбору того, какое из (обычно двух) утверждений более точно применимо к ним или более верно для них, хотя может быть и больше вариантов выбора.

7.3. Правила для формулирования заданий

   1. Устраняйте возможность проникновения испытуемых в суть того, что изучается с помощью данных заданий. Это делается не ради того, чтобы ввести их в заблуждение, а потому, что если испытуемые догадаются, что некоторое задание предназначено для измерения черты X, то ответы будут отражать их точку зрения по выраженности у себя этой черты, а не реальное положение дел. Представления же некоторых испытуемых о своей личности могут быть значительно искажены. Идеальным было бы оценивать испытуемого по чертам, о которых он не знает, задавая ему вопросы о том, что он знает хорошо.

    2. Формулируйте понятные, недвусмысленные вопросы (утверждения). Это важно для того, чтобы уменьшить погрешность, возникающую из-за неверного понимания вопросов. Высокая надежность зависит, в известной степени, от этого качества теста.

     3. Задания должны отражать конкретные, а не общие аспекты изучаемой области поведения. Так, задание вида: “Нравится ли вам спорт?” является слишком общим: термин “спорт” - неопределенный, как и термин “нравится”. Необходимо задать более конкретный вопрос: “Вы играете регулярно в какую-либо спортивную игру?” или “Вы регулярно следите за игрой вашей любимой спортивной команды?”, “Следите ли вы за результатами скачек?”. На эти вопросы, ответы на которые вряд ли будут фальсифицировать или относительно которых реальное поведение вряд ли изменится, испытуемые будут отвечать одинаково, когда бы их не тестировали.

      4. В каждом задании следует задавать только один вопрос или делать только одно утверждение.

Рассмотрим пример: “Думаю, следует заставить черных и представителей других рас эмигрировать”. Если это задание предназначено для измерениярасизма, то оно будет плохим. Есть расисты, которые проводят резкие различия между черными и людьми других рас. Другие считают всех, кто не является англосаксами, не относящимися к людям. Следовательно, некоторые расисты могут положительно ответить на этот вопрос, тогда как другие нет (только черных следует принуждать к эмиграции). А, например, немцы, проживающие в Англии, опять-таки ответят “нет”, исходя из своей интерпретации понятия “другие расы”. Следовало бы дать другое утверждение, например: “Думаю, следует заставить негров эмигрировать”. Сейчас оно более понятно, в нем остался только один вопрос.

     5. Избегайте, насколько это возможно, слов, определяющих частоту действий. Они обычно настолько субъективны, что вносят большую неопределенность. Например: “Часто ли вам снятся сны?”. Некоторые испытуемые могут испытывать такое чувство, что видеть сон раз в месяц - это часто, и ответят на вопрос положительно. Другие могут возразить, что один сон за ночь - это не часто, потому что исследования показали, что людям снятся три - четыре сна за ночь, и ответят “нет”. Вопрос, таким образом, становится бессмысленным. Ответы указывают противоположное тому, что происходит на самом деле. Улучшенный вопрос будет звучать так: “Снятся ли вам сны дважды в неделю или чаще?”.

Другой пример: “Испытываете ли вы иногда беспричинное беспокойство?”. Очевидно, что этот вопрос порождает ту же проблему, что и предыдущий. Однако он еще хуже, поскольку “иногда” буквально означает “чаще, чем однажды”. Следовательно, практически все испытуемые вынуждены, если они отвечают искренне, ответить на этот вопрос положительно. Однако этот вопрос мог бы быть очень полезным, поскольку всем известно, что люди действительно различаются по частоте беспричинного беспокойства. Дело не в содержании, а в форме вопроса, которая не выдерживает критики. Как же можно более точно сформулировать вопрос, в котором частота столь существенна? В улучшенном виде это может выглядеть так: “Испытываете ли вы беспокойство без особых причин в последние две (четыре) недели?”.

       6. Насколько возможно, избегайте терминов, выражающих чувства. Вместо этого, попытайтесь представить задание в контексте поведения. Это было проиллюстрировано в пункте (3) выше, в котором задание было сформулировано более конкретно с целью повышения надежности при тестировании по истечении некоторого времени. Для этого слово “нравится” было заменено на “играете”. Важным здесь является то, что испытуемый без колебаний отвечает, играет он или нет, а со словом “нравится” возникает целая проблема. Сообразительные, высокообразованные, точно выражающие свои мысли испытуемые могут долго колебаться в выборе значения этого слова: “Да, им нравится это, но, вероятно, “наслаждаться” будет чуточку точнее; ”находить удовольствие” да, но...”, и т.д.

Конечно и для такого задания, как в вышестоящем пункте (5), эта проблема также существует. Однако выражать это задание в поведенческой форме (“Бьется ли ваше сердце быстро и пересыхает ли во рту безо всяких причин?”) кажется слишком искусственным. Если только задание может быть сформулировано так, чтобы неопределенные слова о чувствах могли быть заменены на описание поведения, это должно быть сделано. Когда это невозможно, конечно же стоит попытаться составить задания, в которых описываются чувства. Их пригодность или непригодность будет выявлена на этапе анализа заданий.

     7. При помощи инструкций обеспечьте, чтобы испытуемые давали первые приходящие на ум ответы. Не позволяйте испытуемым долго размышлять над значением заданий. Эффективное задание личностного теста, которое действительно имеет отношение к поведению испытуемого, должно вызвать немедленную и точную реакцию. В противном случае вероятно, что задание не выявляет ту область поведения, которая имеет существенное отношение к измерению личностных качеств.

Как только испытуемый начинает задумываться над вопросами, включаются не только защитные процессы, но и сознательные искажения, такие, как желание произвести впечатление, угодить экспериментатору, - все это отрицательно влияет на результаты теста.

Многие задания могут не выдерживать критической оценки в основном из-за не вполне оправданного желания психолога вложить слишком много информации в краткую форму задания. Вот почему особое значение при создании заданий теста придается понятности и конкретности.

8. ПРОБЛЕМЫ КОНСТРУИРОВАНИЯ ТЕСТОВ ДОСТИЖЕНИЙ

За внешней простотой тестов достижений, позволяющих оперативно тестировать довольно широкий круг знаний и навыков человека в различных областях, скрываются определенные технологические особенности. Прежде всего качество этих тестов зависит от качества отдельных заданий. Соблюдение определенных требований в связи с этим позволяет тестировать не только декларативный уровень поверхностных знаний, основанный лишь на ассоциативных связях “ключевых” слов, но и более глубокий уровень реально ценных операциональных знаний, позволяющий реально использовать полученные знания на практике. Под операциональными знаниями понимаются знания, позволяющие их носителю определенным образом действовать   – оперировать с объектами, применяя при этом определенные умения (например, знание, изложенное в форме алгоритма).

Неквалифицированные тестовые задания, апеллирующие, как правило, к ассоциативному мышлению, которое удовлетворяется поверхностным заучиванием связей между определенными ключевыми словами, не достигают уровня собственно концептуального, или операционального мышления, которое оперирует глубокими логическими связями между понятиями и правилами их применения к анализу реальных объектов, фактов и событий. Профессионально составленные тестовые задания также содержат поверхностные ассоциативные связи, но - в качестве провокационных мнимо правильных ответов-дистракторов.

8.1. Психологика испытуемого

Под психологикой испытуемого понимается совокупность представлений, правил оперирования ими и стратегий поведения, которые конкретный испытуемый склонен проявлять в психологическом эксперименте, в частности, в ходе психодиагностического обследования.

Наличие выбора возможных ответов провоцирует у испытуемых желание угадать правильный ответ на основе интуиции. Умелые разработчики тестов, зная типовую психологику испытуемых, “ловят” невеж, провоцируя выбор ложного ответа, обладающего внешней правдоподобностью. Психологику можно описать как совокупность рациональных и иррациональных (основанных на приметах) стратегий поведения. К числу типичных мнимо разумных стратегий поиска правильного ответа следует отнести:

1. Стратегия ассоциативного правдоподобия.

2. Выбор “золотой середины”. Так, если даны три числа (например, возможные даты Куликовской битвы: 1380, 1390, 1480), то испытуемый ожидает, что автор задания дает ему возможность сделать два типа ошибок - “недооценка” и “переоценка” - и с меньшей вероятностью полагает, что правильный ответ может быть крайним.

3. Выбор более развернутого и аргументированного ответа, учитывающего частные случаи. Для того, чтобы запутать испытуемого, следует маскировать правильный ответ под внешне простую формулировку, а ложный ответ - под более развернутую.

4. Выбор более наукообразного ответа из иностранных и малопонятных слов.

5. Выбор ответа, который напоминает что-то знакомое. Невежи думают, что учителя хотя бы раз упоминали то, что звучит в формуле возможного правильного ответа.

6. Выбор ответа, который соответствует общим ожиданиям. Например, трудно предположить, что еще за несколько дней до начала самой кровопролитной войны Сталин поддерживал с Гитлером отношения стратегического партнерства. Пример вопроса:

“В какую страну экспортировал Советский Союз стратегическое сырье для сталелитейной промышленности (никель, молибден) накануне вторжения гитлеровской Германии в 1941 году?

- в Великобританию?

- в США?

- в Германию?”

8.2. Логико-семантическая классификация заданий

Типы тестовых заданий по логической структуре могут быть:

1. Фактологический вопрос по модели “Что-кто-где-когда?”

2. Функциональный вопрос (целевой и причинный) по модели “Для чего-зачем-почему?”.

3. Структурный вопрос по модели “Из чего?” (или из каких частей состоит?).

4. Концептуальный вопрос по модели “Определи понятие”.

5. Концептуально-ассоциативный вопрос по модели “Заполни пропуск”.

6. Концептуально-аналитический вопрос по модели “Проведи аналогию”.

7. Задание по типу “Продолжи ряд”.

8. Концептуально-семантическое задание установления смысловой эквивалентности или близости. Например, ниже приводятся три политические позиции по аграрному вопросу в русской революции, надо найти две эквивалентные по своим политическим последствиям:

а. Землю отнять у помещиков (если будут сопротивляться, то насильственно) и поделить между крестьянами;

б. Землю отнять у помещиков и национализировать;

в. Землю отнять у помещиков и передать “колхозам”, во главе которых поставить присылаемых из областных и районных центров председателей. Варианты ответов:

- эквивалентны 1 и 2;

- эквивалентны 1 и 3;

- эквивалентны 2 и 3.

9. Проблемно-операциональные задания “Реши задачу”. В условиях сообщаются такие данные, которые благодаря жестким и однозначным связям и законам в принципе позволяют восстановить неизвестное.

8.3. Тематическая репрезентативность

Задания не должны быть случайными или неравномерно разбросанными по карте знаний в данной предметной области. Оригинальность задания должна достигаться за счет использования оригинальной логической структуры для хорошо известного и основополагающего вопроса, а не за счет избитой логической структуры для вопроса совершенно экзотического, частного и не имеющего фундаментального значения. Для того, чтобы добиться представительности набора заданий (варианта теста) по отношению к тестируемой области, следует воспользоваться простым приемом - составить план в виде таблиц:

На пересечении строк и столбцов в клеточках данной таблицы надо проставить номера составленных заданий. Тогда можно будет увидеть, какие темы освещены менее других и какие логико-семантические типы заданий следует специально разработать и добавить для определенных тем.

Кроме обеспечения тематической сбалансированности, в тесте достижений следует предусмотреть, чтобы ни одно из заданий теста не служило подсказкой для ответа на другое задание.

8.4. Трудность заданий

Составитель заданий к тестам не должен забывать, что тестовые задания по своей трудности есть нечто противоположное “олимпиадным” заданиям. Если для олимпиад уместны трудные задания, позволяющие дифференцировать прежде всего лучших от самых лучших, то для тестов нужны элементарные задания, позволяющие скорее дифференцировать неподготовленных (худших) от умеренно подготовленных (“середнячков”).

Кроме того, следует учесть, что тесты даются с ограничением времени: на 20 заданий отводить целесообразно не более 10 минут. Лучший балл здесь показывает тот, кто уверенно и быстро применяет базовые знания, кто способен показать хороший умственный темп, высокую степень автоматизации основных навыков, “свернутость” понятий и умственных операций. Хороший ориентир в том, какой трудности должны быть тестовые задания, может быть сформулирован так:

“Без ограничений времени отличник должен уметь ответить на все 100 процентов тестовых заданий, но при ограничении времени отличник со средним умственным темпом должен ответить только на 70-80 процентов тестовых заданий”.

Самый эффективный метод выяснения трудности заданий - проведение пилотажного эксперимента. К этому эксперименту стоит, например, привлекать учеников из более старшего класса, для которых он может стать хорошим поводом повторить материал и выявить пробелы перед экзаменами.

Скорость пилотирования теста и расчета трудности заданий значительно возрастает, если учитель (психолог, проводящий тестирование) располагает компьютерным классом и специальной программой оперативного тестирования.

9. ПРОЕКТИРОВАНИЕ ПСИХОДИАГНОСТИЧЕСКОЙ МЕТОДИКИ

Методическое руководство к тесту включает:

- концепцию, объясняющую механизм создания и действия теста, его цель и область применения;

- стимульный материал;

- “ключ” с правильными ответами;

- нормативно-оценочные таблицы;

- образцы регистрационных бланков;

- интерпретационные схемы;

- инструкции для психолога и для испытуемого.

9.1. Таксономия объективных тестов

Психологические тесты могут различаться один от другого по следующим признакам:

- инструкции (направлены на объяснение смысла заданий и порядка действий испытуемых);

- материал теста (он может быть взят из социальной области или, например, из физики):

- особенности оценивания полученных от испытуемого ответов. С учетом того, что инструкция отражает определенный стимульный материал, первые два элемента могут быть объединены в один и обозначены термином “стимульно-инструктивная ситуация” (термин, обобщающий особенности как материала теста, так и прилагаемой к нему инструкции).

9.2. Этапы проектирования теста

1 . Определение цели применения теста. В зависимости от цели тест применяется в шести случаях: для постановки психиатрического, психологического диагноза;

- для классификации специалистов;

- в дифференциальной психодиагностике при поиске и определении индивидуальных различий между людьми:

- для расстановки и перестановки кадров: в ходе профориентационной работы;

- для подбора и профотбора кадров.

Примечания: чем важнее цель, тем чувствительнее должна быть методика;

- для практической диагностики в целях отбора и расстановки кадров методика должна иметь нормативно-установленные стандарты;

- цель методики формулируется с учетом потребностей и реальных возможностей специалистов;

- источниками формирования целей теста являются: прецеденты, прогнозы специалистов, литературные источники, прошлый опыт, социальный заказ, экспертные данные.

2. Определение сферы использования методики.

Выделяются следующие сферы, где могут использоваться методики: образование, производство, оборона, транспорт, здравоохранение, социальное обеспечение, сферы услуг, наука, правосудие, государственная безопасность, спорт, управление обществом, культура, искусство, экология, воспитание.

      Одна и та же методика может иметь применение в нескольких сферах.             3. Выбор конкретной сложности теста.

Полнота и сложность методики обусловлены наличием у пользователя специальных психологических знаний, навыков и умений, а также опыта психометрической и психодиагностической деятельности.

В зависимости от того, кто будет применять тест (методику) может быть два варианта сложности:

- для специалистов психологов тест может быть с полной и сложной интерпретацией результатов;

- для неспециалистов используется упрощенный вариант. Упрощенный вариант предполагает однозначность трактовки результатов, доступную неспециалисту.

Кроме того, необходимо предусмотреть конкретный уровень трудности теста для испытуемых. Уровень трудности - это субъективная сложность заданий теста для данной выборки. В статистическом плане трудность заданий теста - это доля лиц (в процентах), решивших и нерешивших задание теста. Индекс трудности задания вычисляется как степень его решаемости относительно всей группы испытуемых. Задание считается оптимальным, если его решили правильно около 50% испытуемых.

Если задание решается почти всеми испытуемыми, то одним из вариантов может быть сокращение времени на его решение. Если наоборот, задание не решается большинством испытуемых, следует либо переформулировать его, либо исключить из теста.

4. Определение особенностей диагностируемых популяций. В этом плане должно быть учтено распределение выборки по параметрам: пола, образовательного уровня и вида образования, владения языком, на котором составлена методика, национальности, вероисповедания, принадлежности к какой-либо профессиональной группе, социальному происхождению, территории, на которой проживает. В зависимости от состава популяции характер, форма и содержание стимульного материала должно быть согласовано с характеристикой популяции.

5. Предметная направленность теста. Тест может измерять следующие характеристики: внешнее поведение или внутреннее состояние:

- свойства, черты, качества, процессы, состояния, образования или особенности личности;

- сложная (комплексная) или простая характеристика личности;

- выраженность, частота или интенсивность проявления психической характеристики.

В зависимости от предметной направленности может планироваться разработка единичного теста, батареи, системы или набора тестов. В соответствии с предметной направленностью выбирается соответствующий стимульный материал.

6. Выбор и определение стимульного материала теста. Стимульно-инструктивная ситуация изменяется в зависимости от ряда параметров.

а) Форма задания (пунктов) теста: цифры, задачи, фигуры, картинки, схемы, рисунки, буквы, символы, сюжеты, фрагменты, цвета, графики.

б) Форма вопроса или утверждения (может быть и смешанный тип).

в) Реакция или ее отсутствие. В общем требуется реакция на стимул. Но это не всегда так, как, например, в тестах на чувствительность к боли,

г) Ограниченность-неограниченность способов реагирования. В тестировании не известны случаи неограниченного разнообразия ответов. Предполагается, что испытуемые не будут жевать материал тестов или портить его. Однако ответы могут быть относительно свободными, как, например, в проективных тестах, или с накладываемыми на них ограничениями, как при измерении времени реакции.

д) Ответы, придуманные (созданные) самостоятельно или отобранные из набора вариантов. Значение этого параметра очевидно. Примером последних являются ответы типа “правда-неправда”, а примером первых - описание рисунков ТАТ (теста тематической апперцепции).

е) Единичные или повторяющиеся ответы.

ж) Последовательность ответов: упорядоченная или неупорядоченная. Это относится к тому, до какой степени от испытуемых требуется давать ответы в определенном порядке.

з) Однородность или разнородность ответов. В некоторых тестах требуются ответы одного и того же вида, а в других предусмотрены ответы различных типов.

и) Естественность темпа или ограниченность времени на ответы. к) Завершенность (окончательность) реакции или реагирование на реакцию. Испытуемый реагирует либо на материал теста, либо на свою собственную реакцию, например, тот или иной стимул как-либо оценивается, вызывает ассоциации или воспоминания.

л) Явный стимул или неявный. Некоторые тесты не имеют никакого вне их лежащего значения, такие параметры, как измеряющие время реакции. Однако в определенных тестах (там, где интересуются мнением о чем-либо) это присутствует. Большинство видов искажений и сложностей возникают именно в тех тестах, значение которых неявно.

м) Представление теста в виде отдельных заданий или целостное представление. Этот параметр касается различий между тестами, состоящими из отдельных заданий или из одного единственного.

н) Психологическая сущность действия, необходимого для выполнения задания. Этот параметр учитывает, требуется ли для ответа: а) знания; б) мнение о чувствах, отношениях; или в) опознание или распознание.

о) Различие в мотивах приемлемости ситуации тестирования.

п) Различия в свободе выхода из ситуации тестирования.

Вышесказанное обуславливает существование 213 типов стимульно- инструктивных ситуаций.

7. Определение формы ответов на задания. Могут быть использованы четыре формы ответов:

а) выражающие отношения: согласия, неопределенности, отрицания;

б) ответы как проекция актуальных, ретроспективных или перспективных состояний испытуемого, его отношений на стимульный материал:

в) как свободная интерпретация заданий или вопросов:

г) как выбор из вариантов ответов предпочитаемого. При составлении заданий необходимо помнить, что изменение формы ответа влияет на валидность методики. Формы ответов должны быть стандартизированы, где это возможно.

9.3. Параметры, лежащие в основе оценивания ответов

1. Объективность или субъективность оценивания. Этот момент касается в основном тех тестов, в которых используются задания на самооценку. Будет ли ответ испытуемого оцениваться так, как это предполагается инструкцией или каким-либо неизвестным для него образом? Например, испытуемого просят высказать субъективное отношение, оценку каким-либо действиям других людей, а на самом деле оценивается общая тенденция давать негативную оценку.

2. Целостное поведение (весь организм) или физиологическая реакция (часть организма). Типичной физиологической реакцией может быть покраснение от смущения или тремор.

3. Измерение одного возможного ответа или классификация разнообразных ответов (параметрическое оценивание или непараметрическое). Параметрическими измеряются такие особенности ответа, как время, количество ошибок, повторений. Непараметрическими раскрывается количество и разнообразие классов ответов. В этом смысле многие тесты на креативность оцениваются непараметрическими.

4. Общее количество ответов или часть, соответствующая некоторому критерию. Это пересекается с описанным выше третьим параметром, поскольку различные оценки могут быть любой из указанных здесь категорий.

5. Единый однородный показатель или разнотипные относительные показатели. Определить единый показатель можно только тогда, когда тест оценивается в целом, как в случае личностных опросников. Разнотипные относительные показатели могут определяться в следующих формах: различия во времени выполнения первой и второй частей теста; запоминание материала при обычных условиях и при отвлекающих обстоятельствах.

6. Нормативное или личностное (ипсативное) оценивание. Ипсативное оценивание основывается на показателе, допускающем сравнение выраженности тех или иных психологических особенностей относительно самого обследуемого (в отличие от нормативных, дающих внешние сравнения относительно нормативной выборки).

7. Поиск, выделение и обоснование критериев валидизации методики. Концептуальная валидизация включает проверку теоретической обоснованности конструктов (концептов) теста, сравнение их с уже известными теориями, общепринятыми и общеизвестными положениями. Один из вариантов валидизации, когда эксперты оценивают по 5-балльной шкале каждое задание теста на предмет соотнесенности этих заданий с теорией.

Валидизация эмпирическая - это выявление наиболее репрезентативных для исследуемой характеристики личности признаков поведения и деятельности человека. Критерий валидизации - признак, хорошо (достаточно надежно, полно) отражающий необходимое нам качество (свойство, процесс). Требования к критерию валидизации:

- утойчивость (т.е. не должен изменяться);

- надежность:

- адекватность (соответствие его содержания, формы исследуемой характеристике):

- дифференцирующая способность критерия (способность с его помощью отграничивать данную характеристику от тех, которые ею не являются).

Последовательность поиска и выделения критериев:

- изучается максимально возможный перечень критериев в реальной жизнедеятельности популяции, связанных с изучаемым свойством:

- выделяется из них наиболее практичный и репрезентативный;

- оценивается соответствие критерия требованиям его устойчивости, надежности, адекватности, дифференцирующей способности;

- анализируется корреляция с выбранным критерием отдельного теста, каждого теста в батарее и в целом батареи тестов (в зависимости от корреляции каждого теста с внешним критерием определяется корреляционная значимость каждого теста).

Примечание:

- критерий должен иметь нормальное .распределение, описанное кривой Гаусса;

- критериев может быть выделено много, но каждый валидизирует тест отдельно;

- от точности определения внешнего критерия зависит валидность теста.

8. Отбор и оценивание заданий.

Однородный и дискриминативный тест может быть получен путем отбора заданий, имеющих высокую корреляцию с общим показателем и, помимо этого, долю правильно ответивших (в соответствии с “ключом”) испытуемых в пределах 80% - 20%.

9. Расчет временных параметров теста. Для расчета временных параметров следует уяснить:

- необходимо или нет ограничение по времени для испытуемых;

- учесть сложность и длину методики (количество заданий);

- учесть необходимые затраты на инструктирование, работу испытуемых со стимульным материалом и обработку результатов;

- если тестирование проводится с использованием ЭВМ, то осуществляются отдельные расчеты.

Расчет времени носит сугубо предварительный характер. После экспериментальной работы временные параметры теста уточняются. Обычно на работу с одним тестом должно уходить времени не более двух - двух с половиной часов с перерывами.

10. Определение условий применения теста. Определяются 2 группы условий:

а) организационные:

- учет квалификации экспериментатора (разработчик психодиагностической методики, пользователь-профессионал, пользователь-неспециалист);

- отношения с испытуемыми (добровольные-обязательные, бесплатные, за оплату);

б) материально технические:

- необходимость специально оборудованного помещения;

- компьютеризованный, бланковый или смешанный варианты методики;

- необходимость аудио, видеоаппаратуры;

- стандартные для всех испытуемых условия.

11. Формирование исследовательской выборки. Наиболее важными здесь являются две процедуры:

- определение необходимого количества выборок (лучше 2-3);

- определение их количественных и качественных характеристик.

12. Компоновка и оформление бланков, буклетов со стимульным материалом. Последовательность работы:

- составление композиционной схемы:

- наполнение композиционной схемы стимульным материалом.

Примечание:

- стимульный материал должен быть оформлен в соответствии с нормативными требованиями по форме, размеру, цвету, расположению. Размеры всех знаков и стимулов должны при этом обеспечивать хорошее восприятие без коррекции зрения.

13. Разработка ключей, инструкций и интерпретационных схем. Составляются инструкции экспериментатору и испытуемому. Инструкция не должна быть перегружена деталями и подробностями. Формулировки не должны содержать двусмысленных оттенков. Сама инструкция помещается как правило на первом листе. Схема интепретаций должна позволить составить итоговое заключение психолога. При этом существуют три вида заключений:

- описательное (психологическая характеристика обследуемого);

- консультационное (делается прогноз дальнейшего развития);

- оценочное (в виде балльной оценки изучаемого свойства).

10. ПУТИ ПОВЫШЕНИЯ НАДЕЖНОСТИ НЕКОТОРЫХ пСИХОДИАГНОСТИЧЕСКИХ МЕТОДОВ

10.1. Пути повышения надежности данных наблюдений

Надежность (обоснованность и устойчивость) данных повышается, если выполнять следующие правила:

1. Максимально дробно классифицировать элементы событий, подлежащих наблюдению, пользуясь четкими индикаторами. Их надежность проверяется в пробных наблюдениях, где несколько наблюдателей регистрируют по единой инструкции одни и те же события, происходящие на объекте, аналогичном тому, который будет изучаться.

2. Если основное наблюдение осуществляется несколькими лицами, они сопоставляют свои впечатления и согласовывают оценки, интерпретацию событий, используя единую технику ведения записей, тем самым повышается устойчивость данных наблюдения.

3. Один и тот же объект следует наблюдать в разных ситуациях (нормальных, стрессовых, стандартных и необычных), что позволяет увидеть его с разных сторон.

4. Необходимо четко различать и регистрировать содержание, формы проявления наблюдаемых событий и их количественные характеристики (интенсивность, регулярность, периодичность, частоту).

5. Важно следить за тем, чтобы описание событий не смешивалось с их интерпретацией. Поэтому в протоколе следует иметь специальные графы для записи фактуальных данных и для их истолкования.

6. При включенном или невключенном наблюдении, выполняемом одним исследователем, особенно важно следить за обоснованностью интерпретации данных, стремясь к тому, чтобы перепроверить свои впечатления с помощью различных возможных интерпретаций. Например, бурная реакция на событие может быть следствием одобрения, недовольства и т.п. Во всех случаях делаются особые заметки, поясняющие протокольную запись.

7. Полезно прибегнуть к независимому критерию для проверки обоснованности наблюдения. Данные наблюдений “со стороны” можно проконтролировать с помощью интервью с участниками событий; материалы включенного наблюдения желательно проверить невключенным по той же программе или по имеющимся документам.

10.2. Пути повышения надежности документальных источников

Не следует смешивать надежность, подлинность самого документа с достоверностью сообщаемых в нем сведений. Достоверность информации в первую очередь зависит от источника доступного документа. Разные источники обладают своего рода заведомой степенью достоверности сообщаемых сведений. Во всех случаях первичные данные надежнее вторичных. Поэтому официальный личный документ, полученный из первых рук, более надежен и достоверен, чем неофициальный, безличный, и к тому же составленный на основе других документов.

При использовании вторичных документов важно установить их первоисточник. Это можно делать выборочно, с тем чтобы оценить общую погрешность вторичных материалов.

Целевые документы, запланированные психологом, будут надежны в случае, если предусмотрены обычные операции контроля: поиск независимого источника информации (для выборочного контроля), вторичные обращения к тому же источнику (устойчивость данных), тесты по известным группам. Есть немало приемов, правил, с помощью которых определяют степень достоверности сведений, судя по самому содержанию документальной информации.

Первое правило - четко различать описания событий и их оценку. Мнения и оценки потенциально обладают меньшей достоверностью и надежностью по сравнению с фактуальной информацией. Нередко в документе отсутствует детальная характеристика ситуации, в которой высказано мнение или оценка. Но именно конкретная ситуация дает ключ к расшифровке смысла высказанных оценок и мнений.

Далее следует проанализировать, какими намерениями руководствовался составитель документа, что поможет выявить умышленные или непроизвольные искажения.

Очень важно хорошо уяснить общую обстановку, в которой составлялся документ - располагала ли она к объективности или диктовала смещение информации в какую-то сторону.

10.3. Способы обеспечения надежности информации, получаемой контент-анализом

Надежность информации, получаемой контент-анализом, обеспечивается следующими способами.

1. Обоснование полноты объема выделяемых смысловых единиц. Первоначально выделяются все смысловые единицы из первого анализируемого текста, далее из второго текста - те же, плюс дополнительные, ранее не встречавшиеся, из третьего документа опять те же, что уже встречались в двух предыдущих, плюс дополнительные и т.д. После изучения очередных 3-5 текстов, в которых уже не попадается ни одной новой единицы, ранее фиксированной в предыдущих документах, можно полагать, что “поле” смысловых единиц изучаемого массива исчерпано.

2. Контроль на обоснованность содержания смысловых единиц с помощью судей. Специалисты в данной области обсуждают, насколько предложенные качественные единицы соответствуют поставленным задачам.

3. Обоснованность по независимому критерию. Например, данные контент-анализа дневников или сочинений учащихся с целью выявить их профессиональную склонность выборочно проверяются путем опросов, или по данным наблюдений, или тестом по известной группе.

4. Устойчивость данных определяется при помощи кодирования одного текста разными кодировщиками на основе единой инструкции. Можно использовать стабильную единицу анализа и разные единицы счета (по частотам смысловых единиц и по физической протяженности одновременно).

10.4. Повышение надежности информации, получаемой с помощью опросов и интервью

Объектами информации здесь могут быть самые различные стороны жизнедеятельности людей, определяющие содержание вопросов:

1. Фактическая информация о личности и социальном положении опрашиваемого.

2. Факты поведения в прошлом или настоящем (самого опрашиваемого или Других).

3. Знания о чем-либо и их источники.

4. Мнения о фактах и отношениях.

5. Мотивы и нормы поведения опрашиваемого.

6. Интенсивность мнений и отношений:

а) оценка интервьюером глубины чувства опрашиваемого по интонации его ответов, репликам, мимике;

б) самооценка опрашиваемого относительно того,является ли его оценка, мнение сильным или слабым;

в) самооценка опрашиваемого по “графическому термометру” или числовой шкале.

Как задавать вопросы, относящиеся к этим многообразным сведениям, чтобы повысить достоверность и надежность ответов?

В первую очередь это зависит от содержания или от характера планируемой информации, но не в меньшей степени от языка анкеты или используемой психологом терминологии.

Этапы построения вопросника для интервью или анкеты;

а) определение характера информации, которую необходимо получить;

б) составление приблизительного ряда вопросов,которые должны быть заданы;

в) составление первого плана вопросника;

г) предварительная проверка этого плана путем пробного интервьюирования:

д) исправление вопросника и его окончательное редактирование.

10.5. Лексика опроса

В опросах слишком трудный и, значит, малопонятный для испытуемых язык - не меньшая опасность, чем наивное подлаживание под стилистику и хуже того - жаргон определенной группы аудитории.

Особые требования предъявляются к стилистике опросов экспертов. Для разработки дифференцированной системы оценки трудности того или иного конкретного вопроса и анкеты в целом возможны следующие критерии оценки.

1. Структурные параметры вопросов: сложность грамматики и лексики. Для каждого типа аудитории экспертным путем может быть установлена оптимальная длина предложений (допустим, более 20 слов “трудный вопрос”, менее пяти -”слишком упрощенный”) и уровень сложности грамматической структуры(сложносоставные предложения и фразы, содержащие избыточное число общих терминов, и т.п.), а также мера понятности основных терминов.

2. Уровень ясности смысла вопроса - второй важнейший критерий. Недопустимы формулировки с двойным отрицанием, а при опросах экспертов крайне опасно использовать исключительно обыденную лексику. Напротив, здесь терминология должна подчеркивать особое отношение исследователя к опрашиваемому специалисту и учитывать его стиль мышления.

Грубейшая ошибка - смешение так называемых программных вопросов, т.е. формулировок, нацеленных на получение запрограммированной информации, и вопросов - “индикаторов”, а точнее, анкетных формулировок, адресованных испытуемому.

Программные вопросы называются “индикатами”, а задаваемые испытуемому “индикаторными”. Одному индикату, как правило, соответствует несколько индикаторных вопросов. Суммарная информация по ответам на индикаторные вопросы и составляет искомую, программную информацию. Например, программный вопрос о возможном влиянии окружающих на выбор профессии школьником никоим образом нельзя задавать в его общей прямой форме (“Что, как Вы считаете, повлияло на Ваш выбор профессии, работы?”), но лишь в целом ряде более понятных и простых вопросов (“Каким образом Вы выбрали это место работы (эту профессию)? Вы решили сами, Вам посоветовали родители, учителя, друзья?... Вам вовсе не пришлось выбирать?...).

3. Оценка трудности формирования ответа: уровня компетентности, припоминания события, представления воображаемой (гипотетической) ситуации, проведения вычисления и т.п.

Надо помнить, что полнота и глубина информации существенно зависят от общей культуры и кругозора респондентов. Так, исследователями было найдено, что люди с относительно высоким уровнем образования способны оценивать вероятную достоверность своих сведений, тогда как респонденты с низким уровнем образования не могут этого сделать.

Как уже говорилось, достоверность полученных сведений прямо зависит от содержания планируемой информации. Остановимся на этих особенностях подробнее.

10.6. Статус (положение) испытуемого (опрашиваемого)

Какова бы ни была тема опроса, обычно требуются некоторые сведения о человеке: пол, возраст, образование, стаж работы, семейное положение, размер заработка и т.п. На первый взгляд кажется, что нет ничего проще, чем получить надежные данные такого рода. В действительности это не так.

1. Категории для ответов - первая трудность. Следует ли задавать паспортные вопросы в открытой (без подсказки вариантов ответа) или закрытой форме (с подсказкой). В открытой явно плохо, ибо мы не знаем, что вздумается написать в ответ на простейшие вопросы: “Ваше семейное положение?” (“женат - холост”: “семейный-несемейный”; “одинокая-многодетная”: или “семейное положение неопределенно: снимаю угол”); “Ваш возраст?” (“19 лет”, или “родился в 1968 году”, или “пенсионер”): “образование?” (“неполное среднее”, “9 классов”, “учусь в колледже”).

В закрытом варианте сведения такого рода более надежны. Но здесь возникает проблема выделения обоснованных группировок для ответа. Скажем, в информации о возрасте целесообразно использовать группировку, отвечающую целям исследования и в то же время принятую в государственной статистике.

Исследователь должен решить, какие пороговые группировки представляют для него особый интерес и можно ли в дальнейшем сопоставить полученный материал с имеющейся статистикой. Важно помнить, что для многих статистических операций с данными необходимы равные интервалы в числовом ряду. Поэтому принятые интервалы (если они неравны) должны поддаваться укрупнениям и выравниванию.

2. Закрытый вопрос на статус должен быть сформулирован в терминах, не допускающих двусмысленного толкования. Это относится и к словам, и к единицам счета, и к построению фраз.

Например, в закрытом вопросе о роде занятий целесообразно указать перечень групп профессий и квалификаций, не прибегая к выражениям вроде “неквалифицированный рабочий”. Лучше: грузчик, такелажник и т.п. все эти занятия, с точки зрения рабочего данной профессии, требуют высокого навыка и квалификации, хотя по сравнению с другими профессиями попадают в категорию неквалифицированного или малоквалифицированного физического труда.

В группировках счета не следует использовать неопределенный термин “в среднем” (средний заработок, размер среднедушевого дохода...), ибо нам не известны эталоны усреднения, которыми пользуется опрашиваемый. Надо предложить одинаковые эталоны: заработок за последние три месяца; общий доход на всю семью за три месяца и далее - число членов семьи. Усреднения производит сам исследователь.

Событийная информация или сведения о фактах поведения в прошлом и настоящем, а также о продуктах деятельности требует прежде всего контроля на компетентность опрашиваемого.

Оценка уровня компетентности респондента зависит, во-первых, от содержания требуемой информации и, во-вторых, от ее характера: является ли она событийной (фактической) или оценочной.

Проверка компетентности опрашиваемого сводится к тому, чтобы уяснить, известны ли ему оцениваемые события? Само мнение опрашиваемого, насколько бы предвзято и односторонне оно не было, является объективным и достоверным фактическим материалом для оценки социально-психологических явлений (климата в коллективе, взаимоотношений, отношений к руководителю и т.п.).

Проблема компетентности опрашиваемого в опросах - это прежде всего уяснение объективной возможности получить достоверную информацию от данной категории населения и соответственно построить выборку опрашиваемых.

Иначе обстоит дело, если проводится экспертный опрос. Опрашиваемые -специалисты, их компетентность должна быть безусловной. В этом случае важна не только объективно обусловленная возможность респондента судить по данному предмету, но реальная способность высказать обоснованное мнение. Поэтому для экспертных опросов тщательнейшим образом отбирают только тех, кто вполне заслуживает статуса компетентного лица в данной области.

Рассматривая далее способы повышения надежности опросных данных о фактических событиях, мы будем помнить, что это информация именно о событиях и фактах (не о мнениях и оценках), притом получаемая в массовых опросах (в отличие от экспертных).

Каковы же главные требования к вопросам этого характера?

1. Прежде всего следует выяснить уровень компетентности опрашиваемого в данной области и по данному предмету. К примеру, мы хотим собрать у рабочих сведения о стиле работы мастера. В интервью следует вначале попросить возможно детальнее описать, как мастер дает задание (насколько подробно объясняет задачу, проверяет ход выполнения, контролирует все основные этапыили же ограничивается самыми общими указаниями: допускает ли использование нестандартных приспособлений и технологических приемов или требует строго придерживаться технологической карты и т.п.). Лишь после того, как мы убедились, что опрашиваемый достаточно осведомлен о приемах руководства мастера, можно переходить к выявлению мнений и оценок о стиле руководства.

В заочном опросе та же цель достигается контрольными вопросами на информированность (“От кого Вы получаете производственное задание и кто контролирует ход выполнения работы?”).

Данные тех, кто максимально осведомлен о работе мастера, обрабатываются отдельно от менее достоверных сведений, полученных от остальных опрошенных.

Для контроля состава опрашиваемых по уровню осведомленности в теме опроса используются так называемые прямые фильтры и “ловушки”. Вопросы-ловушки помогают определить добросовестность испытуемого.

2. Важно четко отделять событийную информацию от оценок и интерпретации. В формулировке вопросов событийного характера не должно содержаться оценочных выражений вроде: “много - мало”, “хорошо - плохо”, “сильно - слабо”, “удачно-неудачно”, “достоверно - недостоверно” и т.д. У каждого свои собственные критерии оценок.

3. В опросах о давно происходивших событиях недостоверность сведений может объясняться ошибками памяти. Следует помочь опрашиваемому восстановить общий контекст ситуации.

4. Максимальная дробность пунктов информации - хорошее основание достоверности сведений о событиях.

Вопросы на мотивацию, оценки и мнения представляют наиболее сложную часть процедуры.

а) Особенно опасны “наводящие” вопросы, внушающие определенный ответ. Так, в следующих примерах ответ внушается психологом:

Любите ли Вы свою работу? (высказано сомнение: интервьюер явно заинтересован в ответе, но в каком направлении именно, - это неясно опрашиваемому: он будет стараться уловить, какой ответ желателен).

- Вы любите свою работу? (в зависимости от ударения и интонации внушается определенный ответ).

- Вы не любите свою работу, не так ли? (утверждение, которое предполагает согласие).

- Нравится или не нравится Вам Ваша работа? (категорический вопрос, требующий окончательного решения, тогда как возможна целая гамма промежуточных состояний и оценок).

Правильная формула предполагает нейтральную интонацию: “В какой мере Вас привлекает выполняемая работа?”. В закрытом варианте ответа следует предложить шкалу: “работа очень нравится”, “пожалуй, нравится”, “трудно сказать определенно”, “скорее нравится, чем не нравится”, “совершенно не нравится”.

б) Стереотипные формулировки вопроса вызывают столь же стереотипные ответы.

в) Широко распространенная ошибка ставить лобовые вопросы: “Почему Вы так считаете?”, “Если да (или нет), то почему?”. Желая выяснить основание оценки или мнения, психолог как бы принимает позу следователя.

Чтобы добиться развернутого ответа, вместо общего “почему?”, желательно предусмотреть более детализированные вопросы:

- конкретная ситуация, в которой высказываются оценки и мнения или контекст восприятия испытуемым (опрашиваемым) событий (Как случилось, что Вы пошли работать по этой специальности? Каковы были обстоятельства, в которых Вы определили свое профессиональное будущее?);

- содержание побуждения, мотива поступков или оценок (Что в общем показалось Вам наиболее привлекательным в выборе этой профессии. специальности?);

- попытка определить атмосферу общественного мнения среды, в которой действовал человек (Что думали об этом Ваши родные, друзья, знакомые? Советовались ли Вы с ними или они Вам что то советовали?);

- собственно мотив поступков, действий, оценок (Можно сказать, что в конце концов Вы приняли решение о выборе профессии по каким-то определенным основаниям? Не могли бы Вы указать эти основания?);

- контрольный вопрос на специфичность мнений или оценок относительно ситуации (Если бы Вы имели другие возможности выбора, как бы Вы поступили: избрали бы ту самую специальность или какую-то иную?).

г) Проективные вопросы - хороший способ выявить общую направленность интересов, мотивов деятельности, ценностные ориентации. Испытуемому предлагают набор ситуаций, которые могли бы встретиться в жизни, просят указать предпочтительный вариант поведения или мнения в заданных условиях. Принцип проекции положен в основу специальных психологических процедур.

Приведем пример использования проективной техники в анкетном опросе. Для определения ориентации инженеров на относительно самостоятельную (относительно несамостоятельную) деятельность в своей профессиональной сфере им предлагалось задание:

“Представьте, что вы поступаете на работу в конструкторское бюро. Это происходит в данный момент. Возникают следующие 14 ситуаций.

1. Предположим, что Вас хотят назначить руководителем группы (или подразделения), но предлагают выбрать (либо либо):

а) коллектив, состоящий из молодых специалистов, не очень опытных, но перспективных;

б) коллектив, состоящий из молодых специалистов, не очень опытных и знающих работников.

2. Вам предлагают на выбор два отдела, куда направляют рядовым сотрудником:

а) отдел, руководитель которого обычно дает своим сотрудникам разнообразную работу;

б) отдел, руководитель которого, как правило, определяет каждому постоянную, достаточно узкую работу.

3. Предлагается на выбор два отдела, причем известно, что

а) в отделе “А” руководитель обычно дает исчерпывающие указания и постоянно корректирует работу подчиненных; б) в отделе “Б” руководитель обычно выдвигает лишь общую идею, дает общий детальный совет, но дальше предпочитает не вмешиваться в ход работы подчиненного.

............................................................................................................”

Эксперты определяли вначале соотносительный “вес” каждой из 14 ситуаций, а затем - “вес” каждого из возможных выборов в этих ситуациях с точки зрения того, насколько данная ситуация и данный выбор в ней соответствует в пользу ориентации специалиста на самостоятельность. Техника судейства напоминает ту, что используется при взвешивании пунктов шкалы Тёрстоуна. В нашем примере ответы 1а, 2а и 3б говорят о склонности быть самостоятельным. Соответственно в шкале от+10 до -10 судейские “веса” этих ответов: 8, 6 и 9.

д) Полезно дополнять вопросы о содержании вопросами на интенсивностьмнений. Так, в вышеприведенном примере целесообразно фиксировать не только качество выбора (какую альтернативу предпочел опрашиваемый), но и степень уверенности в сделанном выборе. Такое измерение хорошо для последующей квантификации данных в сводном индексе или шкале.

Каждый из выборов в предложенных ситуациях может сопровождаться вопросом: “В какой мере Вы уверены в своем выборе?” - с вариантами ответа: “Совершенно уверен - уверен - не очень уверен - трудно сказать”.

е) Следует обращать внимание на такой аспект, как асимметрия позитивного и негативного полюсов оценок. Дело в том, что люди вообще более тонко дифференцируют негативную зону восприятий (и эмоций), более грубо позитивную. Это связано с нашими психофизическими особенностями, благодаря которым сигналы опасности воспринимаются более надежно (так называемая позитивно-негативная асимметрия восприятия). Предлагая шкалу оценок мнений, мы почти всегда можем полагаться на ответы негативной зоны (например, оценки неудовлетворенности), но менее уверенно - на ответы позитивной зоны.

Для обеспечения высокой надежности процедуры выяснения мотивов оценок рекомендуется использовать технику постадийного развертывания вопроса.

- Фильтрующий вопрос, предназначенный для отсеивания некомпетентных.

- Прямой вопрос, выявляющий общую направленность мнения, обычно такого типа: “Что Вы думаете по поводу?...”.

- Дихотомический вопрос, уточняющий общую направленность: “Если брать в целом, Вы одобряете или осуждаете: согласны или несогласны; Вам нравится или не нравится?...”.

- Уточнение основания оценки или мнения, которое обычно вводится фразой: “Если в основном Вы не согласны с тем, что... не могли бы Вы пояснить свою мысль?”.

Определение интенсивности мнения: “В какой степени Вы уверены в своей оценке?”.

10.7. Конструкция вопроса и интерпретация ответа

Надежность данных существенно зависит не только от содержания планируемой информации, но, конечно, и от конструкции самого вопроса, целесообразность которой диктуется конкретной задачей и условиями опроса.

Открытые вопросы хороши на стадии проб, первичного ознакомления с испытуемыми. Предполагается, что ответ в свободной форме позволяет выявить доминанту мнений, оценок, настроений.

Контент-анализ ответов на открытый вопрос требует их классификации по тем же критериям, по которым были сформулированы вопросы закрытого типа. Те группировки ответов, которые преобладают, свидетельствуют о доминировании определенной тенденции (мнений, настроений, оценок), черты или свойства и т.п.

Недостатками открытых вопросов являются:

- неопределенность рамок и оснований, очерчивающих контекст, высказываемых испытуемыми, суждений;

- трудности обработки данных, необходимость “расшифровки” скрытых смыслов, вкладываемых испытуемыми в свои суждения.

Закрытые вопросы позволяют более строго интерпретировать ответ. Рамки соотнесения оценок и суждений определяются здесь набором единых для всех опрошенных вариантов ответа. Психолог имеет более надежные основания, чем при открытых вопросах, сопоставлять данные в равных условиях. Появляется возможность не только выяснить содержание суждений, но и измерить интенсивность оценок, шкалируя их по каждому варианту.

Главное основание выбора меры стандартизации ответов на вопрос -уверенность психолога в том, что предлагаемая им схема ответа максимально полно соответствует разнообразию возможных мнений опрашиваемых. Постановка закрытых вопросов предполагает соблюдение следующих правил:

1. Главное - максимально предусмотреть возможные варианты ответов. Используют также полузакрытый вариант, в котором оставляется прочерк и соответствующее место для дополнительных комментариев и замечаний отвечающего.

2. Формулируя варианты ответов (подсказки), следует помнить три важных правила:

- отвечающий на вопрос чаще выбирает первые подсказки, реже - последующие, поэтому первыми должны быть наименее вероятные варианты ответов.

- чем длиннее подсказка, тем меньше вероятность ее выбора, так как для усвоения смысла требуется больше времени, а респондент не склонен его тратить (поэтому подсказки должны быть примерно равной длины);

- чем более общий (абстрактный) характер имеет подсказка, тем меньше вероятность ее выбора. Люди часто мыслят очень конкретно, их раздражает неясность ситуации там, где исследователю-психологу она кажется предельно конкретной. Поэтому все варианты ответов следует выбирать на одном уровне конкретности.

3. Никоим образом нельзя комбинировать несколько идей в одной фразе, например: “Работа интересная и хорошо оплачивается”; “работа хорошо оплачивается, но неинтересная”. Вместо этого надо перечислить оба признака и предложить оценить их значимость по шкале интенсивности.

4. Все возможные варианты ответов должны быть отпечатаны на одной странице, чтобы отвечающий мог разом охватить рамки соотнесения оценок.

5. Нельзя печатать всю серию положительных подсказок ответов подряд и следом за нею - серию отрицательных, или наоборот. В этих случаях мнение навязывается самой последовательностью предложенных вариантов.

6. Список предложенных ответов иногда столь обширный, что опрашиваемый устает по мере продвижения к его концу, и с последними группами суждений работает менее внимательно, чем с первыми, или же начинает действовать сила инерции в ответах.

В таком случае целесообразно расчленить список на три блока и предложить опрашиваемым блокировку в одной последовательности, остальным группам - в другой. Для предупреждения “галло-эффекта”, когда под влиянием однотипных первых вопросов люди начинают отвечать также и на последующие, необходимо использовать вопросы-“глушители”. Цель таких вопросов - отвлечь внимание испытуемого на другую тему, устранить монотонность.

7. Ограничения выбора подсказок могут быть жесткими и нежесткими. Это зависит от программной цели вопроса и его смысла. Если по смыслу вопроса возможны комбинации разных выборов, притом в любом количестве, нельзя без особых пояснений ограничивать выбор условием: “Укажите не более трех наиболее важных пунктов”, например, при перечислении любимых предметов в школе, вузе, любимых увлечений.

8. Важную роль выполняет вариант, предполагающий возможность уклониться от ответа на закрытый вопрос: “трудно сказать”, “затрудняюсь ответить”,“не помню”, “не знаю”. Формула уклонения от ответа подчеркивает, что респонденту предоставляют достаточную свободу. Это побуждает его более добросовестно относиться к опросу в целом. Замечено, что отсутствие такой формулы там, где она явно предполагается содержанием вопроса, повышает процент вообще уклоняющихся от участия в опросе.

Если затронуты проблемы, по которым испытуемые не склонны высказываться откровенно, то наилучшей формой является косвенный вопрос. Наиболее распространенный способ замены прямых вопросов косвенными -перевод из личной формы в безличную. Так, вместо личного вопроса “Как Вы считаете” задают косвенный, безличный: “Некоторые полагают, что... Какие суждения, по Вашему мнению, наиболее справедливы?”. Ожидается, что опрашиваемый выберет те суждения, которых он сам придерживается.

Безличная форма вопроса употребляется для выявления мнений, расходящихся с общепринятыми. В вариантах ответов подчеркивается, что все они возможны и опрашиваемый не будет выглядеть “белой вороной”, если согласится с каким-то суждением.

Личная и безличная форма вопросов помогает также определить степень персональной заинтересованности или “уровень” включения индивида в различные социальные ситуации.

Изобилие закрытых, прямых и личных вопросов, т.е. максимальная стандартизация, приводит к тому, что испытуемого раздражает “насилие” организаторов обследования (опроса): “Им уже все известно заранее и остается лишь подтвердить их схемы”. Изобилие открытых, косвенных и безличных вопросов, напротив, снижает престиж исследователя в глазах опрашиваемых: “Спрашивают туманно, хитрят (косвенные вопросы)”. Основные принципы построения анкеты:

1. Программная логика вопросов не должна быть смешиваема с логикой построения анкеты. Опросный лист строится под углом зрения психологии восприятия опрашиваемого.

2. Непременный учет специфики культуры и практического опыта опрашиваемой аудитории.

3. Одни и те же вопросы, расположенные в разной последовательности, дадут разную информацию. Например, если сначала поставить вопрос об уровне удовлетворенности какой-то деятельностью и ее условиями (труда, быта и т.п.), а затем - вопросы на оценку частных особенностей деятельности (удовлетворенность содержанием работы, заработком, бытовым обслуживанием и пр.), то общие оценки будут влиять на частные, снижая (или, напротив, повышая) их независимо от специфики того или иного аспекта общей ситуации. Наблюдается, с одной стороны, стремление опрашиваемого психологически оправдать общую оценку и, с другой стороны, усиленное действие эффекта “эха” (галло-эффект), т.е. многократного повторения одной и той же оценки, отнесенной к общей группе проблем.

В таком случае следует частные вопросы ставить первыми, обобщающий - в конце соответствующего “блока”, предваряя фразой: “А теперь просим Вас оценить в целом, в какой мере Вы удовлетворены... своей нынешней работой...условиями жизни” и т.д. Оценка частных условий труда, быта и прочее предваряет общую, заставляет опрашиваемого более ответственно подойти к итоговой оценке, помогает разобраться в собственных настроениях.

4. Смысловые “блоки” опросного листа должны быть примерно одного объема. Доминирование одного какого-то “блока” неизбежно сказывается на качестве ответов по другим смысловым “блокам”.

5. Первые вопросы должны быть более простыми, далее следуют более сложные (желательно событийные, а не оценочные), затем - еще сложнее (мотивационные), потом-спад (снова событийные, фактологические) и в конце наиболее сложные вопросы (один-два), после чего - завершающая часть (паспортные данные).

10.8. Проба анкеты

Любой исследовательский инструмент проходит проверку на его обоснованность. В обычном “пилотаже” исследователь сначала тщательно анализирует сконструированный опросный лист по всем критериям. Затем размножает его в 25-30 экземплярах, которые и испытываются на опытной группе респондентов. Эта группа представляет микромодель планируемой выборки с выделением крайних значений ее параметров: полярных уровней образования. мужчин и женщин, других особенностей.

При пилотаже уточнению подлежат следующие вопросы, сформулированные в виде частных задач:

1. Выдержаны ли требования к языку опрашиваемого, не получилось ли так, что для части респондентов язык слишком труден, для другой, наоборот, примитивен?

2. Все ли вопросы и варианты ответов понятны?

3. Не слишком ли абстрактны вопросы или не слишком ли они конкретны?

4. Понятны ли респонденту единицы измерения, имеющиеся в анкете?

5. Компетентны ли опрашиваемые для ответов на вопросы, не следует ли включить “фильтры” на компетентность?

6. Нет ли опасности утомить опрашиваемого, как этого избежать? Как снизить монотонность?

7. Достаточно ли надежна память опрашиваемого для ответов на вопросы о прошедших событиях, не следует ли подстраховаться на этот случай?

8. Нет ли опасности получения “угодных” или стереотипных ответов?

9. Не слишком ли многочисленны варианты ответов на вопрос, смогут ли респонденты справиться с обилием вариантов, как сократить их число или как расчленить их по блокам?

10. Нет ли опасений вызвать недоверие или какие-нибудь отрицательные эмоции у опрашиваемых?

11. Не слишком ли задевается самолюбие или интимные стороны жизни опрашиваемого?

12. Какие ответы следует истолковывать буквально, а какие - понимать не в прямом смысле, и в каком именно, как осуществить контроль на интерпретацию ответа?

13. Все ли в порядке со стороны графического оформления опросного листа, нет ли переносов в смысловых кусках, насколько четко выделены шрифтами вопросы и инструкция для ответа, нет ли монотонности, однообразия в оформлении?

14. Какие пункты следовало бы особенно тщательно проверить в пробе? Нельзя ли сформулировать для них альтернативы и проверить наряду с имеющимся вариантом?


 

А также другие работы, которые могут Вас заинтересовать

33470. Фізичний або психічний примус 27 KB
  40 КК передбачає що не є злочином дія або бездіяльність особи яка заподіяла шкоду правоохоронюваним інтересам вчинена під безпосереднім впливом фізичного примусу внаслідок якого особа не могла керувати своїми діями. Підставою виключення злочинності діяння у випадку що аналізується є непереборний фізичний примус під безпосереднім впливом якого особа заподіює шкоду правоохоронюваним інтересам. Фізичний примус насильство це протиправний фізичний вплив на людину наприклад застосування фізичної сили нанесення удару побоїв тілесних...
33471. Форми співучасті 29 KB
  У такому разі говорять про просту і про складну співучасть: 1 проста співучасть співвиконавство співвинність має місце там де всі співучасники є виконавцями злочину і отже всі вони виконують однорідну роль. Але з погляду форми співучасті їх ролі однорідні всі вони безпосередньо виконують дії описані в диспозиції статті Особливої частини КК як ознаки об'єктивної сторони конкретного складу злочину в даному випадку розбою; 2 складна співучасть співучасть з розподілом ролей виявляється в тому що співучасники виконують різнорідні...
33472. Законодавство 29 KB
  Статті Загальної частини КК містять норми що встановлюють принципи та загальні положення кримінального права; чинність кримінального закону в просторі та часі; визначають поняття злочину; стадії вчинення злочину; ознаки суб’єкта злочину; зміст вини; співучасть у вчиненні злочинів; види множини злочинів; обставини що виключають злочинність діяння; підстави звільнення від кримінальної відповідальності від покарання та його відбування; загальні засади призначення покарання. Загальна і Особлива частини КК взаємозв’язані між собою і складають...
33473. Амністія 28 KB
  Тому акт амністії може полягати у звільненні від покарання основного і додаткового скороченні строку покарання звільненні від додаткового покарання. Помилування акт глави держави за яким певна особа чи кілька осіб повністю або частково звільняється від покарання або до неї застосовується більш м'яке покарання або ж з особи знімається судимість. 87; б повного або часткового звільнення від відбування як основного так і додаткового покарання; в заміни покарання або його невідбутої частини більш м'яким покаранням; г зняття...
33474. Види покарань, які застосовуються до неповнолітніх і особливості їх призначення 32 KB
  98 це такі основні види покарання: 1 штраф; 2 громадські роботи; 3 виправні роботи; 4 арешт; 5 позбавлення волі на певний строк. Крім того значно меншими є строки цих покарань: громадські.роботи можуть бути призначені на строк від тридцяти до ста двадцяти годин і тривалість їх не може перевищувати двох годин на день; строк виправних робіт встановлений від двох місяців до одного року при цьому відрахування в прибуток держави призначаються судом у розмірі від п'яти до десяти відсотків. 101 арешт полягає у триманні неповнолітнього в...
33475. Співучасники в злочині можуть виконувати різні ролі 31.5 KB
  Виконавцем (співвиконавцем) вважається особа, яка у співучасті з іншими субєктами злочину безпосередньо чи шляхом використання інших осіб
33476. Вина 46 KB
  Форми вини — це зазначені в кримінальному законі сполучення певних ознак свідомості і волі особи, що вчиняє суспільно небезпечне діяння
33477. Виправні роботи 26 KB
  57 КК застосовуються до особи за місцем роботи на строк визначений за вироком суду з відрахуванням у доход держави відповідного відсотка її заробітку. Виправні роботи призначаються на строк від шести місяців до двох років і обов'язково супроводжуються відрахуванням із суми заробітку засудженого у доход держави в розмірі встановленому вироком суду в межах від десяти до двадцяти відсотків заробітку засудженого. Виправні роботи це покарання яке широко застосовується на практиці.
33478. Громадські роботи 24.5 KB
  56 КК полягають у виконанні засудженим у вільний від роботи чи навчання час безоплатних суспільне корисних робіт вид яких визначають органи місцевого самоврядування. Громадські роботи встановлюються на строк від шістдесяти до двохсот сорока годин і відбуваються не більш як чотири години на день.