|
Валидность тестов. Словарьсправочник по психодиагностике издание 2е, переработанное и дополненное Серия Мастера психологии
КРИТЕРИАЛЬНО-КЛЮЧЕВОЙ ПРИНЦИП — принцип конструирования тестов на основе обнаружения (эмпирического) психологических признаков, позволяющих дифференцировать релевантные критериальные группы от контрольных. Широко используется для конструирования психодиагностических методик наряду с факторно-аналитическим принципом. Примером методик, в которых реализован К.-к. п., являются опросники эмпирические, такие как Минне-сотский многоаспектный личностный опросник, «Бланк интересов» Стронга (см. Опросники интересов) и др.
Так, при разработке MMPIиз первоначального банка утверждений в основные клинические шкалы включались только те, которые хорошо дифференцировали испытуемых с тем или иным клиническим диагнозом от контрольной группы здоровых людей (см. Дискриминативность заданий теста). В шкалы «Бланка интересов» Стронга вошли те утверждения из первоначального набора, которые реально разделяли группы лиц, являвшихся носителями определенных интересов. Иногда задания, объединенные общей шкалой в силу эмпиричности конструирования, не имеют не только теоретического, но даже интуитивного, гипотетического объяснения.
В тех случаях, когда необходимо дискриминировать группы, напр., в профотборе, К.-к. п. является достаточно эффективным.
В тестах, созданных в соответствии с К.-к. п., основное значение придается дис-криминативности. Важен тот факт, что
тест является дискриминативным, а не причина, по которой это происходит. В связи с использованием К.-к. п. конструирования тестов возникает ряд проблем, которые должен решать разработчик. К их числу в первую очередь следует отнести трудности в отборе критериальных групп. MMPI, например, разрабатывался, как указывалось выше, путем сопоставления больных и здоровых, однако- разработка шкалы шизофрении (Sc) или паранойи (Р&) с большим успехом могла бы опираться на сопоставление группы больных с выраженными шизоидными или паранойяльными тенденциями с группой пациентов, у которых отмечаются противоположные патологические особенности, но это практически нереально. Комплектование критериальной группы больных опиралось на врачебный диагноз, который разными специалистами может восприниматься по-разному. Сложность в отборе «чистых» групп для сравнения ведет, в конечном итоге к снижению надежности и валид-ности теста. (См. также Контрастные группы.)
Другая проблема связана со значительными трудностями, а иногда и невозможностью психологической интерпрета- ■ ции показателей тестов, созданных в соответствии с К.-к. п. Наиболее вероятным является то, что одна критериальная группа отличается от релевантной ей не одним, а несколькими (иногда многими) переменными. Полученные шкалы являются, таким образом, не однозначными, а мультивариантными. Следовательно, два идентичных показателя могут иметь различную интерпретацию, и не существует определенного способа-по виду показателя установить, что измеряет данная шкала. Факт, что тест может дискриминировать группу Xот группы У, не говорит ничего о природе переменной, измеряемой тестом, если только мы не располагаем доказательством, что группы отлича-
ются одна от другой лишь по одной переменной.
Результатам тестов, разработанных на основе К.-к. п., присуща известная специфичность, что также является серьезным ограничением. Например, если такой тест используется для.отбора сборщиков электронной аппаратуры, он будет разрабатываться на основе конкретного критерия, связанного с выполнением работы определенного характера. Если содержание работы изменится, разработанный на основе неадекватных критериальных признаков тест станет бесполезен. В противовес этому тесты, ориентированные на базовые способности, по-прежнему могут быть использованы.
Факторный тест, относительно «чистый» по исследуемым переменным и опирающийся на теорию измеряемого конструкта, как можно ожидать, будет предпочтительней страдающих эмпиричностью тестов, созданных в соответствии с К.-к. п. Однако разработка факторно-аналитического теста является технически более сложной, трудоемкой задачей.
Не нужно противопоставлять К.-к. п. конструирования тестов факторно-аналитическому принципу; следует помнить, что при подборе первичного банка заданий разработчики исходят, как правило, из описания некоего свойства, конструкта, являющегося объектом измерения. С другой стороны, разработанный по К.-к. п. тест в последующем может пройти процедуру факторизации.
«Эмпиричность* таких тестов в значительной степени сглаживается и последующей процедурой определения валидное-ти конструктной.
Для методик, созданных в соответствии с К.-к. п., наибольшее значение имеют эмпирические модели определения надежности (см. Надежность ретестовая, Надежность параллельных форм, Надежность частей теста).
КРИТЕРИЙ X2 (критерий согласия Пирсона) — характеристика распределения, используемая для проверки статистических гипотез. Под статистическим критерием подразумевается правило, обеспечивающее с определенной вероятностью принятие истинной или отклонение ложной гипотезы. В качестве критериев в математической статистике применяют определенные случайные величины, являющиеся функциями изучаемых случайных величин и чисел степеней свободы. Одним из наиболее часто применяемых является К. X2, представляющий собой сумму квадратов отклонений эмпирических частот (р) от теоретических или ожидаемых (p')t отнесенную к теоретическим частотам:
При полном совпадении эмпирических и ожидаемых частот S (р - р') = 0. При несовпадении производится сравнение эмпирической величины X2 с его критическим значением, определенным по таблицам (см. Приложение III, табл. 3). Нулевая гипотеза, которая предполагает, что расхождение между эмпирическими частотами и математическим ожиданием носит случайный характер и между вычисленными и эмпирическими частотами разницы нет, опровергается, если X2 £ Х2Р для принятого уровня значимости (а) и числа степеней свободы (df). В качестве примера проанализируем с помощью К. X распределение частот выбора ответа на закрытый пункт теста (см. Задачи закрытого типа). Предлагаемые варианты неправильных ответов должны быть примерно равновероятны. При обследовании 100 человек, отвечающих на проверяемый пункт неверно, результаты распределились следующим образом (табл. 14).
Степень свободы для данного случая df = п - I =4 (где п — число вариантов ответа). По табл. 3 Приложения III для а = 0,01 и df 4 находим Х2кр = 3,28. Полученное значение X2 = 9,5 меньше табличного. Следовательно, при решении задачи может быть принята гипотеза о примерно равновероятном распределении выбора ответов а, Ь, с, d, e. При повторных случайных выборках вероятность ложного вывода составит 1 %.
В качестве другого примера рассмотрим проверку нормальности распределения тестовых оценок (см. Оценка типа распределения). Исходные данные приведены в табл. 15, 16.
Число степеней свободы определяется в данном случае исходя из свойств нормального распределения df=k—§ (ограничения свободы вариации х, Sx, n). В результате объединения частот в крайних классах (см. ниже) число классов сократилось с 9 до 7, тогда df= 4. По таблице критических значений X2для а = 0,05 находим %2крв 9,49, X2 < %2кр, следовательно, распределение тестовых оценок идет по нормальному закону, расхождения между эмпирическим и нормальным распределением случайны и несущественны.
Как видно из данного примера, для проверки гипотезы о законе распределе-
ния необходимо сопоставить эмпирические и расчетные теоретические частоты. Последние рассчитываются на основании эмпирических данных по формулам, описывающим тот или иной закон распреде-
ления вероятностей. Так, для проверки нормальности распределения теоретические частоты рассчитываются по формуле:
где пхи я2 — объемы сравниваемых выборок, р{н р2 — частоты первого и второго рядов. Нулевая гипотеза сводится к тому, что сравниваемые выборки взяты из одной и той же совокупности генеральной и, следовательно, несовпадение между частотами Р] и р2носит случайный характер.
К. X2обычно используется для проверки гипотез о соответствии (согласии) эмпирического распределения теоретическому (см. приведенные выше примеры); при проверке гипотез о статистической независимости признаков (при Х2>Х^р предложение об отсутствии связи между признаками отвергается). Теснота связи может быть рассчитана с помощью коэффициента сопряженности Пирсона (см. Корреляция качественных признаков), при подтверждении гипотезы об однородности распределения признаков в разных совокупностях (в этом случае нулевая ги: потеза формулируется как предположение о сходстве распределения признака в двух совокупностях генеральных, из которых взяты независимые выборки объемами п_ и nj:
Преимуществами К. X* являются применимость его для различных распределений дискретных и непрерывных признаков, необязательность предварительных сведений о законе распределения изучаемой переменной. При использовании К. X2 следует учитывать такие ограничения:
— сравниваемые выборки должны быть получены из независимых наблюдений;
— минимальное значение эмпирической частоты не должно быть менее 10, теоретической — менее 5. Если это требование не выполняется, необходимо увеличить объем выборки или объединить интервалы группировки, суммируя их частоты (см, выше пример сравнения эмпирического и нормального распределения).
КРОУНА—МАРЛОУ СОЦИАЛЬНОЙ ЖЕЛАТЕЛЬНОСТИ ШКАЛА (Crow-ne—Marlowe Social Desirability Scale, CMSDS) — опросник личностный. Разрабо-
тан Д. Кроуном и Д. Марлоу в 1960 г. для диагностики мотивации одобрения.
К.—М. с. ж. ш. состоит из 33 утверждений (18 социально одобряемых и 15 социально неодобряемых образцов поведения), с каждым из которых испытуемый должен выразить, согласие или несогласие. Примеры утверждений (из русскоязычного варианта): 1. Я внимательно читаю каждый документ, прежде чем его подписать; 7. Иногда я люблю позлословить об отсутствующих;
17. Были случаи, когда я завидовал удаче других.
Каждый ответ, совпадающий с ключом, оценивается в 1 балл. Итоговый показатель мотивации одобрения получают суммированием всех баллов. Этот показатель характеризует мотивационную структуру субъекта и, в частности, степень его зависимости от благоприятных оценок со стороны других людей, его ранимость и чувствительность к средовым и межличностным влияниям. Иными словами, шкала позволяет получить косвенную меру потребности человека в одобрении со стороны других людей,
Авторы шкалы руководствовались стремлением разработать инструмент, свободный от известной фиксированнос-ти на патологических симптомах, что в той или иной степени присуще ранее созданным шкалам (см. Шкалы контрольные). Кроме того, была поставлена задача дифференциации содержания утверждений от влияния собственно мотивов.. Имеются данные о достаточно высокой валидности и надежности К.—М. с. ж. ш.
В СНГ известен русскоязычный сокращенный вариант шкалы (20 утверждений), стандартизированный на выборке более 800 человек с последующей проверкой валидности и надежности (Ю. Л. Ха-нин, 1974, 1976). Шкала применяется:
при исследовании мотивации одобрения; для контроля за степенью установочного поведения и склонностью к соответствующим искажениям ответов в тестах (см. Установки на ответ); при изучении предпочтительных средовых и межличностных влияний.
КРУГОЗОРА И ИНФОРМИРОВАННОСТИ ТЕСТ — вербальный тест интеллекта, предназначенный для оценки общей осведомленности детей. Разработан Й. Йирасеком в 1953 г.
Материал теста состоит из 40 вопросов, расположенных в порядке возрастания трудности, В зависимости от полноты ответа выставляется оценка 2, 1 или О баллов. Первичные баллы с помощью таблиц переводятся в показатели IQдля возрастных групп от 8 до 13,6 года.
Автор приводит следующие данные о психометрических свойствах теста:
— валидность конструктная, определенная корреляцией со Станфорд— Вине шкалой умственного развития, имеет значение г = 0,76.
— надежность частей теста г = 0,96,
— показатель- внутренней согласованности г = 0,67.
— валидность содержательная обеспечена отбором тестовых заданий из первоначального состава в 60 вопросов.
Тест может найти применение в школьной и клинической психодиагностике как скрининговая методика (см. Отсеивание).
Данных об использовании в СНГ не имеется.
КУДЛИЧКОВОЙ ЛИЧНОСТНЫЙ ОПРОСНИК (КУД) — опросник личностный. Разработан Е. Кудличковой в 1964 г.
Опросник содержит 80 вопросов, на которые испытуемые могут отвечать:
«согласен», «не знаю», «не согласен*. Применим для взрослой популяции без ограничения возраста, допускает как индивидуальное, так и групповое обследование. На основании оценки первичной испытуемых размещают на девятибалльной шкале станайнов (см. Оценки шкальные).
Диагностика опирается на анализ пяти биполярных факторов личности: устойчивость—лабильность, активность—пассивность, доминантность—подчиненность, рациональность—чувствительность, экстра—интроверсия. Перечисленные факторы, по мнению автора, включают следующие свойства (в скобках приведены примеры вопросов, диагностирую-щих соответствующие факторы):
— Активность: быстрота реакций, решительность, динамичность (Бывает, что я никак не могу принять какое-то решение и упускаю возможность сделать что-либо своевременно),
— Пассивность: медлительность, нерешительность, отсутствие напористости (Чаще всего я стараюсь действовать так, чтобы «не напороться на какие-либо неприятности»).
— Лабильность: возбудимость, неуравновешенность, беспокойство, импульсивность (Обычно я ничего не планирую, действую -по настроению в данный момент).
— Стабильность: уравновешенность, рассудительность, владение собой, постоянство (Я сохраняю спокойствие даже тогда, когда другие люди теряют самообладание).
— Доминантность: властность, самоуверенность, авторитарность, агрессивность (С удовольствием выступаю в роли организатора).
— Подчиненность: несамостоятельность, покорность, терпимость (В коллективе, компании других людей я легко поддаюсь уговорам, проявляю покладистость).
— Рациональность: рефлексивность, объективность, рассудительность (Я высказываю свои мысли, тщательно подумав, стремлюсь выразить их как можно точнее).
— Чувствительность: богатое воображение, интуиция, непосредственность, субъективизм (Я обычно придаю важное значение внешнему виду и одежде людей — обращаю внимание, одеты ли они по моде, смотрю на качество ткани).
— Экстраверсия: кооперативность, общительность, открытость, социабель-ность, разговорчивость (Я был бы очень огорчен, если бы длительное время не мог встречаться со своими знакомыми, друзьями).
— Интроверсия: замкнутость, сдержанность, внешняя холодность (Чтение книг доставляет мне больше удоволь-
' ствия, чем встречи и беседы со знакомыми и приятелями). В процессе психометрической разработки опросника особое внимание уделялось валидности содержательной утверждений. Устанавливалась внутренняя согласованность, а также дискрими-нативность отдельных утверждений. В окончательную версию К. л. о. были включены только те утверждения, которые соответствовали статистическим критериям, однако точные данные в руководстве не приведены. Имеются сведения о надежности ретестовой {rt = 0,80 -- 0,96). Нормы в станайнах разработаны автором для ограниченного контингента испытуемых (студентов, аспирантов вузов, женщин и мужчин, занимающих руководящие должности, рабочих отдельных специальностей, работников здравоохранения). Допускается как индивидуальное, так и групповое обследование.
Опросник рекомендуется для диагностики личности, однако примитивность стандартизации, условность норм, от-
сутствие сведений о валидности конст-руктной и валидности критериальной делают его скорее средством для получения ориентировочной, предварительной информации.
Сведений об использовании в СНГ нет.
КУКОЛ ТЕСТ (Puppetry Test) — проективная методика исследования личности, разрабатывалась А. Вольтманом (1951), М. Гауорт (1957) и другими психологами. Ранее процедуры, близкие К. т., использовались психоаналитически ориентированными исследователями как терапевтическая техника для детей в возрасте до 10 лет (М. Рамберт, 1938).
Стимульный материал методики представлен куклами, число которых у разных авторов не совпадает. Ребенка просят разыграть с куклами различные сцены, напр, соперничество с братом, сестрой или ситуации с участием отца, матери, других близких. Иногда детям предлагают поставить кукольное представление. Такая организация исследования под руководством экспериментатора-режиссера сближает К. т. с психодрамой. Процедура обследования не стандартизована. Отсутствует система оценки полученных данных, не разработана схема интерпретации. Упор делается на интуицию исследователя. Попытки стандартизации К. т. предприняты М, Гауорт, создавшей фильм — кукольное представление, однако данные о валидности и надежности теста отсутствуют.
Сведений об использовании в СНГ не имеется.
|
|
|