|
Валидность тестов. Словарьсправочник по психодиагностике издание 2е, переработанное и дополненное Серия Мастера психологии
ВАЛИДНОСТИ КОЭФФИЦИЕНТЫ — статистические показатели валидности эмпирической теста.
В качестве меры валидности наиболее часто на практике применяются разные виды корреляционного анализа связи между индивидуальными оценками по тесту и оценками по валидизации критерию (либо связь между результатами ва-лидизируемого теста и эталонной методики). В большинстве случаев распределение тестовых оценок в репрезентативной выборке валидизации близко к нормальному. Оценки по критерию чаще бывают дихотомическими, ранговыми (см. Шкалы измерительные) или распределяются по закону, отличному от нормального. Если оба ряда переменных (тестовые и критериальные оценки) носят континуальный характер, используют коэффициент корреляции произведения моментов Пирсона (см. Корреляционный анализ). В зависимости от шкалы представления переменных в сравниваемых рядах применяют те или иные методы корреляционного анализа (см. Корреляция качественных признаков, Корреляция бисериальная, Корреляция ранговая).
Наряду с В. к., определяемыми традиционным способом, существуют и некоторые другие меры количественной оценки валидности теста, в частности с помощью /-коэффициента, цредложенного Э. При-мовым (Е. S. Primoff, 1975). /-Коэффициент является одним из методов характеристики синтетической валидности (см. Валидность критериальная). Процедура его определения предусматривает нали-
чие перечня элементов сложной деятельности или способности, выраженных языком профессиональных или других специальных действий, и экспертной оценки относительной значимости этих элементов для осуществления данной сложной деятельности. Окончательный анализ проводится на базе корреляции оценок теста и отдельных элементов реальной деятельности с учетом их удельных весов. Статистическая обработка основана на применении уравнения множественной регрессии. Для каждого элемента деятельности его корреляция с деятельностью в целом умножается на «вес» в тесте, и полученные произведения суммируются по всем элементам деятельности.
В. к. являются важными, но далеко не определяющими и не исчерпывающими характеристиками валидности методики. В. к. являются лишь элементом в сложном процессе характеристики валидности теста.
Приблизительность отдельно вычисленного В. к. обусловлена многими факторами. Во-первых, условия валидности теста не представляется возможным определить полностью. Всегда остается множество неучтенных факторов, ситуаций, условий и т. д. Во-вторых, логика критериальной валидизации предполагает валидность самого критерия. Проверка такой валидности представляет собой весьма трудную проблему. К тому же очень часто тесты валидизируются относительно доступного, а не наиболее соответствующего критерия. Так, тесты интеллекта сопоставляются с показателями академической успеваемости, которая несомненно связана с интеллектом, но его далеко не исчерпывает. В-третьих, условия валидизации по критерию предполагают, что выборка полностью репрезентативна в популяции, для которой позже будут делаться заключения. В реальной ситуации это требование осуществить трудно, и репрезентативность выборки валидизации все-
гда требует дополнительной проверки статистическими и качественными методами. На практике обычно весьма сложно охватить адекватно большое количество случаев, особенно при определении валидности прогностической.
Наибольшая сложность интерпретации В. к. с т. з. определяемой реальной валидности теста заключается в следующем. Критериальная валидизация опирается, как правило, на круг внешних для психологии социально-прагматических критериев. Это оправдывается тем, что важнейшая цель валидизации — определение практической ценности разрабатываемой методики. Критерии в этом случае выступают как показатели, обладающие непосредственной ценностью для определенных областей практической деятельности, напр.: «успеваемость», «производительность*, «преступность», «состояние здоровья» и т. д. При ориентации на эти категории в ходе валидизации решаются сразу две задачи: собственно задача измерения валидности и оценка прагматической эффективности психодиагностической методики. Если получен значимый коэффициент корреляции, то можно считать, что с той или иной степенью достоверности решены с позитивным результатом сразу две эти задачи. Но если корреляция не обнаружена, то остается неопределенность: либо не валидна сама процедура (тестовый балл не отражает, напр., стрессоустойчивость оператора), либо не верна гипотеза о наличии причинно-следственной связи между психическим свойством и социально ценным показателем (стрессоустойчивость не влияет на процент аварийных ситуаций).
Наряду с перечисленными теоретическими и методическими сложностями применения и интерпретации В. к. необходимо помнить и об обеспечении статистической значимости рассчитываемых коэффициентов. Делая вывод о валидности теста
с привлечением В. к., нужно быть уверенным в том, что данный коэффициент не появился в результате случайных отклонений в выборке. Установив значимость корреляции между тестовыми показателями и критерием, необходимо оценить величину стандартной ошибки тестовых оценок. Применяемый при этом статистический показатель ошибки измерения указывает на допустимые пределы ошибки в индивидуальных показателях вследствие ог-- раниченной надежности теста. Аналогично ошибка в оценке указывает на допустимые пределы возможной ошибки в прогнозируемой величине индивидуального критериального показателя, возникающей в результате ограниченной валидности теста.
Ошибка оценки находится по формуле
Особенности интерпретации В. к. как статистических мер аналогичны другим мерам связи.
ВАЛИДНОСТЬ (англ. valid — действительный, пригодный, имеющий силу) — комплексная характеристика методики (теста), включающая сведения об области исследуемых явлений и репрезентативности диагностической процедуры по отношению к ним.
В наиболее простой и общей формулировке В. теста это «...понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает» (А. Анастази, 1982). В стандартных требованиях к психологическим и образовательным тестам (Standarts..., 1974) В. определяется как комплекс сведений о том, относительно каких групп психологических свойств личности могут быть сделаны выводы с помощью методики, а также о степени обоснованности выводов при использовании конкретных тестовых оценок или других форм оценивания. В психологической диагностике В. — обязательная и наиболее важная часть сведений о методике, включающая (наряду с указанными выше) данные о степени согласованности результатов теста с другими сведениями об исследуемой личности, полученными из различных источников (теоретические ожидания, наблюдение, экспертные оценки, результаты других методик, достоверность которых установлена и- т. д.), суждение об обоснованности прогноза развития исследуемого качества, связь изучаемой области поведения или особенности личности с определенными психологическими конструктами. В. описывает также конкретную направленность методики (контингент испытуемых по возрасту, уровню образования, социально-культурной принадлежности-и т.д.) и степень обоснованности выводов в конкретных условиях использования теста. В совокупности сведений, характеризующих В. теста, содержится информация об адекватности применяемой модели деятельности с т. з. отражения в ней изучаемой психологической особенности, о степени однородности заданий (субтестов), включенных в тест, их сопоставимости при количественной оценке результатов теста в целом.
Важнейшая составляющая В. — определение области изучаемых свойств —
имеет принципиальное теоретическое и практическое значение при выборе методики исследования и интерпретации ее данных. Содержащаяся в названии теста информация, как правило, недостаточна для суждения о сфере его применения. Это лишь обозначение, «имя» конкретной процедуры исследования. В качестве примера можно привести широко известную корректурную пробу. Область изучаемых свойств личности включает устойчивость и концентрацию внимания, психомоторную подвижность. Данная методика позволяет получать оценки выраженности этих психологических качеств у испытуемого, хорошо согласуется с показателями, полученными другими методами и, следовательно, обладает высокой В. Наряду с этим результаты выполнения корректурной пробы подвержены влиянию большого количества других факторов (нейродинамические особенности, характеристики кратковременной и оперативной памяти, индивидуальная переносимость монотонии, развитие навыка чтения, особенности зрения и т. д.), по отношению к которым методика не является специфичной. В случае применения корректурной пробы для их измерения В. будет невелика или сомнительна.
Таким образом, очерчивая сферу применения методики, В. отражает и уровень обоснованности результатов измерения. Очевидно, что при небольшом количестве сопутствующих факторов, влияющих на результат исследования, а значит, при их незначительном воздействии на результат теста достоверность тестовых оценок будет выше. Еще в большей степени достоверность данных теста определяется набором измеряемых свойств, их значимостью для осуществления диагностируемой сложной деятельности, полнотой и существенностью отражения в материале теста предмета измерения. Так, чтобы удовлетворить требованиям В., диагнос-
тическая методика, предназначенная для профотбора, должна включать анализ широкого круга нередко различных по своей природе показателей, наиболее важных для достижения успеха в данной профессии (уровень внимания, особенности памяти, психомоторика, эмоциональная устойчивость, интересы, склонности и т. д.).
Как видно из вышеизложенного, в понятие В. входит большое количество самой разнообразной информации о тесте. Различные категории этих сведений и способы их получения образуют типы В.
Диагностическая (конкурентная) В. отражает способность теста дифференцировать испытуемых по изучаемому признаку. Анализ диагностической В. имеет отношение к установлению соответствия показателей теста реальному состоянию психологических особенностей испытуемого в момент обследования (см. Валив-ность текущая). Примером определения этого типа В. может быть исследование по методу контрастных групп. Проведение теста интеллекта у нормально развивающихся детей и их сверстников с нарушениями в интеллектуальном развитии может выявить глубокие количественные и качественные различия в выполнении заданий сравниваемыми группами. Степень надежности дифференциации детей первой и второй групп по данным теста будет характеристикой диагностической В. оценки умственного развития, получаемой с помощью данной методики.
Сведения, характеризующие степени обоснованности и статистической надежности развития исследуемой психологической особенности в будущем, составляют валидность прогностическую методики. Заключение об этом типе В. может быть получено, напр., путем сравнения тестовых оценок в одной и той же группе испытуемых спустя определенное время. Основой прогностической В. является определение того, насколько важен исследу-
емый признак с т. з. деятельности испытуемого в будущем с учетом закономерно изменяющихся обстоятельств, перехода на другой уровень развития.
Большинство методик, особенно тестов способностей и интеллекта, исследуется на предмет диагностической и прогностической В. Два этих типа В. нередко объединяют в понятие валидности эмпирической. Здесь подчеркивается общность подхода к их определению, который осуществляется путем статистического коррелирования баллов (оценок) по тесту и показателей по внешнему параметру, избранному в качестве валидизации критерия (см. Валидностъ критериальная). Критерий В. выступает в качестве меры, показателя исследуемых психологических особенностей. Так, тесты специальных способностей проверяются путем сопоставления с результатами обучения по другим предметам, достижениями в музыке, рисовании и т. д. Тесты общих интеллектуальных способностей валиди-зируются сравнением с еще более широкими характеристиками школьных достижений (общая успеваемость, овладение сложными системами знаний и навыков). Критерий В. является независимым от теста показателем, обладающим непосредственной ценностью для определенных областей практической деятельности. Напр., в области педагогической психологии это «успеваемость», в психологии труда — «производительность», в медицинской психологии — «состояние здоровья» и т. д. В качестве непосредственных критериев часто используются экспертные оценки и характеристики лиц, обследованных с помощью валидизируемого теста, данные педагогами, сотрудниками, руководителями.
Во многих случаях бывает сложно или невозможно подобрать адекватный критерий валидизации. При этом особую важность приобретает комплекс характерис-
тик, входящих в тип теоретической В. При разработке и использовании теста может быть сформулирован ряд гипотез о том, как будет коррелировать исследуемый тест с другим тестом, измеряющим родственные или противоположные психологические характеристики испытуемых. Эти гипотезы выдвигаются на основании теоретических представлений об измеряемых свойствах как о психологическом конструкте. Подтверждение гипотез свидетельствует о теоретической обоснованности методики, т. е. о степени ее конструктной валидности. Этот тип В. является наиболее сложным и комплексным. Для подтверждения соответствия получаемых с помощью теста результатов теоретическим ожиданиям и закономерностям используется самая различная информация, в том числе и относящаяся к другим типам В.
Валидность содержательная(внутренняя, логическая) — комплекс сведений о репрезентативности заданий теста по отношению к измеряемым свойствам и особенностям. Одним из основных требований при валидизации методики в этом направлении является отражение в содержании теста ключевых сторон изучаемого психологического феномена. Если область поведения или особенность очень сложна, то содержательная В. требует представления в заданиях теста всех важнейших составных элементов исследуемого явления. Так, при разработке теста «вербального интеллекта» необходимо ввести группы заданий (субтестов) для проверки довольно разнородных по своему операциональному составу навыков письма и чтения.
Наряду с перечисленными основными типами В. (содержательной, критериальной и конструктной) на практике выделяют факторную, перекрестную (конвергентную) и дискриминантную В. (см. Валидность конструктная).
Классификация типов В. в достаточной мере условна, так как нередко для различных критериев В. применяются общие методы определения, а с другой стороны, одни и те же исходные данные могут интерпретироваться с т. з. различных типов В. На рис. 9 приведена примерная схема, отражающая виды и связи валидности.
Рис. 9. Основные виды валидности
В психологической диагностике не существует универсального подхода к характеристике В. Для валидизации каждого вида психодиагностических процедур и отдельных тестов могут применяться различные, типы В. Сведения, входящие в комплекс В., можно оценить качественно и количественно (при помощи коэффициента валидности), нередко их можно описать. Однако в силу сложности, комплексности, ситуативности по отношению к конкретным условиям применения методики В. в целом невозможно измерить, о ней можно лишь судить.
Реальная В. раскрывается только в результате накопления значительного опыта работы с тестами. Получение новых, расширенных данных о В. может радикально изменить представление о сфере приложения и эффективности методики. Так, некоторые методики, разработанные
для диагностики вербальных факторов интеллекта, с достаточной В. отражают лишь уровень осведомленности. Сфера применения теста в ходе его длительной валидизации может быть, напротив, расширена. В качестве примера можно привести Равена прогрессивные матрицы, которые были разработаны для изучения определенных сторон перцептивной деятельности, однако оказались в значительной степени насыщены фактором, общим для тестов интеллекта (см. Фактор G). Реальная В. ряда психодиагностических методик, особенно тестов интеллекта, достижений в обучении, профессиональной пригодности, опросников личностных изменяется со временем. Это объясняется устареванием возрастных статистических норм, изменением социальных норм и образцов поведения, методов обучения и содержания заданий, требований к профессиям. Данное обстоятельство создает необходимость периодического контроля В. методик.
ВАЛИДНОСТЬ ДИФФЕРЕНЦИАЛЬНАЯ — ъка, валидности конструктной, рассматривающей внутренние взаимоотношения между психологическими факторами, диагностируемыми с помощью психодиагностической методики. Содержание В. д. может быть иллюстрировано на примере тестов интересов, которые в своем большинстве обычно умеренно коррелируют с показателями общей академической успеваемости,однако в различной степени связаны с успеваемостью по отдельным дисциплинам. В. д. особенно важна как показатель диагностической ценности методик, используемых в профотборе.
ВАЛИДНОСТЬ ИЛЛЮЗОРНАЯ (ложная) — иллюзия соответствия заключения по результатам тестирования личностным характеристикам обследуемого. Возникает как следствие использования
предельно общих, а поэтому применимых практически ко всем обследуемым формулировок, таких, например, как «разумный в выборе цели», «стремящийся к лучшей жизни» и т. п. Такого рода утверждения принимаются почти всеми людьми в качестве точного описания их личности, что создает почву для деятельности различного рода прорицателей и предсказателей. В. и. названа Барнума эффектом по имени Финиса Барнума, популярного организатора публичных зрелищ, говорившего, что «глупец рождается ежеминутно».
|
|
|