Валидность тестов. Словарьсправочник по психодиагностике издание 2е, переработанное и дополненное Серия Мастера психологии
Скачать 5.87 Mb.
|
ВАЛИДНОСТЬ ПРОГНОСТИЧЕСКАЯ — информация о том, с какой степенью точности и обоснованности методика {тест) позволяет судить о диагностируемом психологическом качестве спустя определенное время после измерения. В. п. отражает временной интервал, на который распространяется обоснование такого суждения. Сведения о В. п. имеют самое непосредственное отношение к раскрытию предсказательной силы методики, выяснению степени обоснованности сформулированного на ее основе ближайшего и более отдаленного прогноза, анализу значимости получаемых в тесте показателей с т. з. экстраполирования результатов на будущее. В стандартных требованиях к педагогическим и психологическим тестам (Standarts.... 1974) различают В. п. и валидность текущую в зависимости от временной связи между критерием и тестом. Эти два вида относятся к валидное-ти критериальной теста. Иногда говорят о предсказательной валидности. Термин «предсказание», по мнению А. Анастази (1982), может использоваться как в широком смысле, означая прогноз на основе данных тестирования поведения испытуемого в реальной (критериальной) ситуации, так и в более узком смысле, указы- вая лишь на временной интервал. В последнем смысле он и используется в В. п. Характеристика В. п. определяет отрезок времени, для которого задается или проверяется связь с критерием исследуемых качеств. В качестве валидизации критерия могут выступать не только показатели актуального поведения, но и ожидаемые результаты деятельности, лечения, обучения и т. д. Процедура определения В. "п. опирается на анализ корреляции между оценками по тесту и предсказанными результатами деятельности, формирующимися свойствами личности, исходом лечения и т. п. Вместе с тем различие двух видов критериальной валидности связано не только с временными пределами критериальных сопоставлений. Валидность текущая и В. п. отражают разные цели при-, менения методики: текущий диагноз, оценка настоящего положения, с одной стороны, и прогнозирование развития качества или успеха в деятельности — с другой. Сравнивая В. п. и валидность текущую, следует отметить, что, несмотря на общий принцип критериального сопоставления, характерный для двух типов валидности, оценка В. п. является более сложной проблемой. Точность прогноза и, следовательно, суждения о В. п. находится в обратной зависимости от времени, заданного для такого прогнозирования. Обоснование отдаленной экстраполяции данных теста требует учета большего количества факторов, чем оценка диагностической значимости теста. С большими сложностями сопряжено определение В. п. для тестов, направленных на измерение комплексных свойств и видов деятельности, таких сложных психологических конструктов, как общие способности, особенности личности, уровни достижений в учебной и профессиональной деятельности и т. д. Развитие этих психологических свойств в большой степени зависит от приобретаемых знаний, навыков и может резко изменяться в зависимости от обстоятельств жизни и деятельности индивида. Особую проблему представляет прогноз качеств в случае изменения со временем наиболее важных для их реализации элементов. Так, при прогнозе достижений в овладении чтением на первых этапах обучения одним из ведущих показателей, на котором может базироваться прогноз, является беглость. Впоследствии ведущей характеристикой становится уровень понимания, развитие которого будет доминирующим при обучении чтению. С этого момента методика, опирающаяся лишь на показатели темпа, теряет прогностическую значимость, поскольку повторяет уже пройденные этапы развития навыка. При диагностике обучаемости младших школьников в комплексе показателей, на которые может опираться прогноз, на первый план выступает механическая память. В старших классах прогностическое значение этого показателя значительно снижается, уступая место смысловой организованной памяти, аналитическому усвоению знаний. Приведенные примеры указывают на необходимость глубокого анализа психологических конструктов, лежащих в основе тестов, понимания динамики их развития, четкого представления о значимости изучаемых показателей с т. з. будущей деятельности. Необходимость такого анализа при определении отдаленной В. п. сближает эти характеристики теста с ва-лидностью конструктной. При отдаленном критериальном сопоставлении легко получить неправильное представление о В. п., если взять для сравнения независимый критерий, применявшийся раннее для текущей валидизации. Так, объективный показатель успешности профессиональной деятельности к моменту отдаленного сопоставления может оказаться слишком простым (напр., если тест достижении при анализе его диагностической валидности сопоставляется с успешностью выполнения самой простой сборочной операции, которая в момент отдаленного сравнения хорошо усваивается практически всеми испытуемыми из выборки валидизации). Более правильным будет сопоставление с новым уровнем независимого критерия, комплексом более сложных навыков и операций, требующихся для успешной профессиональной деятельности с учетом приобретенного работниками опыта. Определение нового, более сложного независимого критерия может базироваться на исследовании статистического распределения и разброса показателей критерия в выборке лиц, относительно которой проверяется В. п. методики. При использовании критериев деятельности, определяемых субъективными методами (напр., экспертной оценкой), необходимо избегать возникновения явления контаминации критерия. В ряде случаев текущая валидность заменяет В. п. Часто практически невыгодно слишком затягивать валидизацию, изучая отдаленные критериальные меры тестируемого свойства в обследуемой выборке валидизации. В качестве компромиссного решения для ускорения процедуры валидизации тест может быть проведен на группе, для которой уже имеются критериальные данные. Напр., результаты обследования студентов могут сравниваться с данными об их успеваемости, данные тестирования служащих — с их успешностью в деятельности. В отдельных случаях для быстрого получения сведений о предсказательных возможностях можно воспользоваться ретроспективной валидиза-цией (см. Валидность критериальная). Так, для проверки того, в какой мере хорошие результаты теста способностей соответствуют быстрому обучению в какой-либо области, можно сопоставить критериальные оценки (успеваемость, ретро- спективные экспертные заключения и т. д.) за период обследования и в текущий момент у лиц с высокими и низкими оценками по тесту. Одним из наиболее надежных способов получения сведений о прогностических возможностях результата теста является метод «когорт». Предположим, следует проверить, насколько результат теста, предназначенного для изучения некоторых аспектов эмоциональных состояний у больных предсказателен в отношении вероятности возникновения психосоматических заболеваний, позволяет ли определенный результат по этому тесту судить о повышенном риске подвергнуться таким расстройствам. Учитывая вероятный объем экстремальных (контрастных) групп, выборка должна быть достаточно большой. На основании эпидемиологических данных.напр., можно предположить, что определенной болезнью в течение трех лет заболевает 57 человек из 1000. Тогда превентивной диагностикой должно быть охвачено около 2000 человек, чтобы получить численность группы заболевших порядка 100. Прогностические возможности в таком случае будут подтверждаться исходя из значимости количественных различий в результатах теста, проведенного в момент набора «когорт» из числа заболевших и здоровых (Практикум по психодиагностике, 1984). Определение В. п. обязательно для правильного использования и интерпретации результатов большинства тестов. Глубокое изучение этих характеристик необходимо для формулирования прогноза в диагностическом заключении на основании данных методики, выявления значения измеряемых тестом показателей в динамике развития изучаемых свойств и способностей. Естественно, наибольшее значение критерий В. п. имеет для методик, прямо или косвенно направленных на предсказание развития того или иного психологического свойства или вида дея- тельности. К их числу в первую очередь относятся тесты общих способностей, профориентационные методики, тесты отбора и т. д. Важность показателей В. п. при анализе тестовых процедур, направленных на отбор, подчеркивается введением специального понятия валидности инкре-ментной. Этот показатель В. п. дает информацию о том, насколько улучшается процедура отбора с применением данного теста по сравнению с традиционной (основывающейся лишь на формальных сведениях о предыдущей деятельности, анализе документов личного дела, беседах). ВАЛИДНОСТЬ СОДЕРЖАТЕЛЬНАЯ — один из основных типов валидности методики, характеризующий степень репрезентативности содержания заданий теста измеряемой области психических свойств. Комплекс сведений В. с. традиционно имеет наибольшее значение для тестов, исследующих деятельность, близкую или совпадающую с реальной (чаще всего учебной или профессиональной). Изучаемая деятельность носит, как правило, синтетический характер, складывается из многих, подчас разнородных факторов (проявления личностных особенностей, комплекс необходимых знаний и навыков, специфические способности и т. д.). Поэтому одной из важнейших задач создания адекватной модели тестируемой деятельности является подбор таких заданий, которые будут охватывать главные аспекты изучаемого феномена в правильной пропорции к реальной деятельности в целом. Валидность по содержанию закладывается в тест уже при подборе заданий будущей методики. Первым этапом вали-дизации является определение круга исследуемых свойств и видов деятельности, расчленение сложной способности или деятельности на элементы. На втором этапе разрабатывают собственно модель тестовой деятельности на основе наиболее важных элементов реальной деятельности. Наконец, на последнем этапе проводят анализ степени соответствия разработанной модели реальной деятельности, проверку соответствия пропорций пред-ставленности элементов в заданиях теста и в реальной деятельности. Так, для тестов достижений по отдельным предметам разработке конкретного содержания тестовых задач предшествуют полная систематическая проверка соответствующих учебников и учебных программ, а также консультации со специалистами по данному предмету. На основе собранной таким путем информации составляют спецификацию теста, где указывают тестируемые области содержания (темы), задачи (процессы) обучения, а также относительное значение каждой темы и процесса для достижения целей обучения на данном этапе. Конкретные задания оцениваются экспертами по принципу их близости к реальным требованиям. Эксперты выносят суждения о том, охватывает ли тест репрезентативную выборку конкретных навыков и знаний исследуемой области, обучения. Широкое использование экспертных оценок сближает В. с. с процедурой определения валидности критериальной. Однако существенным различием между этими типами валидности является то, что экспертные оценки при анализе содержания являются критерием самого теста, в то время как при критериальной валиди-зации они относятся к испытуемым из выборки стандартизации. Расчленение изучаемой деятельности или способности на элементы является необходимым этапом характеристики синтетической валидности (см. Валидность критериальная). В В. с. синтетический подход реализуется в анализе элементного состава содержания самого теста, а не совокупности внешних валидизации критериев. Экспертная оценка адекватности содержания заданий теста может быть дополнена при характеристике В. с. рядом эмпирических процедур. Так, можно проверить, насколько от класса к классу повышается суммарный показатель для группы и индивидуальное выполнение теста достижений. Эта процедура в значительной мере близка определению валидности конструктной с помощью критерия возрастной дифференциации (см. Валидность по возрастной дифференциации). Роль этого критерия при оценке В. с. заключается не в верификации конструкта, лежащего в основе теста, а лишь в анализе гипотез, приведших к выбору того или иного материала теста. Наряду с тестами достижений В. с. является одной из важнейших форм валидизации тестов критериально-ориентированных, а также методик, предназначенных для профотбора, анализа успешности овладения профессией. Для валидизации опросников личностных и тестов интеллекта критерии В. с. имеют ограниченное применение и используются лишь на начальных стадиях составления теста. Личностные опросники, как правило, не имеют того сходства с исследуемой областью поведения, как это имеет место в случае тестов достижений. Ответы на вопросы анкеты, опросника, данные проективных исследований позволяют лишь косвенно судить о реальной деятельности испытуемого. Проявление личностных свойств и реализация способностей в деятельности могут носить индивидуальный характер. При проведении теста интеллекта эффективное решение заданий может достигаться за счет логического мышления, механической памяти, психомоторной подвижности, разными путями и способами. Наконец, в отличие от тестов достиже- ний, опросники личностные и тесты интеллекта прямо не связаны с конкретным курсом обучения или общностью предшествовавшего жизненного опыта, на которых строится содержание тестов достижений. ВАЛИДНОСТЬ ТЕКУЩАЯ (диагностическая, конкурентная)— характеристика теста, отражающая его способность различать испытуемых на основании диагностического признака, являющегося объектом исследования в данной методике. В качестве таких признаков могут выступать уровни общих способностей, притязаний, вербальный интеллект, тревожность и т. д. В более узком значении В. т. — установление соответствия результатов валидизируемого теста независимому критерию, отражающему состояние исследуемого тестом качества в момент проведения исследования. Вместе с валидностью прогностической В. т. входит в комплекс сведений валидности критериальной методики. Основной процедурой определения В. т. является корреляционный анализ связи результатов теста с критериальными характеристиками исследуемого свойства. Распространенным способом характеристики диагностической эффективности методики является сравнение контрастных групп (см. Валидность). В. т. может определяться на основании сопоставления оценок и заключений по валидизируемо-му тесту с результатами другой методики, валидность которой является установленной. Своеобразным показателем В. т. является комплекс сведений о том, насколько удобен, экономичен тест по сравнению с получением информации об исследуемом качестве из других источников (наблюдение, анализ объективных данных, экспертная оценка и т. д.). По этой информации можно судить, напр., о том, что является более простым и подходящим с т. з. конкретных практических задач исследования: провести обследование членов бригады с помощью теста достижений или проанализировать такие традиционные показатели, как производительность, качество работы, стабильность выработки, удовлетворенность работой,текучесть кадров и т. д. (см. Валидность инкрементная). Критерий В. т. является одним из ведущих при характеристике валидности любой психодиагностической методики. Однако наиболее высоким требованиям В. т. должны отвечать клинические тесты, служащие для уточнения дифференциального диагноза, скрининговые методики (см. Отсеивание), тесты достижений, психометрические тесты интеллекта и ряд др. ВАЛИДНОСТЬ ЭКОЛОГИЧЕСКАЯ — валидность теста по отношению к измеряемому свойству в контексте определенной ситуации. В. э. является свойством теста, проявляющимся в том, что его применение при решении различных практических задач ведет к качественно различной интерпретации результатов тестирования (В. Н. Дружинин, 1990). Введение понятия В. э. связано с давно обсуждающейся в психодиагностике проблемой влияния ситуации на результаты тестирования. Споры между «чертис-тами» (сторонниками теории черт личности, постулирующими устойчивость в разных ситуациях форм поведения, соответствующих определенным психическим свойствам) и «ситуационалистами» (порой утвержающими полное отстутствие влияния свойств личности на поведение в конкретной ситуации), хотя и продолжаются по сей день, привели к возникновению и развитию теорий личностно-си-туационного взаимодействия. Однако остаются невыясненными параметры ситуаций, релевантных измеряемым свой- 48 ствам, требуют изучения личностные проявления, подверженные влиянию ситуации. И сегодня остается во многом актуальным провозглашенный в начале восьмидесятых годов призыв Д. Магнус-сона (1981) к созданию психологии ситуаций. Как хорошо известно, тестирование всегда происходит в конкретной жизненной ситуации, а тест разрабатывается для решения определенной задачи (задач). Поэтому необходимо, используя тест в различных ситуациях, быть уверенным в том, что возможна такая переносимость теста из ситуации в ситуацию. Описание теста, по мнению В. Н. Дружинина, должно, наряду с другими известными характеристиками, содержать сведения о его В. э. Важнейшим моментом в создании модели тестирования, учитывающей В. э., являются свойства ситуации тестирования (см. Психодиагностические ситуации). Следует учесть, что понятие В. э. в настоящее время связано исключительно с психодиагностическими ситуациями, т. е. ситуациями, в которых происходит взаимодействие между диагностом и обследуемым, и не распространяется на другие типы ситуаций, в которых осуществляется поведение (проявление индивидуально-психологических особенностей). ВАЛИДНОСТЬ ЭМПИРИЧЕСКАЯ — совокупность характеристик валидности теста, полученных сравнительным статистическим способом оценивания. Имеет отношение главным образом к области валидности критериальной и двум ее видам: валидности текущей и валидности прогностической. Если при определении валидности содержательной оценка теста проводится с помощью различных качественных процедур получения информации описательными методами с использованием экспертных оценок и других источников ин- формации (для вынесения суждения о соответствии заданий теста содержанию предмета измерения), то В. э. измеряется всегда с помощью статистического коррелирования. Проводится корреляционный анализ связи двух рядов значений — оценок теста и показателей по внешнему параметру изучаемого свойства (или результатов другого теста, валидность которого известна) (см. Валидизации критерий). Конкретные процедуры определения В. з. связаны с комплексом валидности коэффициентов. |