Валидность тестов. Словарьсправочник по психодиагностике издание 2е, переработанное и дополненное Серия Мастера психологии
Скачать 5.87 Mb.
|
Б. Сведения о процедуре разработки теста. Ответственность за заключение о смысле и ограничениях в использовании тестовых результатов ложится в первую очередь на пользователя. Однако в этом случае он частично зависит от доступной информации о тесте, приводимой его составителем. Руководство к тесту не может полностью подготовить пользователя к интерпретации данного теста. Ему приходится делать выводы, не подтвержденные опубликованными свидетельствами. Так, про-фориентатор не может надеяться на наличие данных о валидности теста для каждого вида труда, относительно которых он на основе тестовых оценок делает наиболее надежные предсказания. Специалист по профконсультации или трудоустройству может иметь дело с испытуемыми, которые не могут быть отнесены ни к одной из групп, для которых имеются нормативные или валидационные данные. Учитель может оценивать содержание теста достижений соответственно принятым целям и особенностям обучения, клиницист должен соотнести общие данные теории с собственной интерпретацией данных по опроснику личности. Степень, с которой руководство подготовит пользователя к точной интерпретации и эффективному использованию теста, зависит от типа теста и способов его применения. На составителя теста возлагается ответственность за представление информации, необходимой для правильных суждений. Он должен приложить все возможные усилия, чтобы тест не был неправильно употреблен или неправильно интерпретирован. Б.1. В руководстве к тесту должна быть полностью отписана процедура создания теста: его концептуальная основа, детали разработки заданий теста и их отбора, психометрическая проверка надежности и валидности и другие исследования. (Существенно.) Б.2. В руководстве к тесту должны быть ясно отражены теоретические положения, на которых основан тест, и подробно раскрыта природа характеристик, для измерения которых тест предназначен. (Существенно.) Комментарий. Ясное описание диагносцируемых переменных, а также характер измерения позволяют пользователю судить, насколько тест соответствует его собственному пониманию, а также насколько статистические данные характеризуют его действенность. Б.2.1. Диагностический конструкт (концепт) должен быть сформулирован в теоретических понятиях и соотнесен на теоретическом уровне с системой релевантных конструктов (теоретическое определение). (Существенно.) Б.2.2. Особое внимание должно быть обращено на операциональное определение диагностического конструкта. Операциональное определение — это определение конструкта в эмпирических категориях, отражающих ситуацию, в которых он актуализируется, а также реакции (поведение, переживания, представления), в которых данный конструкт проявляется. (Существенно.) Комментарий. Пользователь теста нуждается в информации, которая позволила бы ему сравнивать собственную концепцию конструкта с концепцией автора теста. Б.З. Руководство теста должно указать диагностические цели и сферы приложения, для которых тест рекомендован. (Существенно.) Комментарий. Ясное указание целей теста содействует предупреждению ошибочного истолкования тестовых оценок. Надо обратить внимание пользователя на содержание в руководстве доказательства предложений, принятых автором. Например, если тест достижений рекомендован как тест обследования знаний учащихся, важно точное описание его содержания. Если, с другой стороны, он рекомендован как диагностический тест или тест для выбора вида деятельности, требуются данные о его связи с одним или несколькими критериями. Б.З. 1. Должна быть четко выделена область применения, под которой подразумевается особая социальная среда или сфера общественной практики (производство, медицина, семейная жизнь и т. п.), контингент испытуемых (пол, возраст, образование, профессиональный опыт, на производстве, в обществе). (Существенно.) Б.3.2. В руководстве должны быть конкретизированы цели использования результатов: для прогноза успешности профессиональной деятельности, психологического вмешательства, принятия правовых, судебно-административных решений, прогноза стабильности коллектива и т. п. (Очень желательно.) Б.4. Руководство к тесту должно отразить репрезентативность выборки заданий, процедуру их отбора и психометрические характеристики заданий. (Существенно.) Комментарий. Для тестов, представляющих собой гомогенную, дискрими-нативную шкалу или набор таких шкал, процедура отбора заданий проводится следующим образом: каждое задание проходит проверку на трудность и дискрими- нативность, на соответствие заданий нормальному распределению и их степень отношения к одному фактору. Выборка для анализа должна отражать популяцию и в общем случае для проверки одной формы теста состоять как минимум из 100 человек. Б.4.1. Данные, собранные в ходе разработки теста (до получения конечной формы), должны быть отделены от данных, относящихся к тесту в его конечной форме. (Существенно.) Б.5. В случае, если тест не разрабатывается вновь, а переводится с другого языка, он должен пройти полную психометрическую проверку, так же как вновь разрабатываемый тест. (Существенно.) Б.5.1. При переводе руководства к тесту проверяется эквивалентность диагностических конструктов и концептов,лежащих в основе тестовых задач. (Существенно.) Стандартные требования к надежности и валидности. Составитель теста должен привести в руководстве сведения о надежности и валидности теста. Многие пользователи тестов также выполняют подобные исследования, опираясь на собственное применение тестов. Их научные сообщения часто отличаются от приведенных в руководстве к тесту как более детальные и более специфические, описывающие более узкие сферы использования теста. Несмотря на эти различия, в обоих случаях стандартные требования для исследований и сообщений по ним должны быть в общем сходными. . В. Надежность и ошибка измерения. Надежность — характеристика методики, отражающая точность психодиагностических измерений, а также устойчивость результатов теста к действию посторонних случайных факторов. В основе анализа надежности теста лежит представление об истинных оцен- ках и ошибках измерения. Распределение оценок, полученных на генеральной совокупности при выполнении теста, измеряющего одну характеристику, теоретически должно подчиняться нормальному закону. Поэтому при разработке теста исследователю необходимо отбирать задания таким образом, чтобы распределение реальных тестовых оценок было по возможности близко к нормальному. Для определения ошибки измерения используются на практике корреляционные методы, позволяющие определить надежность через устойчивость и согласованность результатов. Классические методы оценки коэффициентов надежности требуют корреляции по меньшей мере двух совокупностей сходных измерений. Один из методов получения двух совокупностей измерений — это ретестирова-ние (повторное обследование одной и той же выборки испытуемых). Несмотря на простоту и возможность определения устойчивости результатов теста в течение времени, дефект метода в том, что субъект помнит свои ответы, и в случае тестов способностей это может существенно влиять на повторные ответы. Если мы желаем исключить влияние запоминания на результаты ответов как систематический источник ошибки и учесть влияние временного интервала на ответы, то можем использовать две совокупности заданий, разработанных или отобранных по одной системе. Это — параллельные тесты. Недостатком в данном случае является то, что очень трудно построить на практике параллельные формы одного и того же теста. Если желательно изучить только влияние содержания выборки без влияния запоминания или вариативности ответов во времени или если практически нецелесообразно проводить две параллельные формы в разное время, надежность может быть оценена проведением одного теста без ограничения во времени. В данном случае тест может быть разделен на две равные части. Полученные показатели по двум частям теста коррелируются обычным методом. Но эта корреляция отражает лишь надежность половины теста. Для вычисления надежности всего теста по методу расщепления используют формулу Спирмена—Брауна. Оценка надежности на основе однократного тестирования может быть получена путем использования формулы, известной как коэффициент альфа. Рекомендуется также оценить надежность теста относительно экспериментатора как оценщика и как экспериментатора. Из предыдущего видно, что различные методы оценивания надежности исходят из различных источников ошибок. Так, на результаты ретестирования влияет не только случайная вариативность ответов или изменение субъектов во времени, но также различия в поведении (особенно если ретестирует другое лицо). Коэффициенты надежности, основанные на однократном тестировании, исключают вариативность ответов во времени, т. е. влияние ответов на баллы не проявляется как ошибка измерения. Следовательно, «коэффициент надежности* — обобщенный термин. Он может основываться на разных типах свидетельств — каждый тип предполагает иной смысл. Очень важно, чтобы метод, использованный для получения коэффициента надежности, был четко описан. Автору теста рекомендуется в руководстве описать значение любого коэффициента насколько возможно точно. Например, высказывание: «Этот коэффициент показывает стабильность измерения эквивалентных баллов, основанных на параллельных формах тестов, проведенных с промежутком в 7 дней, при этом научение испытуемых исключается» хотя и длинное, но свободно от двусмысленности. Коэффициенты надежности имеют ограниченную практическую ценность для пользователей теста. Стандартная ошибка измерения обычно более полезна, т. к. обладает относительной независимостью и может быть использована для установления пределов определенной вероятности балла. Пользователи теста могут употребить коэффициент надежности для сравнения тестов, но для интерпретации тестовых баллов используется стандартная ошибка измерения. В.1. В руководстве к тесту должны быть достаточно подробно описаны процедуры и выборки, использованные для определения коэффициентов надежности, сами коэффициенты и ошибки измерения, что позволит пользователю судить о том, в какой степени эти параметры приложи-мы к лицам или группам, с которыми он имеет дело. Если некоторые из необходимых данных не были получены, то отсутствие такой информации должно быть отмечено. (Существенно.) Комментарий. Для пользователя важно получить несколько типов оценки надежности. Полезным является сообщение стандартных ошибок измерения, полученных в разных группах. Следует привести среднее значение и дисперсию выборки и информацию о ее составе. Надежность теста, предназначенного для отбора работников, проверяется при тестировании кандидатов на должность, а не школьников или уже работающих. Если указывается, что тест пригоден для различных возрастных групп, следует привести данные о надежности для каждого класса или возраста. Авторы и публикаторы тестов должны избегать необщепринятых статистических процедур, если применимы традиционные. Если представлен необщепринятый стати- 425 стический анализ, он должен быть объяснен так, чтобы свести к минимуму вероятность ошибочной интерпретации. В. 1,1. В руководстве к тесту следует представить, насколько это возможно, количественный анализ всех факторов, снижающих надежность измерения: несогласованность ответов субъекта; несогласованность или неоднородность внутри выборки содержания теста (стимульные задания, вопросы, ситуации и др.); несогласованность в проведении теста; несогласованность между оценщиками, экспертами или единицами математического аппарата; механические ошибки при выставлении баллов. (Желательно.) Комментарий. Подобный анализ может быть неосуществим, если результаты теста выражены не в количественной форме, а в категориальной или непараметрической. Для группы тестов школьных достижений основными источниками ошибок, подлежащих оценке, являются: а) несогласованность в содержании теста; б) несогласованность в проведении теста; в) нестабильность ответов испытуемых. Сбор данных производится для оценки этих трех факторов. Колебания или несогласованность ответов субъекта сами по себе могут быть важной переменной. Они часто бывают главными источниками подлежащей оцениванию случайной ошибки. Также должна быть оценена несогласованность между оценщиками. В. 1.2. Стандартные ошибки измерений и коэффициенты надежности должны приводиться как для итогового балла, так и для его частей, комбинаций баллов (сумм, разниц, производных показателей), если они рекомендованы в руководстве к тесту (явно или неявно) для практического использования, за исключением опытных и экспериментальных. (Существенно.) В. 1.3. В руководстве должно быть указано минимальное различие между двумя баллами, обычно требуемое для статистической значимости на определенном уровне. (Очень желательно.) В. 1.4. В руководстве должны быть описаны все характеристики выборки, которые могут оказывать влияние на надежность оценивания. (Существенно.) Комментарий. В руководстве следует отразить такую демографическую информацию, как распределение субъектов по возрасту, полу, экономическому и интеллектуальному уровню, трудовому статусу или прошлой трудовой деятельности, месту жительства. Для стандартизированных тестов при вычислении коэффициентов надежности выборку следует формировать случайным образом из генеральной совокупности. В, 1.5. Если тест рекомендован или обычно используется в однородных подгруппах, для каждой из них независимо должна быть исследована надежность и ошибка измерений, и это должно быть сообщено в руководстве к тесту. (Существенно.) В. 1.6. В руководстве к тесту должна быть сообщена стандартная ошибка измерения для разных уровней баллов. (Желательно.) Комментарий. В руководстве к одному тесту способностей сообщаются стандартные ошибки для трех уровней баллов: на уровне среднего балла, на уровне одного стандартного отклонения выше среднего и на уровне одного стандартного отклонения ниже среднего. Так как наиболее существенные вариации ошибок измерения связаны с крайними баллами, лучше опираться, если позволяет количество доступных случаев, на более широкий диапазон уровней баллов. В.1.7. Неизвестные статистические характеристики данных должны быть описаны со ссылками на литературные источники, отражающие разработку. (Существенно.) Ati. Внутренняя согласованность. В.2. В руководстве должны быть представлены данные о внутренней согласованности (гомогенности,консистентности тест). (Очень желательно.) Комментарий. Внутренняя согласованность важна, если задания рассматриваются как выборка из относительно однородного общего множества (например, тест сложения целых чисел, словарный тест для средней школы, тест, предположительно измеряющий интро-версию и т. п.). Меры внутренней согласованности не заменяют иных мер. В.2.1. Оценки внутренней согласованности определяются соответствующими методами расщепления пополам, при помощи коэффициента альфа или других процедур, которые должны быть адекватны анализируемым данным. Любая другая мера внутренней согласованности, которую автор дополнительно сообщает, в руководстве к тесту должна быть подробно объяснена. (Очень желательно.) Комментарий. Коэффициенты парного расщепления отражают суждения экспертов и обнаруживают тенденцию быть выше, чем коэффициенты случайного расщепления. Дисперсионный анализ обычно дает более низкие оценки по сравнению с приемами парного расщепления. Могут быть полезными специальные коэффициенты: они должны быть описаны так, чтобы читатель мог понять их соотношение с общепризнанными оценками. 8.2.2. Оценки внутренней согласованности не следует вычислять для скоростных тестов. (Существенно.) 8.2.3. Если тест состоит из отдельно оцениваемых частей или разделов, в руководстве к тесту следует сообщить корреляцию между частями или разделами вместе с соответствующими оценками надежности, а также с соответствующими средними и стандартными отклонениями. (Очень желательно.) В.2.3.1. Если в руководстве сообщается корреляция между баллом по отдельному субтесту и общим тестовым баллом, необходимо подчеркнуть, что коэффициент неоправданно высок, так как он основан на совпадении ошибок измерения субтестом и общим тестовым баллом. (Существенно.) В.2.4. Если несколько вопросов внутри теста экспериментально связаны так, что ответ на один вопрос влияет на другой вопрос, предпочтительно относить целую группу вопросов к одной из двух половин теста, когда применяются методы случайного или парного распределения пополам. Тот факт, что число заданий в этих половинах не равно, не вызывает затруднений при соответствующей процедуре анализа. (Очень желательно.) Ретестирование. В.З. В руководстве к тесту должны быть представлены результаты ретестиро-вания, т. е. пользователь должен знать, насколько оценки стабильны. (Существенно.) Комментарий. Ретестовая надежность показывает, в какой степени результаты теста можно распространить на различные случай его применения. Приводя в руководстве ретестовую надежность, всегда необходимо указывать, в каком интервале времени она измерялась и какие влияния на испытуемых имели место в этот период. На практике ретестовая надежность в ряде случаев бывает важнее, чем надежность по однородности. Если нет ретестовой надежности, тест не может быть валидным. Исключение составляют тесты, для которых ретестирование не применяется (тесты оценки состояний, эмоций). Считается обоснованным требовать оценивания стабильности для проективных техник и других средств оценки личности, даже если в некоторых случаях известно, что низкая стабильность ре- |