|
Валидность тестов. Словарьсправочник по психодиагностике издание 2е, переработанное и дополненное Серия Мастера психологии
Е.2.1. Необходимо предотвращение ошибочного впечатления о генерализован-ности нормативных данных. (Существенно.)
Комментарий. Нормативные данные, полученные для выборки людей или школ со специфическими чертами, часто используются так, как будто они получены по репрезентативным общегосударственным группам. Так, имеются пользователи тестов, которые могут сказать, что испытуемый читает на уровне десятиклассника, вне учета того, что нормы фактически получены на основе лучших школ, добровольно принявших участие в исследовании по разработке теста. Ошибкой интерпретации является предположение, что нормы добровольных групп учащихся приложимы к школам вообще. Сфе-
pa действия таких ошибок может быть сокращена, если в руководстве к тесту четко определены характеристики нормативной популяции.
Е.2.1.1. В руководстве к тесту необходимо сообщить метод отбора выборки из популяции испытуемых и обсудить вероятное смещение в выборочной процедуре. (Существенно.)
£.2.1.2. Нормы, сообщенные в руководстве к тесту, должны быть основаны на хорошо спланированной выборке, а не на данных, собранных в основном из-за их относительной доступности. Любое отклонение от намеченного плана должно быть отражено одновременно с описанием действий, предпринятых или не предпринятых в связи с этим. (Существенно.)
Комментарий. Нормы профессиональных и педагогических тестов иногда основаны на разрозненных выборках тестируемых, так как авторы иногда просят пользователей тестов прислать результаты тестирования для использования их в последующих сообщениях о тестовых нормах. Полученные таким образом распределения подвержены смещениям неизвестного типа и степени. Следовательно, методы получения выборок должны быть ясно описаны.
Е.2.1.3. Наряду с сообщением числа индивидов, результаты тестирования которых были использованы при разработке нормативных данных, руководство должно также сообщить число выборочных единиц (например, классов), из которых были взяты эти индивиды, а также число индивидов в каждой единице. (Существенно.)
Е.2.2. В руководстве к тесту описание нормативной группы должно быть достаточно полным, чтобы пользователь мог судить'о пригодности для собственного применения. В описании должно быть указано число случаев, классифицированных по одной или более таких переменных, как возраст, пол, социоэконрмический статус,
образовательный уровень. Если взята обобщенная выборка, в описании нормативной группы должно быть указано число отдельных тестированных групп. (Существенно.)
Комментарий. Для описания нормативных данных в руководствах часто используются классификационные системы в целом. Например, в руководстве к одной методике даны сведения для многих профессиональных и образовательных групп. Однако отсутствие информации о таких признаках, как пол, возраст, образование и уровень опыта, внутри этих групп существенно уменьшает полезность норм.
Е.2.2.1. В руководстве должны быть ясно и рельефно описаны популяции, на основе которых определены психометрические свойства теста и для которых применимы нормативные данные. В любом сообщении о доработке теста должны отразиться характеристики нормативных групп, использованных в интерпретации результатов. (Существенно.),
Комментарий. Назначение этого стандартного требования — предупредить пользователей и испытуемых относительно необоснованных интерпретаций. Если сообщение о стандартизации представляет результаты в интерпретации процен-тильных рангов или стандартных баллов при последовательном использовании той же нормативной популяции, будет достаточным определение этой популяции с указанием времени сбора данных.
Е.2.3. Если выборка, на основе которой установлены нормы, мала или, по другим причинам, ненадежна, в руководстве к тесту необходимо ясно предупредить пользователя относительно возможности величины ошибок при интерпретации баллов. (Существенно.)
Е.2.4. В руководстве к тесту нормы по субтестам или группам заданий сообщаются только в том случае, если указана ва-
лидность и надежность таких субтестов или групп заданий. (Существенно.)
Комментарий. Пользователь теста уверен, что, когда даны нормы для части теста, автор считает их пригодными для интерпретации. Должна сообщаться также надежность и валидность таких баллов.
Е.2.5. В руководстве к тесту должны быть описаны условия, при которых получены нормативные данные. (Существенно.)
Комментарий. В случае, когда некоторые аспекты стандартизированы на группах кандидатов на работу, другие — на группах, обратившихся за профкон-сультацией, а третьи — на группах, осознающих себя как испытуемые, то между такими группами и внутри них индивиды часто различаются по мотивации выполнения теста, установке к его выполнению, способностям и личностным характеристикам, хотя точное описание этих различий не всегда возможно.
Е.З. При сообщении норм в руководстве к тесту следует пользоваться процен-тилями для одной или нескольких подходящих референтных групп или стандартными баллами, для которых ясно определено основание. В руководстве к тесту должны быть даны меры центральной тенденции и рассеивания. (Существенно.)
Е.З.1. Если тест используется для предсказания, должны быть приведены, насколько это возможно, таблицы ожиданий или эмпирические таблицы перевода баллов в уровни вероятности успеха или умения. (Желательно.)
Е.4. Для многих применений теста локальные нормы более важны, чем опубликованные. В таких случаях руководство к тесту должно давать возможность использования локальных норм. (Очень желательно.)
Е.5. В руководстве к тесту должны быть полностью описаны производные
шкал, использованные для стандартизированных баллов, чтобы увеличить вероятность точной интерпретации и понимания баллов интерпретатором теста и испытуемым. (Существенно.)
Комментарий. Целесообразно сократить число производных шкал до нескольких, с которыми пользователи были бы знакомы. Существующее разнообразие ведет к необходимости описания таких шкал в каждом руководстве. Проблема, в частности, в том, что теперь используются многие различные системы, не имеющие логических преимуществ по сравнению друг с другом. Для преодоления недостатков старых методов шкалирования могут быть предложены новые. Разнообразие шкал для окончательных тестовых оценок может привести к недоразумениям и ошибочным интерпретациям, если шкалы, рекомендованные для данного теста, не описаны в руководстве ясно и полно.
Е.5.1. Построение шкалы на основе нормативных данных должно быть ясно и недвусмысленно описано в терминах, предотвращающих нарушения и интерпретации или неправильные обобщения. (Существенно.)
Комментарий. Производные оценки могут быть очень полезны для выводов. Однако очень часто они рассматриваются как имеющие абсолютный смысл независимо от отдельного теста и нормативной популяции. Примером является коэффициент интеллекта, который зачастую понимается как просто стандартный балл, который часто видоизменяется и интерпретируется так, словно он отражает неизменную и независимую характеристику испытуемого. Оценки эквивалентности классу обучения или даже процентильные ранги также могут интерпретироваться неправильно, как некие абсолютные величины, если в руководстве к тесту не приведены характеристики групп, на которых эти оценки построены.
Е.5.2. В руководстве необходимо указать, являются ли стандартные баллы результатом линейной или нелинейной трансформации суммарных баллов. (Существенно.)
Е.5.2.1. Интерпретационных баллов, которые сами по себе включают существенную ошибочность интерпретации (оценки умственного возраста, эквивалентности классу обучения и др.) надо избегать. (Очень желательно.)
Комментарий. Если, несмотря на эту рекомендацию, в руководство включены подобные оценки, необходимо предусматривать в табличной форме также их связь со стандартными баллами или про-центильными рангами внутри каждой категории и внутри соответствующей нормировочной группы. Например, таблица может отразить вдобавок к баллу эквивалентности классу обучения соответствующий процентильный ранг внутри собственного возраста или класса испытуемых для каждого суммарного балла. Для старших классов больше подходят нормы внутри предметов, чем внутри классов.
Е.5.3. Если в руководстве к тесту предполагается, что процентильные ранги будут выражаться графически профильной звездочкой, график должен основываться на нормальной вероятностной шкале или на некоторой другой приемлемой нелинейной трансформации. (Очень желательно.)
Е.6. Если шкалы пересмотрены, добавлены новые формы или сделаны другие изменения, в пересмотренном руководстве к тесту должны быть помещены таблицы эквивалентности старой и новой форм. (Желательно.)
Комментарий. Новые формы теста должны быть приравнены к недавно определенным шкалам стандартных баллов других форм, чтобы пользователь мог быть уверен, что баллы, предложенные по
новым формам, сравнимы с баллами предыдущих форм.
Е.6.1. Если новая форма теста приравнена к старой, в пересмотренном руководстве должно быть описано содержание и старой и новой форм, а также характер нормативных групп для них. (Существенно.)
Комментарий. Изменения в знаниях, технологии или учебном материале могут потребовать, чтобы новое издание тестов существенно отличалось от прежних, а потребность преемственности требует приравнивания окончательных шкал друг к другу. Пользователь должен иметь возможность оценить эквивалентность в соответствии с изменениями содержания, поскольку у него возникают сомнения, возможно ли значимое сравнение баллов при изменении содержания.
Е.6.2. В руководстве должен быть описан метод установления эквивалентности или сравнимости оценок и должна быть дана оценка точности процедуры приравнивания. (Очень желательно.)
Е.7. Если предполагается, что тест будет использоваться не столько для оцен-. ки индивидов, сколько групп (например, для школ или программ), должны быть-представлены нормативные данные, основанные на суммарных групповых статистиках. (Существенно.)
Комментарий. Например, нецелесообразно оценивать школы применением норм, разработанных для оценки индивидов. Также нельзя вычислять групповые средние по нелинейным шкалам, например по процентильным рангам, выведенным для индивидуальных норм.
Е.8. Тест, руководство, формы записи ответов и другие сопровождающие материалы должны помогать пользователю правильно интерпретировать результаты теста и предупреждать неправильное его употребление. (Существенно.)
Комментарий. Многие руководства к тестам подчеркивают переменные, которые следует учитывать при интерпретации тестовых оценок. Это может быть информация об учебных достижениях, рекомендации или соответствующие анамнестические данные. '
Руководство к средству оценивания личности может включать данные, показывающие, что психолог должен учитывать такие факторы, как пол и возраст субъекта, женаты или разведены его родители, возраст и пол его детей, его профессиональный и супружеский статус и т. д.
Е.8.2. Руководство к тесту должно подчеркнуть те существенные влияния на тестовую оценку, которые связаны с регионом, социоэкономическим статусом, национальностью или полом. (Существенно.)
Е.9. Руководство должно обратить внимание пользователя на публикации, с которыми он должен ознакомиться до тестирования для более точной интерпретации результатов теста. (Очень желательно.)
Комментарий. Публикациями могут быть книги или статьи, относящиеся к смежным психологическим теориям или к самому тесту, о котором идет речь.
Е. 10. Изложение описываемых в руководстве зависимостей по смыслу является количественным и должно быть приведено с точностью, которую позволяют данные. Если данные в поддержку таких утверждений не были собраны, этот факт должен быть ясно указан. (Существенно.)
Комментарий. -Авторы, например, иногда пишут: «Для инженера-архитектора требуется способность пространственного мышления» или «Необычные ответы могут указывать на наличие шизофрении». Такие утверждения сами по себе количественно неадекватны. Какая частота эксцентрических ответов указывает на уже развившуюся шизофрению?
Насколько успех в архитектуре зависит от пространственной способности? Количественные данные, связывающие тестовые оценки с определенными критериями, должны помочь получить ответы.
Е.10.1. Для сообщения количественной информации предпочитаются хорошо известные и легко интерпретируемые статистические процедуры. Любая необщепринятая статистическая техника должна быть объяснена, и должны быть приведены ссылки на источники. (Существенно.)
Комментарий. Издатели не обязательно должны однообразно придерживаться процедур, широко используемых для сообщения данных, но технологии и процедуры должны быть довольно известными на практике, чтобы компетентные пользователи могли адекватно судить о результатах.
Это стандартное требование является конкретизацией принципа, что представленные в руководстве данные не должны вводить в заблуждение. Например, ошибочно показывать ценность объединенных в батарею тестов в уравнении регрессии путем использования данных с интеркорреляцией более низкой, чем о ней сообщалось вдругом месте руководства.
Е.10.2. Когда сообщается статистическая значимость, сообщение должно быть в форме, которая делает ясным чувствительность или мощность критерия значимости. (Существенно.)
Комментарий. Статистическая значимость, не имеющая практической полезности, часто может быть получена использованием очень большого числа случаев. Наоборот, тот, кто использует нечувствительный статистический критерий, может сделать ошибочный вывод об отсутствии важного в практическом смысле различия. В общем, при сообщении тестовых данных более приемлемо определить доверительный интервал или функцию правдоподобия интересующего пара-
метра, а не просто сообщить, что нулевая гипотеза может или не может быть отклонена.
Е.10.3. В руководстве должны ясно различаться интерпретация, которая при-ложима только к средней тенденции группы, и интерпретация, приложимая к любому индивиду внутри группы. (Существенно.)
Комментарий. Некоторые тесты достаточно надежны для обеспечения относительно стабильного среднего балла группы, но недостаточно надежны, чтобы обеспечить использование индивидуальных баллов или позволить сравнение индивидов.
Е.10.4. В руководстве должно быть ясно указано, какая интерпретация относится к каждому баллу субтеста в той же степени, как и для всего теста. (Существенно.)
Комментарий. В руководстве должно быть четко указано, когда баллы субтестов получены только для простоты вычисления балла всего теста и не предлагают самостоятельного использования, когда они могут иметь исследовательское применение и предусматривается ли при этом их интерпретация.
Е.11. Составители тестов или другие лица, использующие ЭВМ для интерпретации тестов, должны предусмотреть руководство, отражающее алгоритм и свидетельства в поддержку интерпретации баллов на основе ЭВМ. (Существенно.)
Комментарий. Вычислительная машина позволяет накопить и воспроизвести большое количество данных. Интерпретация теста может быть очень облегчена использованием банка данных, накопленных в ЭВМ на основе совокупности индивидуальных оценок по батарее тестов или вопроснику личности.
Пользователь таких массивов должен знать обоснование и свидетельства в пользу предполагаемой интерпретации, так как она подвержена ошибкам в'той же степени, как и другие субъективные интерпретации.
Данный пункт относится только к хранению и обработке информации, введенной в ЭВМ.
Проведение тестов неавтоматизирова-но и осуществляется обычным способом. В том случае, когда пользователь хочет автоматизировать и проведение теста, тест должен пройти полную психометрическую проверку.
Основные статистические таблицы
Таблица 1
Параметры нормального распределения
| Площадь слева
| Ордината для
|
| Площадь слева
| Ордината для
| г
| от z (Fiz))
| zifz)
| z
| от z (Fiz))
| zifz)
| 0,0
| 0,50000
| 0,39894
| 2,0
| 0,97725
| 0,05399
| 1
| 53983
| 39695
| 1
| 98214
| 04398
| 2
| 57926
| 39104
| 2
| 98610
| 03547
| 3
| 61791
| 38139
| 3
| 98928
| 02833
| 4
| 65542
| 36827
| 4
| 99180
| 02239
| 0.5
| 0,69146
| 0,35207
| 2,5
| 0,99379
| 0,01753
| 6
| 72575
| 33322
| 6
| 99534
| 01358
| 7
| 75804
| 31225
| 7
| 99653
| 01042
| 8
| 78814
| 28969
| '8
| 99744
| 00792
| 9
| 81594
| 26609
| 9
| 99813
| 00595
| 1,0
| 0,84134
| 0,24197
| 3,0
| 0,99865
| 0,00443
| 1
| 86433
| 21785
| 1
| 99903
| 00327
| 2
| 88493
| 19419
| 2
| 99931
| 00238
|
| 90320
| 17137
| 3
| 99952
| 00172
| 4
| 91924
| 14973
| 4
| 99966
| 00123
| 1,5
| 0,93319
| 0,12952
| 3,5
| 0,99977
| 0,00087
| 6
| 94520
| 11092
| 6
| 99984
| 00061
| 7
| 95543
| 09405
| 7
| 99989
| 00042
| 8
| 96407
| 07895
| 8
| 99993
| 00029
| 9
| 97128
| 06562
| 9
| 99995
| 00020
| Примечание. Для отрицательных значений 2 от 0 до — 3,9 доля площади равна 1 - F(z).
Таблица 2
Граничные значения (-критерия Стьюдента для значений доверительных вероятностей 0,95; 0,99; 0,999
п'
| 0,95
| 0,99
| 0,999
| п'
| 0,95
| 0,99
| 0,999
| 1
| 12,71
| 63,66
| —
| 10
| 2,23
| 3,17
| 4,59
| 2
| 4,30
| 9,92
| 31,60
| 11
| 2,20
| 3,11
| 4,44
| 3
| 3,18
| 5,84
| 12,92
| 12
| 2.18
| 3,05
| 4,32
| 4
| 2,78
| 4.60
| 8,61
| 13
| 2,16
| 3,01
| 4,22
| 5
| 2,57
| 4.03
| 6,87
| 14
| 2,14
| 2,98
| 4,14
| 6
| 2,45
| 3,71
| 5,96
| 15
| 2,13
| 2,95
| 4,07
| 7
| 2,37
| 3,50
| 5,41
| 16
| 2.12
| 2,92
| 4,02
| 8
| 2,31
| 3,36
| 5,04
| 17
| 2,11
| 2,90
| 3,97
| 9
| 2,26
| 3,25
| 4,78
| 18
| 2,10
| 2,88
| 3,92
| 19
| 2,09
| 2,86
| 3,88
| 30
| 2,04
| 2,75
| 3,65
| 20
| 2,09
| 2,85
| 3,85
| 40
| 2,02
| 2,70
| 3,55
| 21
| 2,08
| 2,83
| 3,82
| 50
| 2,01
| 2,68
| 3,50
| 22
| 2,07
| 2,82
| 3,79
| 60
| 2,00
| 2,66
| 3,46
| 23
| 2,07
| 2,81
| 3,77
| 80
| 1,99
| 2,64'
| 3,42
| 24
| 2,06
| 2,80
| 3,75
| 100
| 1,98
| 2,63
| 3,39
| 25
| 2,06
| 2,79
| 3,73
| 120
| 1,98
| 2,62
| 3,37
| 26
| 2,06
| 2,78
| 3,71
| 200
| 1,97
| 2,60
| 3,34
| 27
| 2,05
| 2,77
| 3,69
| 500
| 1,97
| 2,59
| 3,31
| 28
| 2,05
| 2,76
| 3,67
| 00
| 1,96
| 2,58
| 3,29
| 29
| 2,05
| 2,76
| 3,66
|
|
|
|
| Примечание. Нулевая гипотеза о сходстве принимается при tй ta= 0,05 и отклоняется при t> ta = 0,01; п' = п{ + п2 — 2.
Таблица 3
Критические значения Х2-критерия Пирсона, соответствующие разным уровням значимости (а) и количеству степеней свободы (я')
Степень
свободы (п')
|
|
| Уровень значимости, %
|
|
|
| 10
| 5
|
| 2
|
| 1
| 0,1
|
| 1
2
| 2,71 4,60
| 3,84 5,99
| 5,41
7,82
| 6,64 9,21
| 10,83 13,82
|
| Степень
|
| Уровень значимости
|
|
| свободы (я')
| 10
| 5
| 2
| 1
| 0,1
| 3
| 6.25
| . 7,81
| 9,84
| 11,34
| 16,27
| 4
| 7,78
| 9,49
| 11,67
| 13,28
| 18,46
| 5
| ' 9,24
| 11,07
| 13,39
| 15,09
| 20,52
| 6
| 10,64
| 12,59
| 15,03
| 16,81
| 22,46
| 7
| 12.02
| 14,07
| 16,62
| 18,48
| 24,32
| 8
| 13,36
| 15,51
| 18,17
| 20,09
| 26,12
| 9
| 14,68
| 16,92
| 19,68
| 21,67
| 27,88
| 10
| 15,99
| 18,31
| 21,16
| 23,21
| 29,59
| 11
| 17,28
| 19,68
| 22,62
| 24,72
| 31,26
| 12
| 18,55
| 21,03
| 24,05
| 26,22
| 32,91
| 13
| 19,81
| 22,36
| 25,47
| 27,69
| 34,53
| 14
| 21,06
| 23,68
| 26,86
| 29,14
| 36,12
| 15
| 22,31
| 25,00
| 28,26
| 30,58
| 37,70
| 16
| 23,54
| 26,30
| 29,63
| 32,00
| 39,25
| 17
| 24,77
| 27,59
| 31,00
| 33,41
| 40,79
| 18
| 25,99
| 28,87
| 32,35
| 34,81
| 42,31
| 19
| 27,20
| 30,14
| 33,69
| 36,19
| 43,82
| 20
| 28,41
| 31,41
| 35,02
| 37,57
| 45,32
| 25
|
| 37,6
|
| 44,3
|
| 30
|
| 43,8
|
| 50,9
|
| 35
|
| 49,8
|
| 57,3
|
| 40
|
| 55,8
|
| 63,7
|
| 45
|
| 61,7
|
| 70,0
|
| 50
|
| 67,5
|
| 76,2
|
| 60
|
| 79,1
|
| 88,4
|
| 70
|
| 90,5
|
| 100
|
| 80
|
| 102
|
| 112
|
| 90
|
| 113
|
| 124
|
| 100
|
| 124
|
| 136
|
| 120
|
| 147
|
| 159
|
| 140
|
| 169
|
| 182
|
| 150
|
| 180
|
| 193
|
| 200
|
| 234
|
| 249
|
| 250
|
| 288
|
| 305
|
| 300
|
| 341
|
| 360
|
| 400
|
| 448
|
| 469
|
| 500
|
| 553
|
| 576
|
| 600
|
| 658
|
| 683
|
| Продолжение таблицы 3
Степень свободы
<п')
| Уровень значимости, %
| 10
| 5
| 2
| 1
| 0,1
| 700
|
| 763 790
| 800
|
| 867 896
| 900
|
| 971 1002
| 1000
|
| 1075 1107
| Таблица 4
|
|
|