Валидность тестов. Словарьсправочник по психодиагностике издание 2е, переработанное и дополненное Серия Мастера психологии
Скачать 5.87 Mb.
|
ОЦЕНКИ ПЕРВИЧНЫЕ («сырые» бал лы) — оценки, полученные испытуемым на начальном этапе обработки результатов тестовой методики. Обычно это сведения о количестве правильно решенных задач, числе попыток при их решении, реже — о времени выполнения заданий. О. п. в большинстве опросников лич-' постных содержат результат подсчета ответов, совпадающих с кодом («ключом») исследуемого количества или свойства. В проективных методиках «сы-рыео оценки могут быть получены на основании измерения объема ответа испытуемого, подсчета частоты обращения к отдельным «темам» (см. Тематический апперцепции тест), классификации ответов с подсчетом каждого из выделяемых типов (см. Розенцвейга рисуночной фрустрации методика) и т. д. В определенной группе методик (функциональные пробы, методики с качественным анализом и интерпретацией результата) О. п. являются окончательными
результатами, на основании которых осуществляют интерпретацию данных и формулируют заключение. В большинстве психодиагностических тестов (психометрические методики, шкалированные личностные опросники) О. п. на основании норм и данных стандартизации теста переводятся в оценки шкальные, отражающие в той или иной форме отношение полученного результата к показателям выборки стандартизации. Получение О. п. — обычно формализованная процедура с четкой регламентацией правил оценки результатов выполнения заданий. При этом легче всего задача формализации О. п. решается в случае применения задач закрытого типа. Чем больше число возможных вариантов (или их комбинаций) допускается условиями задания, тем сложнее регламентация оценки. Особенно сильно эта закономерность проявляется при оценке задач открытого типа. Даже в типичных психометрических процедурах часто возникают определенные сложности выставления О. п. Так, напр., в субтесте KL Амтхауэра интеллекта структуры теста требуется объединить два предложенных объекта общим понятием. Результат каждого задания оценивают одним, двумя или нулем баллов в зависимости от уровня обобщения признаков в понятии. Задача такой оценки сложна и требует от экспериментатора определенного опыта. Составитель методики предлагает таблицу приблизительных ответов с соответствующими оценками. Как видно из табл. 18, критерии разделения на «сильные» и «слабые» понятия условны и недостаточно конкретизированы. Наглядно проступает необходимость тщательной проработки системы оценивания для задач такого типа. При подсчете количества правильных решений или совпадений с ключом повсеместно используются шаблоны. Технические ошибки в «ключе», возникающие при дублировании и размножении методик, являются одной из распространенных причин появления ошибочных результатов. Точность подсчета О. п. в значительной мере обеспечивается рациональным оформлением и организацией бланка обследования. ОЦЕНКИ ПРОФИЛЬНЫЕ — способ представления количественных результатов психодиагностической методики. При таком способе оценки по отдельным группам заданий, субтестам тестовой батареи с помощью специальных приемов приводятся к соизмеримым единицам (единой шкале оценок) (см. Стандартизация, Оценки шкальные) и отображаются на Рис. 49. Образец «профиля» оценок Мейли интеллекта аналитического теста общем графике. Соизмеримость оценок тестов, результаты которых выносятся на «профиль», достигается с помощью выравнивающих коэффициентов (см. Шми-шека опросник), унификации оценок первичных, преобразования стандартизированных оценок в шкалу с едиными значениями М иэ. Наряду с наглядностью представления количественных данных с помощью «профиля» обеспечивается также возможность качественного анализа и интерпретации результатов тестовой батареи, изучения структуры суммарного тестового результата (см. IQ-показатель стандартный). Впервые О. п. были применены в Россолимо психологических профилях. Объединение количественных результатов различных субтестов в этой методике основывалось на том, что оценка каждого теста соответствовала числу удач или неудач при его десятикратном повторении. О. п. наиболее распространены в тестах интеллекта, состоящих из комплекса субтестов (см. Амтхауэра интеллекта структуры тест (см. рис. 4), Векслера интеллекта измерения шка-лы(рис. 14) и др.). Особое значение О. п. имеют и в многошкальных опросниках личностных. Представление результатов в виде О. п. часто объединяется с процедурой кодирования оценок тестовых. Примеры О. п. приведены на рис. 49, рис. 41, 42 к статье Миннесотский многоаспектный личностный опросник, рис. 40 к статье Мейли интеллекта аналитический тест. ОЦЕНКИ ШКАЛЬНЫЕ — способ оценки результата теста путем установления его места на специальной шкале. Шкала содержит данные о внутригруппо-вых нормах выполнения дайной методики в выборке стандартизации. Так, индивидуальные результаты выполнения заданий (оценки первичные испытуемых) сравниваются с данными в сопоставимой нормативной группе (напр., результат, до-_ стигнутый учеником, сравнивается с показателями детей того же возраста или года обучения; результат исследования общих способностей взрослого сопоставляется со статистически обработанными показателями репрезентативной выборки лиц в заданных возрастных пределах). О. ш. в этом смысле имеют четко определенное количественное содержание и могут быть использованы при статистическом анализе. Одной из распространенных в психологической диагностике форм оценки результата теста путем соотнесения с групповыми данными является расчет процентилей. Процентиль — процентная доля индивидов из выборки стандартизации, результат которых ниже данного первичного показателя. Шкалу процентилей можно рассматривать как совокупность ранговых градаций (см. Корреляция ранговая) при числе рангов 100 и отсчете от 1-го ранга, соответствующего самому низкому результату; 50-й процентиль (Р50).соответствует медиане (см. Меры центральной тенденции) распределения результатов, Р>5о и Р<5о соответственно представляют ранги результатов выше и ниже среднего уровня результата. Процентили не следует смешивать с обычными процентными показателями. Последние представляют собой долю правильных решений из общего количества заданий теста в индивидуальном результате (см. Оценки первичные). Ранги Р:и Р100 получают соответственно самый низкий и самый высокий результаты из наблюдавшихся в выборке, однако этим рангам могут соответствовать и далеко не нулевой (ни одного правильного решения) или абсолютный (все решения правильны) показатели (например, при общем количестве 120 заданий минимальный результат, соответствующий первому рангу, может составить 6 правильных решений, в то время как максимальный результат, соответствующий рангу Р]00, будет составлять 95 правильно решенных заданий). Такая ситуация наблюдается, напр., при оценке тестов скорости. Основной недостаток процентильных шкал состоит в неравномерности единиц измерения. При нормальном распределении отдельные переменные тесно группируются в центре распределения и по мере удаления к краям рассеиваются. Поэтому равным частотам случаев вблизи центра соответствуют более короткие интервалы по оси абсцисс, расположенные по краям распределения оценок. Процентили показывают относительное положение каждого испытуемого в нормальной выборке, но не величину различий между результа- тами. Это создает некоторые неудобства в интерпретации индивидуальных результатов. Так, разница в первичных показателях, соответствующая интервалу PyoPsO' может составить 10 баллов, а различие в количестве правильных решений в интервале рангов РъоР&> — лишь 1-3 балла. ■ Вместе с тем процентильные оценки обладают и рядом достоинств. Они легко доступны пониманию пользователей психодиагностической информацией, универсальны по отношению к различным типам методик и легко рассчитываются. Процентильные оценки не относятся к типичным шкальным показателям. Более широкое распространение в психодиагностике получили стандартные показатели, рассчитываемые на основе линейного и нелинейного преобразования первичных показателей, распределенных по нормальному или близкому к нормальному закону. При таком расчете проводится z-преобразование оценок (см. Стандартизация, Нормальное распределение). Чтобы определить z-стандартный показатель, определяют разность между индивидуальным первичным результатом и средним значением для нормальной группы, а затем делят эту разность на а нормативной выборки. Полученная таким образом шкала z(рис. 50) имеет среднюю точку М - 0, отрицательные значения обозначают результаты ниже среднего и убывают по мере удаления от нулевой точки; положительные значения обозначают соответственно результаты выше среднего. Единица измерения (масштаб) в шкале zравна 1а стандартного (единичного) нормального распределения. Для преобразования полученного при стандартизации распределения первичных нормативных результатов в стандартную z-шкалу необходимо исследовать вопрос о характере эмпирического распределения и степени его согласованное- Рис. 50. Нормальная кривая, процентные и стандартные оценки ти с нормальным (см. Оценка типа распределения). Поскольку для большинства случаев значения показателей в распределении умещаются в пределах М ± За , единицы измерения простой г-шкалы слишком велики. Для удобства оценивания применяется еще одно преобразование типа х — "х г --------. Примером такой шкалы могут а быть оценки тестовой батареи SAT (СЕЕВ) методики для оценки способности к обучению (см. Тесты достижений). Эта г-шкала пересчитана таким образом, что средней точке соответствует значение 500, а о = 100 (рис. 50). Другим аналогичным примером является шкала Векс-лера для отдельных субтестов (см. Векс-лера интеллекта измерения шкала, где М=10,ст = 3. Наряду с определением места индивидуального результата в стандартном распределении групповых данных введение О. ш. направлено и на достижение другой важнейшей цели — обеспечение сопоста- вимости количественных результатов различных тестов, выраженных в стандартных шкалах, возможности их совместных интерпретаций, сведение оценок к единой системе. В случае, если оба распределения оценок в сравниваемых методиках близки к нормальному, вопрос о сопоставимости оценок решается довольно просто (в любом нормальном распределении интервалам М ± пи соответствует одинаковая частота случаев). Для обеспечения сопоставимости результатов, принадлежащих к распределениям другой формы, применяются нелинейные преобразования, позволяющие придать распределению форму заданной теоретической кривой. В качестве такой кривой обычно используется нормальное распределение. Как и в простом г-преобразовании, нормализованным стандартным показателям можно придать любую желаемую форму. К примеру, умножив такой нормализованный стандартный показатель на 10 и прибавив константу 50, получаем Т-показатель (см. Стандартизация, Миннесотский многоаспектный личностный опросник). Примером нелинейно преобразованной в стандартную шкалу является и шкала станайнов (англ. standart nine — стандартная девятка), где оценки принимают значения от 1 до 9, М = 5, а * 2. Шкала станайнов получает все большее распространение, сочетая в себе достоинства стандартных шкальных показателей и простоту процентилей. Первичные показатели легко преобразуются в станайны. Для этого испытуемых ранжируют по возрастанию результатов и из них образуют группы с числом лиц, пропорциональным определенным частотам оценок в нормальном распределении тестовых результатов (табл. 19). При трансформации оценок в шкалу стэнов (от англ. standart ten — стандартная десятка) проводится аналогичная процедура с той лишь разницей, что в основании этой шкалы лежат десять стандартных интервалов. Таблица 19 Перевод первичных тестовых результатов в шкалу станайнов
Пусть в выборке стандартизации 200 человек, тогда по 8 (4%) испытуемых, имеющих самые низкие и самые высокие оценки, будут отнесены к 1 и 9 станайнам соответственно. Процедура, продолжается до заполнения всех интервалов шкалы. Соответствующие процентным градациям баллы по тесту, таким образом, будут упорядочены в шкалу, соответствующую стандартным частотам распределения результата. Одной из наиболее распространенных форм О. ш. в тестах интеллекта является IQ-показатель стандартный (М. = 100, а = 16). Эти параметры для стандартной шкалы оценок в психодиагностике выбраны в качестве эталонных. Как видно из рис. 50, существует довольно много шкал, опирающихся на стандартизацию; их оценки легко сводимы друг к другу. Шкалирование в принципе допустимо и желательно для широкого круга методик, применяемых в диагностических и исследовательских целях, в том числе и для методик, результаты которых выражены в качественных показателях. В этом случае для стандартизации можно использовать перевод номинативных шкал в ранговые (см. Шкалы измерительные) или разработать дифференцированную систему количественных первичных оценок. Следует отметить, что при всей простоте, наглядности шкальные показатели являются статистическими характе- ристиками, позволяющими лишь указать на место данного результата в выборке из множества аналогичных по характеру измерений. Шкальный показатель даже для традиционного психометрического инструмента является лишь одной из форм выражения показателей теста, используемых при интерпретации результатов обследования. Количественный анализ при этом должен всегда проводиться в комплексе с многосторонним качественным изучением причин возникновения данного тестового результата с учетом как комплекса сведений о личности испытуемого, так и данных о текущих условиях обследования, надежности и валидности методики. Гипертрофированные представления о возможности обоснованных заключений лишь по количественным оценкам приводили к многим ошибочным представлениям в теории и практике психологической диагностики (см. Интеллекта коэффициент, Тесты интеллекта). |