Главная страница
Навигация по странице:

  • НАДЕЖНОСТЬ ПО ВНУТРЕННЕЙ СОГЛАСОВАННОСТИ

  • НАДЕЖНОСТЬ РЕТЕСТОВАЯ

  • НАДЕЖНОСТЬ ФАКТОРНО-ДИС­ПЕРСИОННАЯ

  • НАДЕЖНОСТЬ ЧАСТЕЙ ТЕСТА

  • Валидность тестов. Словарьсправочник по психодиагностике издание 2е, переработанное и дополненное Серия Мастера психологии


    Скачать 5.87 Mb.
    НазваниеСловарьсправочник по психодиагностике издание 2е, переработанное и дополненное Серия Мастера психологии
    Дата10.08.2022
    Размер5.87 Mb.
    Формат файлаdoc
    Имя файлаВалидность тестов.doc
    ТипСправочник
    #643669
    страница31 из 71
    1   ...   27   28   29   30   31   32   33   34   ...   71


    НАДЕЖНОСТЬ ПАРАЛЛЕЛЬНЫХ ФОРМ — характеристика надежности психодиагностической методики с помо­щью взаимозаменяемых форм теста (см. Параллельная форма теста). При этом

    одни и те же испытуемые в выборке опре­деления надежности обследуются внача­ле с использованием основного набора заданий, а затем — с применением анало­гичных дополнительных наборов. Коэф­фициент надежности по типу Н. п. ф. мо­жет быть определен и другим способом, а именно: испытуемые делятся примерно на равные группы, затем одной из них пред­лагается форма А теста, а другой — фор­ма Б. Через определенное время (обычно не более недели) проводится повторное тестирование, но в обратном порядке.

    Такая процедура обследования лише­на значительной части недостатков спосо­ба определения надежности ретесто-вой. Так как в параллельной форме ис­пользуется другой по содержанию мате­риал, возможность тренировки и запоми­нания отдельных решений уменьшается. Важнейшим преимуществом данного ме­тода является сокращение временного ин­тервала перед повторным обследованием. Основным показателем Н. п. ф. является коэффициент корреляции между резуль­татами первичного и повторного обследо­ваний, который позволяет оценить как временную стабильность теста (собствен­но надежность), так и степень соответ­ствия результатов обеих форм теста. Если формы применяются непосредственно одна за другой, то корреляция отражает их взаимозаменяемость.

    Отношение между параллельными формами теста имеет сложный характер. Оба набора заданий должны не только от­вечать одним и тем же требованиям, изме­ряя идентичные показатели и давая сход­ные результаты, но вместе с тем быть от­носительно независимыми друг от друга. На практике эта задача осуществима да­леко не для всех тестовых заданий (в осо­бенности это касается личностных мето­дик, опросников), что существенно огра­ничивает сферу применения Н. п. ф. Дру-

    гим недостатком характеристики надеж­ности по типу Н. п. ф. является возмож­ность усвоения испытуемым принципа ре­шения, общего для основной и параллель­ной форм. Таким образом, в случае оцен­ки Н. п. ф. влияние тренировки и навыка, приобретаемого при повторном обследо­вании, если и снижается по сравнению с характеристикой надежности ретестовой, однако не устраняется полностью.

    НАДЕЖНОСТЬ ПО ВНУТРЕННЕЙ СОГЛАСОВАННОСТИ — способ опре­деления надежности, опирающийся на оценку степени выраженности интеркор­реляционных связей между заданиями, составляющими тест.

    В данном случае истинный показатель по тесту понимается как результат, кото­рый получил бы испытуемый, если бы ему были предъявлены все возможные зада­ния, относящиеся к черте или свойству, являющемуся объектом тестирования. Каждый конкретный тест является выбор­кой из генеральной совокупности зада­ний. Погрешность измерения отражает степень, в которой реальная выборка за­даний охватывает теста заданий сово­купность генеральную. Генеральная со­вокупность заданий порождает бесконеч­но большую корреляционную матрицу парных связей между заданиями. Среднее значение корреляции между заданиями для этой матрицы (Тц) указывает на сте­пень общности, внутренней согласован­ности, заданий. Так, если, например, в те­сте было бы одно задание из множества независящих друг от друга, то

    0,00. Предполагается, что все задания имеют одинаковые значения взаимной корре­ляции.

    Исходя из основных положений оцен­ки Н. п. в. с, можно сказать, что корреля­ция некоторого задания с истинным пока­зателем (г.() равна квадратному корню от

    его средней корреляции с другими задани­ями (Дж. Наннелли, 1978):



    строго говоря, этот вывод справедлив тог­да, когда количество заданий приближа­ется к бесконечности.

    С точки зрения разработчика теста, соотношение r.tи г.. имеет важное значе­ние, поскольку при разработке значитель­ного количества заданий и выборе из них тех, для которых значение лГц будет наи­большим, созданный тест будет надеж­ным и свободным от погрешностей изме­рения. Аналогичные рассуждения, касаю­щиеся взаимосвязи заданий, могут быть применены к надежности параллельных форм тестов. В данном случае каждый из параллельных тестов рассматривается как случайная выборка из генеральной со­вокупности заданий. Средние значения и дисперсии тестов отличаются от истинно­го показателя только случайным образом. Следовательно, в приведенном выше уравнении значения для заданий могут быть заменены показателями для тестов (т. е. наборов заданий).

    Так как корреляции между заданиями или параллельными тестами на практике не являются идентичными, должно быть некоторое распределение их вокруг ис­тинного значения. Если предположить, что такое распределение является нор­мальным (см. Нормальное распределе­ние), можно оценить точность коэффици­ента надежности Тц путем вычисления стандартной ошибки (см. Ошибка изме­рения) средней взаимной корреляции за­даний или тестов в генеральной совокуп­ности (Дж. Наннелли, 1978):

    ций задании внутри теста ил — количе­ство заданий в тесте.

    Из уравнения видно, что по мере воз­растания стг. возрастают различия между корреляциями и по мере возрастания п стандартная погрешность уменьшается, то есть чем больше заданий, тем выше точность оценки коэффициента надежно­сти. Действительно, если предположить, что сгг для некоторого теста равна 0,15, а количество заданий варьирует от 10 до 30, то, подставив соответствующие значения в уравнение, получим следующие по­грешности: для теста из 10 заданий — 0,02; для теста из 20 заданий — 0,01; для теста из 30 заданий — 0,007.

    Вслед за Дж. Наннелли (1978), П. Клайн (1986) распространяет сужде­ние о возрастании точности коэффициен­та надежности при увеличении состава теста и на саму величину надежности. В самом деле, поскольку истинные пока­затели теста определяются через меру представленности заданий генеральной совокупности, должно выполняться пред­положение о том, что чем больше тест, тем выше корреляция с истинным показа­телем. Предельным случаем будет гипоте­тическая ситуация, когда тест состоит из всех заданий генеральной совокупно­сти за исключением одного. Для доказа­тельства надежности теста, задания кото­рого, как заранее известно, принадлежат одной генеральной совокупности, можно воспользоваться формулой Спирмена— Брауна:





    где rt— надежность теста, п —- количе­ство заданий, Ц, — средняя взаимная кор­реляция заданий. В формуле Спирмена Брауна показатель г,' (см. Надежность частей теста) заменен на Тц , что выте­кает из вывода модели коэффициента на­дежности.

    Предположим, имеются три набора за­даний (п = 10, 20, 30), средняя корреля­ция между которыми равна 0,20, тогда:

    10-0.20 nRfi7 О667



    Причем эти показатели получены для заданий, взаимная корреляция которых была низкой. Для более однородного тес­та из 30 заданий при 7ц = 40 получаем:



    Таким образом, при наличии набора однородных заданий тест будет заведомо надежным. Даже если разделить совокуп­ность заданий на две параллельные фор­мы по 15 пунктов, они обе также будут иметь удовлетворительную надежность.

    Теоретические значения коэффициен­та надежности при данном способе опре­деления существенно превышают эмпи­рические значения надежности ретесто-вой и надежности параллельных форм. Это происходит из-за ряда допущений. Прежде всего следует указать на то, что при определении Н. п. в. с. не учитывают­ся другие источники погрешности измере­ний, связанные с неконтролируемыми факторами среды, состояния и мотивации испытуемого (см. Надежность). В этой связи между Н. п. в. с. и ретестовой на­дежностью имеется противоречие. Ретес-товая надежность может уменьшаться при увеличении состава заданий (чем больше заданий, тем выше вероятность случайного или закономерного изменения ответа при ретесте). Противоречие может быть снято за счет признания некоррект­ности допущения о равенстве интеркорре-

    ляций между заданиями, зависимости по­грешности лишь от представленности в тесте генеральной совокупности заданий. В противном случае необходимо было бы согласиться с тем, что в двух тестах, свя­занных общим фактором и имеющих оди­наковое количество заданий, но совер­шенно разных по характеру выполнения и трудности, надежность будет одинаковой, что невозможно.

    Следует обратить внимание на невоз­можность определения таким способом надежности тестов скорости, так как связь каждого из заданий исследуемой ге­неральной совокупности не определена из-за большого количества заданий, ин­теркорреляции заданий могут терять смысл (см., напр., Корректурная проба).

    Важным аспектом оценки примени­мости Н. п. в. с. является парадокс, возни­кающий в этом случае при сочетании по­казателей надежности и валидности теста. Кажется, что высокая внутренняя согласованность должна быть основной целью разработчиков теста (Л. Кронбах, 1920). Такая точка зрения является до­вольно распространенной. Однако Р. Кэт-телл (1977) обоснованно утверждает, что высокая внутренняя согласованность (особенно при изучении сложных психо­логических конструктов, личностных по­казателей) в известном смысле противо­стоит высокой валидности.

    Возникающее противоречие можно иллюстрировать следующим примером. Тест вербальных способностей может включать задания (и соответственно, суб­тесты) на подбор антонимов, синонимов, понимание слов, словарный запас. Пред­положим, что каждый из субтестов имеет высокие показатели Н. п. в. с. Однако если бы мы воспользовались только одним субтестом (например, подбором антони­мов), то показатель Н. п. в. с. теста несом­ненно возрос бы по сравнению с полным набором субтестов, так как используется

    только один тип высокосогласованных за­даний. Высокая надежность субтеста ан­тонимов будет отражать тот факт, что эта выборка заданий в высокой степени кор­релирует с гипотетической генеральной совокупностью заданий на антонимы. Од­нако этот истинный показатель отражает не вербальные способности, а только спо­собность подбирать антонимы (т. е. валид-ность теста станет низкой по отношению к измерению вербальных способностей). Приведенные данные свидетельству­ют о специфичности применения каждо­го из имеющихся подходов к характерис­тике надежности теста. Н. п. в. с. имеет, очевидно, в основном теоретическое зна­чение. Как и надежность частей теста в предельном случае разбивания материа­ла на отдельные задания, рассматривае­мый способ имеет практическое значе­ние для оценки точности коэффициента надежности, а также при характеристи­ке некоторых тестов, состоящих из спе­циально подобранных факторизованных заданий (см. Факторно-аналитический принцип).

    НАДЕЖНОСТЬ РЕТЕСТОВАЯ — ха­рактеристика надежности психодиагно­стической методики, получаемая путем повторного обследования испытуемых с помощью одного и того же теста. Надеж­ность в этом случае вычисляется по соот­ветствию результатов первого и второго обследований или по сохранению ранго­вых мест испытуемых в выборке при рете­сте. Коэффициент надежности (г) соот­ветствует коэффициенту корреляции между результатами таких обследований. При использовании интервальных шкал (см. Шкалы измерительные) применяет­ся коэффициент корреляции произведе­ния моментов Пирсона (см. Корреляци­онный анализ). Для шкал порядка в ка­честве меры устойчивости к перетестиро­ванию может быть использован коэффи-

    циент ранговой корреляции Спирмена или Кэндалла (см. Корреляция ранговая).

    При характеристике Н. р. особое зна­чение имеет временнбй интервал между первым и вторым обследованиями. С его увеличением показатели корреляции име­ют тенденцию к снижению, существенно повышается вероятность воздействия по­сторонних факторов — могут наступить закономерные возрастные изменения из­меряемых тестом свойств, произойти раз­личные события, влияющие на состояние и особенности развития исследуемых ка­честв. По этой причине при определении Н. р. стараются выбирать непродолжи­тельные временные интервалы (до не­скольких месяцев), а при обследовании детей младшего возраста эти интервалы должны быть еще меньше, поскольку воз­растные изменения и развитие в этом слу­чае происходят еще быстрее.

    Несмотря на указанную тенденцию, при получении характеристик теста про­водятся повторные испытания и с дли­тельным временным промежутком. Иног­да они осуществляются в целях оценки валидности прогностической, элемен­тов валидности конструктной, связан­ных с дифференциацией по возрастному критерию и др. Определение же Н. р. главным образом ограничивается анали­зом краткосрочных случайных измене­ний, характеризующих тест как измери­тельную процедуру, а не его отношение к исследуемой области поведения.

    Наряду с очевидной простотой Н. р. как метод определения надежности обла­дает существенными недостатками. Так, при повторном применении одних и тех же заданий, особенно при относительно непродолжительном временном интерва­ле между обследованиями, у испытуемых может сформироваться навык работы с данной психодиагностической методикой, что приводит к улучшению индивидуаль­ных результатов, хотя и не одинаково вы-

    раженному у разных лиц. Это неизбежно ведет к заметной перестановке ранговых мест отдельных испытуемых в данной вы­борке и, соответственно, ухудшению ко­эффициента надежности. Еще более за­метное воздействие на результаты анали­за надежности оказывает запоминание ис­пытуемыми отдельных решений, воспро­изведение в повторном обследовании пре­дыдущей картины правильных и непра­вильных решений. В этом случае резуль­таты двух предъявлений теста не будут независимыми и корреляция между ними окажется завышенной.

    Один из путей устранения влияния тренировки на результаты оценки Н. р. — формирование устойчивого навыка в ра­боте с соответствующей методикой перед проведением тест-ретеста. Однако коли­чество повторений теста при этом неиз­бежно возрастает, что приводит к увели­чению числа запомнившихся решений. Такой прием может быть рекомендован для методик типа тестов скорости, со­держащих большое количество элементов тестового материала.

    Для других методик, очевидно, един­ственным приемлемым путем снижения влияния тренировки остается увеличение интервала ретеста, что, однако, как уже говорилось выше, вступает в противоре­чие с определением надежности как ха­рактеристики теста.

    Для большинства тестов общих спо­собностей характерно улучшение показа­телей Н. р. с возрастом испытуемых за счет лучшего контроля условий их выпол­нения. Другим фактором увеличения рас­четных показателей Н. р. является отно­сительное замедление с возрастом темпа психического развития в области тех ха­рактеристик, которые могут стать объек­том измерения или влиять на результат теста. Благодаря этому, спустя время, со­ставляющее интервал ретеста, случайные колебания результатов обследования ста-

    новятся менее выраженными. Это искус­ственно завышает показатели Н. р. Эта закономерность требует отдельных изме­рений Н. р. в разных возрастных контин-гентах испытуемых, что особенно суще­ственно для методик, предназначенных для обследования в широком возрастном диапазоне (см. Станфорд—Бине ум­ственного развития шкала, Векслера интеллекта измерения шкалы).

    Указанные особенности и недостатки метода определения надежности путем ретеста делают его пригодным лишь для ограниченного числа методик, допускаю­щих многократное повторное обследова­ние. К их числу относятся сенсомоторные пробы, тесты скорости и ряд других мето­дик, отличающихся большим количеством пунктов (см. Миннесотский многоас­пектный личностный опросник).

    НАДЕЖНОСТЬ ФАКТОРНО-ДИС­ПЕРСИОННАЯ — способ определения

    надежности, основанный'на дисперси­онном анализе результатов теста. На­дежность теста соответствует отношению истинной дисперсии (т. е. дисперсии самого исследуемого фактора) к реально полученной эмпирической дисперсии. По-_ следняя складывается из истинной дис­персии и дисперсии погрешности изме­рения (см. Ошибка измерения). Фак­торно-аналитический подход к опреде­лению надежности дополнительно рас­членяет и дисперсию истинного показа­теля (Дж. Гилфорд, 1956).

    Дисперсия истинного показателя, в свою очередь, может состоять из диспер­сии общего фактора для групп аналогич­ных тестов (см. Фактор G), особых фак­торов, обеспечивающих тесты специфи­ческой направленности (см. Факторы групповые) и дисперсии факторов, прису­щих конкретной тестовой методике. Сле­довательно, полная дисперсия теста рав­на сумме дисперсий для общих, специфи-

    ческих и единичных факторов плюс дис­персия погрешности:



    2

    где ах— доля дисперсии, выраженная об­щим фактором а, и т. д.

    Таким образом, коэффициент надеж­ности теста равен:

    Факторно-дисперсионный способ оп­ределения надежности подходит для оцен­ки уже факторизованного теста (см. Фак­торно-аналитический принцип), но не для тестов, измеряющих широкий набор разнообразных параметров, так как неко­торые из них могут не входить в установ­ленную область валидности методики.

    НАДЕЖНОСТЬ ЧАСТЕЙ ТЕСТА

    характеристика надежности психодиаг­ностической методики, получаемая путем анализа устойчивости результатов от­дельных совокупностей тестовых задач или единичных пунктов (заданий) теста. Наиболее простым и распространен­ным способом определения Н. ч. т. явля­ется метод расщепления, суть которого заключается в выполнении испытуемым заданий двух равноценных частей теста. Обоснованием метода является вывод о том, что при нормальном или близком к нормальному распределении оценок по полному тесту (см. Нормальное распре­деление) выполнение любого случайного

    набора из частей теста даст аналогичное распределение (при условии, что части однородны по характеру заданий по отно­шению к тесту в целом).

    Для оценки надежности методом рас­щепления выбирают две эквивалентные по характеру и степени трудности группы задач (см. Внутренняя согласован­ность, Трудность заданий теста). Раз­деление объема заданий теста на сопоста­вимые части достигается:

    — распределением заданий на четные и нечетные (в том случае, если задания в тесте строго ранжированы по степе­ни субъективной трудности);

    — распределением пунктов по принципу близости или равенства значений ин­дексов трудности и дискриминативно-сти (см. Дискриминативность зада­ний теста). Такой принцип разделения пригоден для тестов достижений, в которых обязателен ответ испытуе­мых на все пункты;

    — распределением задач по времени ре­шения каждой из частей (для тестов скорости).

    Для испытуемых в выборке определе­ния надежности (раздельно для каждой из частей теста) вычисляются оценки успеш­ности решений, среднеквадратические от­клонения первого и второго рядов оценок и коэффициенты корреляции сравнивае­мых рядов. Естественно, эти коэффици­енты будут характеризовать надежность лишь половины теста.

    Уравнение Спирмена—Брауна отра­жает влияние изменения количества зада­ний на коэффициент надежности теста:



    теста — 100, а его части, полученной ме­тодом расщепления на половины, — 50, то п = 0,5). Отсюда для полного теста;



    Приведенные формулы справедливы для случаев равных стандартных отклоне­ний обеих половин теста х1= ах2). Если ах1 отличается от ах2, для определения "ко­эффициента надежности применяется формула Фланагана:



    При определении г, целого теста мож­но воспользоваться формулой Рюлона:

    rt = 1 j.

    <*х

    где о\ — дисперсия разностей между ре­зультатами каждого испытуемого по двум половинам теста, ах— дисперсия сум­марных результатов. В данном случае ко­эффициент надежности рассчитывается как доля «истинной» дисперсии результа­тов теста (см. Надежность, Ошибка из­мерения).

    При расщеплении тестов скорости применяется особая процедура группи­ровки заданий. Определяется минималь­ное время ((т1п)'решения целого теста, за­тем отсчитываются половина и четвертая часть этого времени. Все испытуемые ра­ботают половину минимального времени, после чего ставят отметку против зада­ния, выполняемого в момент подачи сиг­нала, и продолжают работать еще чет­верть минимального времени. Коэффици­ент надежности в этом случае будет соот-

    ветствовать степени корреляции между числом задач, решенных до первого сигна­ла (0,5fmin) и решенных за время между первым и вторым сигналами (0,25*т| ).

    Разделение заданий теста на равно­ценные половины является лишь частным случаем Н. ч. т. Вполне возможно рас­щепление на три, четыре и более частей. В предельном случае число частей равно числу пунктов. При этом для определения надежности применяют анализ внутрен­ней согласованности.

    При разделении всего набора заданий теста на любое количество групп для пра­вильного определения Н. ч. т., как уже указывалось выше, должно соблюдаться требование равноценности таких групп. Поэтому при вычислении коэффициента надежности методом анализа внутренней согласованности отобранные задания те­ста должны быть в высокой степени од­нородны по содержанию и трудности (го­могенны). При гетерогенных задачах значения г, ниже истинных:

    Наиболее распространенным методом оценки надежности отдельных заданий является вычисление коэффициента Кью­дера—Ричардсона:





    Это уравнение может быть упрошено следующим образом:

    k



    При отсутствии коэффициента диск­риминации применим вариант формулы Кьюде ра—Рич ардс он а:



    Пример вычислений rtno методу Кью­дера—Ричардсона приведен в табл. 17.

    Предложенные выше формулы для оп­ределения коэффициента надежности при­годны для случаев, когда задания оцени­ваются в дихотомической шкале (см. Шка­лы измерительные) по принципу «выпол­нено—не выполнено». Для случаев с бо­лее дифференцированной оценкой приме­нима формула коэффициента альфа:



    где £сг^. — сумма дисперсий результатов отдельных заданий.

    В практике психологической диагно­стики считается, что тест надежен, если rt > 0,6.

    Коэффициент надежности обладает доверительным интервалом, определение которого особенно важно в связи с боль­шим количеством факторов, способных влиять на его значение. Доверительный интервал для г, определяется как



    Таблица 17
    1   ...   27   28   29   30   31   32   33   34   ...   71


    написать администратору сайта