Главная страница
Навигация по странице:

  • Стандартные требования к надеж­ности и валидности.

  • В. Надежность и ошибка измере­ния.

  • Ретестирование.

  • Валидность тестов. Словарьсправочник по психодиагностике издание 2е, переработанное и дополненное Серия Мастера психологии


    Скачать 5.87 Mb.
    НазваниеСловарьсправочник по психодиагностике издание 2е, переработанное и дополненное Серия Мастера психологии
    Дата10.08.2022
    Размер5.87 Mb.
    Формат файлаdoc
    Имя файлаВалидность тестов.doc
    ТипСправочник
    #643669
    страница63 из 71
    1   ...   59   60   61   62   63   64   65   66   ...   71

    Б. Сведения о процедуре разработ­ки теста.

    Ответственность за заключение о смысле и ограничениях в использовании тестовых результатов ложится в первую очередь на пользователя. Однако в этом случае он частично зависит от доступной информации о тесте, приводимой его со­ставителем.

    Руководство к тесту не может полнос­тью подготовить пользователя к интерпре­тации данного теста. Ему приходится делать выводы, не подтвержденные опуб­ликованными свидетельствами. Так, про-фориентатор не может надеяться на на­личие данных о валидности теста для каж­дого вида труда, относительно которых он на основе тестовых оценок делает наибо­лее надежные предсказания. Специалист по профконсультации или трудоустрой­ству может иметь дело с испытуемыми, ко­торые не могут быть отнесены ни к одной из групп, для которых имеются норматив­ные или валидационные данные. Учитель может оценивать содержание теста дости­жений соответственно принятым целям и особенностям обучения, клиницист дол­жен соотнести общие данные теории с соб­ственной интерпретацией данных по оп­роснику личности. Степень, с которой ру­ководство подготовит пользователя к точ­ной интерпретации и эффективному ис­пользованию теста, зависит от типа теста и способов его применения. На составите­ля теста возлагается ответственность за

    представление информации, необходимой для правильных суждений. Он должен приложить все возможные усилия, чтобы тест не был неправильно употреблен или неправильно интерпретирован.

    Б.1. В руководстве к тесту должна быть полностью отписана процедура созда­ния теста: его концептуальная основа, детали разработки заданий теста и их от­бора, психометрическая проверка надеж­ности и валидности и другие исследова­ния. (Существенно.)

    Б.2. В руководстве к тесту должны быть ясно отражены теоретические поло­жения, на которых основан тест, и подроб­но раскрыта природа характеристик, для измерения которых тест предназначен. (Существенно.)

    Комментарий. Ясное описание диагносцируемых переменных, а также характер измерения позволяют пользова­телю судить, насколько тест соответству­ет его собственному пониманию, а также насколько статистические данные харак­теризуют его действенность.

    Б.2.1. Диагностический конструкт (концепт) должен быть сформулирован в теоретических понятиях и соотнесен на теоретическом уровне с системой реле­вантных конструктов (теоретическое оп­ределение). (Существенно.)

    Б.2.2. Особое внимание должно быть обращено на операциональное опреде­ление диагностического конструкта. Опе­рациональное определение — это опре­деление конструкта в эмпирических кате­гориях, отражающих ситуацию, в которых он актуализируется, а также реакции (по­ведение, переживания, представления), в которых данный конструкт проявляется. (Существенно.)

    Комментарий. Пользователь те­ста нуждается в информации, которая по­зволила бы ему сравнивать собственную концепцию конструкта с концепцией авто­ра теста.

    Б.З. Руководство теста должно указать диагностические цели и сферы приложе­ния, для которых тест рекомендован. (Су­щественно.)

    Комментарий. Ясное указание целей теста содействует предупреждению ошибочного истолкования тестовых оце­нок. Надо обратить внимание пользовате­ля на содержание в руководстве доказа­тельства предложений, принятых авто­ром. Например, если тест достижений рекомендован как тест обследования зна­ний учащихся, важно точное описание его содержания. Если, с другой стороны, он рекомендован как диагностический тест или тест для выбора вида деятельности, требуются данные о его связи с одним или несколькими критериями.

    Б.З. 1. Должна быть четко выделена об­ласть применения, под которой подразу­мевается особая социальная среда или сфера общественной практики (производ­ство, медицина, семейная жизнь и т. п.), контингент испытуемых (пол, возраст, об­разование, профессиональный опыт, на производстве, в обществе). (Сущест­венно.)

    Б.3.2. В руководстве должны быть конкретизированы цели использования результатов: для прогноза успешности профессиональной деятельности, психо­логического вмешательства, принятия правовых, судебно-административных ре­шений, прогноза стабильности коллекти­ва и т. п. (Очень желательно.)

    Б.4. Руководство к тесту должно отразить репрезентативность выборки заданий, процедуру их отбора и психоме­трические характеристики заданий. (Су­щественно.)

    Комментарий. Для тестов, пред­ставляющих собой гомогенную, дискрими-нативную шкалу или набор таких шкал, процедура отбора заданий проводится сле­дующим образом: каждое задание прохо­дит проверку на трудность и дискрими-

    нативность, на соответствие заданий нор­мальному распределению и их степень отношения к одному фактору. Выборка для анализа должна отражать популяцию и в общем случае для проверки одной формы теста состоять как минимум из 100 человек.

    Б.4.1. Данные, собранные в ходе раз­работки теста (до получения конечной формы), должны быть отделены от дан­ных, относящихся к тесту в его конечной форме. (Существенно.)

    Б.5. В случае, если тест не разрабаты­вается вновь, а переводится с другого язы­ка, он должен пройти полную психомет­рическую проверку, так же как вновь раз­рабатываемый тест. (Существенно.)

    Б.5.1. При переводе руководства к тесту проверяется эквивалентность диаг­ностических конструктов и концептов,ле­жащих в основе тестовых задач. (Суще­ственно.)

    Стандартные требования к надеж­ности и валидности. Составитель теста должен привести в руководстве сведения о надежности и валидности теста. Многие пользователи тестов также выполняют подобные исследования, опираясь на соб­ственное применение тестов. Их научные сообщения часто отличаются от приведен­ных в руководстве к тесту как более де­тальные и более специфические, описыва­ющие более узкие сферы использования теста. Несмотря на эти различия, в обоих случаях стандартные требования для ис­следований и сообщений по ним должны быть в общем сходными. .

    В. Надежность и ошибка измере­ния.

    Надежность — характеристика мето­дики, отражающая точность психодиаг­ностических измерений, а также устой­чивость результатов теста к действию по­сторонних случайных факторов.

    В основе анализа надежности теста лежит представление об истинных оцен-

    ках и ошибках измерения. Распределение оценок, полученных на генеральной сово­купности при выполнении теста, изме­ряющего одну характеристику, теорети­чески должно подчиняться нормальному закону. Поэтому при разработке теста ис­следователю необходимо отбирать зада­ния таким образом, чтобы распределение реальных тестовых оценок было по воз­можности близко к нормальному.

    Для определения ошибки измерения используются на практике корреляцион­ные методы, позволяющие определить надежность через устойчивость и согла­сованность результатов. Классические методы оценки коэффициентов надежно­сти требуют корреляции по меньшей мере двух совокупностей сходных изме­рений.

    Один из методов получения двух сово­купностей измерений — это ретестирова-ние (повторное обследование одной и той же выборки испытуемых). Несмотря на простоту и возможность определения ус­тойчивости результатов теста в течение времени, дефект метода в том, что субъект помнит свои ответы, и в случае тестов спо­собностей это может существенно влиять на повторные ответы.

    Если мы желаем исключить влияние запоминания на результаты ответов как систематический источник ошибки и учесть влияние временного интервала на ответы, то можем использовать две сово­купности заданий, разработанных или ото­бранных по одной системе. Это — парал­лельные тесты. Недостатком в данном слу­чае является то, что очень трудно постро­ить на практике параллельные формы од­ного и того же теста.

    Если желательно изучить только вли­яние содержания выборки без влияния запоминания или вариативности ответов во времени или если практически нецеле­сообразно проводить две параллельные формы в разное время, надежность может

    быть оценена проведением одного теста без ограничения во времени. В данном случае тест может быть разделен на две равные части. Полученные показатели по двум частям теста коррелируются обыч­ным методом. Но эта корреляция отража­ет лишь надежность половины теста. Для вычисления надежности всего теста по методу расщепления используют формулу Спирмена—Брауна.

    Оценка надежности на основе одно­кратного тестирования может быть полу­чена путем использования формулы, изве­стной как коэффициент альфа.

    Рекомендуется также оценить надеж­ность теста относительно эксперимента­тора как оценщика и как эксперимента­тора.

    Из предыдущего видно, что различные методы оценивания надежности исходят из различных источников ошибок. Так, на результаты ретестирования влияет не только случайная вариативность ответов или изменение субъектов во времени, но также различия в поведении (особенно если ретестирует другое лицо). Коэффи­циенты надежности, основанные на одно­кратном тестировании, исключают вариа­тивность ответов во времени, т. е. влияние ответов на баллы не проявляется как ошибка измерения. Следовательно, «коэф­фициент надежности* — обобщенный тер­мин. Он может основываться на разных типах свидетельств — каждый тип пред­полагает иной смысл. Очень важно, что­бы метод, использованный для получения коэффициента надежности, был четко описан.

    Автору теста рекомендуется в руко­водстве описать значение любого коэффи­циента насколько возможно точно. Напри­мер, высказывание: «Этот коэффициент показывает стабильность измерения экви­валентных баллов, основанных на парал­лельных формах тестов, проведенных с промежутком в 7 дней, при этом научение

    испытуемых исключается» хотя и длин­ное, но свободно от двусмысленности.

    Коэффициенты надежности имеют ог­раниченную практическую ценность для пользователей теста. Стандартная ошиб­ка измерения обычно более полезна, т. к. обладает относительной независимостью и может быть использована для установ­ления пределов определенной вероятнос­ти балла. Пользователи теста могут упот­ребить коэффициент надежности для срав­нения тестов, но для интерпретации тес­товых баллов используется стандартная ошибка измерения.

    В.1. В руководстве к тесту должны быть достаточно подробно описаны проце­дуры и выборки, использованные для оп­ределения коэффициентов надежности, сами коэффициенты и ошибки измерения, что позволит пользователю судить о том, в какой степени эти параметры приложи-мы к лицам или группам, с которыми он имеет дело. Если некоторые из необходи­мых данных не были получены, то отсут­ствие такой информации должно быть от­мечено. (Существенно.)

    Комментарий. Для пользователя важно получить несколько типов оценки надежности. Полезным является сообще­ние стандартных ошибок измерения, по­лученных в разных группах. Следует при­вести среднее значение и дисперсию вы­борки и информацию о ее составе. Надеж­ность теста, предназначенного для отбора работников, проверяется при тестирова­нии кандидатов на должность, а не школь­ников или уже работающих. Если указыва­ется, что тест пригоден для различных воз­растных групп, следует привести данные о надежности для каждого класса или возра­ста. Авторы и публикаторы тестов должны избегать необщепринятых статистических процедур, если применимы традиционные. Если представлен необщепринятый стати-

    425

    стический анализ, он должен быть объяс­нен так, чтобы свести к минимуму вероят­ность ошибочной интерпретации.

    В. 1,1. В руководстве к тесту следует представить, насколько это возможно, количественный анализ всех факторов, снижающих надежность измерения: не­согласованность ответов субъекта; несог­ласованность или неоднородность внутри выборки содержания теста (стимульные задания, вопросы, ситуации и др.); несог­ласованность в проведении теста; несог­ласованность между оценщиками, экспер­тами или единицами математического ап­парата; механические ошибки при выстав­лении баллов. (Желательно.)

    Комментарий. Подобный анализ может быть неосуществим, если результа­ты теста выражены не в количественной форме, а в категориальной или непарамет­рической.

    Для группы тестов школьных дости­жений основными источниками ошибок, подлежащих оценке, являются: а) несог­ласованность в содержании теста; б) не­согласованность в проведении теста; в) не­стабильность ответов испытуемых. Сбор данных производится для оценки этих трех факторов. Колебания или несогласо­ванность ответов субъекта сами по себе могут быть важной переменной. Они час­то бывают главными источниками подле­жащей оцениванию случайной ошибки. Также должна быть оценена несогласо­ванность между оценщиками.

    В. 1.2. Стандартные ошибки измерений и коэффициенты надежности должны при­водиться как для итогового балла, так и для его частей, комбинаций баллов (сумм, разниц, производных показателей), если они рекомендованы в руководстве к тесту (явно или неявно) для практического ис­пользования, за исключением опытных и экспериментальных. (Существенно.)

    В. 1.3. В руководстве должно быть ука­зано минимальное различие между двумя

    баллами, обычно требуемое для статис­тической значимости на определенном уровне. (Очень желательно.)

    В. 1.4. В руководстве должны быть опи­саны все характеристики выборки, кото­рые могут оказывать влияние на надеж­ность оценивания. (Существенно.)

    Комментарий. В руководстве следует отразить такую демографическую информацию, как распределение субъек­тов по возрасту, полу, экономическому и интеллектуальному уровню, трудовому статусу или прошлой трудовой деятель­ности, месту жительства. Для стандар­тизированных тестов при вычислении коэффициентов надежности выборку сле­дует формировать случайным образом из генеральной совокупности.

    В, 1.5. Если тест рекомендован или обычно используется в однородных под­группах, для каждой из них независимо должна быть исследована надежность и ошибка измерений, и это должно быть со­общено в руководстве к тесту. (Суще­ственно.)

    В. 1.6. В руководстве к тесту должна быть сообщена стандартная ошибка изме­рения для разных уровней баллов. (Жела­тельно.)

    Комментарий. В руководстве к одному тесту способностей сообщаются стандартные ошибки для трех уровней баллов: на уровне среднего балла, на уров­не одного стандартного отклонения выше среднего и на уровне одного стандартного отклонения ниже среднего. Так как наибо­лее существенные вариации ошибок изме­рения связаны с крайними баллами, луч­ше опираться, если позволяет количество доступных случаев, на более широкий ди­апазон уровней баллов.

    В.1.7. Неизвестные статистические характеристики данных должны быть опи­саны со ссылками на литературные источ­ники, отражающие разработку. (Суще­ственно.)

    Ati.

    Внутренняя согласованность.

    В.2. В руководстве должны быть пред­ставлены данные о внутренней согласо­ванности (гомогенности,консистентности тест). (Очень желательно.)

    Комментарий. Внутренняя со­гласованность важна, если задания рас­сматриваются как выборка из относи­тельно однородного общего множества (например, тест сложения целых чисел, словарный тест для средней школы, тест, предположительно измеряющий интро-версию и т. п.). Меры внутренней согла­сованности не заменяют иных мер.

    В.2.1. Оценки внутренней согласован­ности определяются соответствующими методами расщепления пополам, при по­мощи коэффициента альфа или других процедур, которые должны быть адекват­ны анализируемым данным. Любая другая мера внутренней согласованности, кото­рую автор дополнительно сообщает, в ру­ководстве к тесту должна быть подробно объяснена. (Очень желательно.)

    Комментарий. Коэффициенты парного расщепления отражают суждения экспертов и обнаруживают тенденцию быть выше, чем коэффициенты случайно­го расщепления. Дисперсионный анализ обычно дает более низкие оценки по срав­нению с приемами парного расщепления. Могут быть полезными специальные ко­эффициенты: они должны быть описаны так, чтобы читатель мог понять их соотно­шение с общепризнанными оценками.

    8.2.2. Оценки внутренней согласован­ности не следует вычислять для скорост­ных тестов. (Существенно.)

    8.2.3. Если тест состоит из отдельно оцениваемых частей или разделов, в ру­ководстве к тесту следует сообщить кор­реляцию между частями или разделами вместе с соответствующими оценками на­дежности, а также с соответствующими средними и стандартными отклонениями. (Очень желательно.)

    В.2.3.1. Если в руководстве сообщает­ся корреляция между баллом по отдельно­му субтесту и общим тестовым баллом, необходимо подчеркнуть, что коэффици­ент неоправданно высок, так как он ос­нован на совпадении ошибок измерения субтестом и общим тестовым баллом. (Существенно.)

    В.2.4. Если несколько вопросов внут­ри теста экспериментально связаны так, что ответ на один вопрос влияет на другой вопрос, предпочтительно относить целую группу вопросов к одной из двух половин теста, когда применяются методы случай­ного или парного распределения пополам. Тот факт, что число заданий в этих поло­винах не равно, не вызывает затруднений при соответствующей процедуре анализа. (Очень желательно.) Ретестирование.

    В.З. В руководстве к тесту должны быть представлены результаты ретестиро-вания, т. е. пользователь должен знать, насколько оценки стабильны. (Сущест­венно.)

    Комментарий. Ретестовая на­дежность показывает, в какой степени ре­зультаты теста можно распространить на различные случай его применения. Приво­дя в руководстве ретестовую надежность, всегда необходимо указывать, в каком ин­тервале времени она измерялась и какие влияния на испытуемых имели место в этот период. На практике ретестовая на­дежность в ряде случаев бывает важнее, чем надежность по однородности. Если нет ретестовой надежности, тест не может быть валидным. Исключение составляют тесты, для которых ретестирование не применяется (тесты оценки состояний, эмоций).

    Считается обоснованным требовать оценивания стабильности для проектив­ных техник и других средств оценки лич­ности, даже если в некоторых случаях известно, что низкая стабильность ре-
    1   ...   59   60   61   62   63   64   65   66   ...   71


    написать администратору сайта