Научно-исследовательская деятельность 2. Физической культуры и спорта в. Н. Попков научноисследовательская
Скачать 2.55 Mb.
|
4.7.6 Информативность теста Информативностью (валидностью) теста называется его способность оценивать то свойство, которое хотят с его помощью измерить. Таким образом, понятие «информативность» объединяет в себе два вопроса: «что измеряет тест?» и «насколько хорошо он это делает?» Сложность ответа на первый вопрос заключается в том, что в отличие от прямого физического измерения, тестирование является своеобразной разновидностью косвенного (или опосредованного измерения), в котором интересующее нас свойство непосредственно не измеряется, а косвенно оценивается по результату измерения другого свойства (качества, способности). Например, если нас интересует сила разгибателей ног, то её можно измерить с помощью динамометра. В этом случае вопрос о том отражает ли данный тест то, что мы хотим измерить, не возникает (можно ставить под вопрос только надёжность измерения). Для оценки того же свойства (силы разгибателей ног) можно использовать другой тест – прыжок в длину с места. В этом случае сразу возникает ещё и второй вопрос: насколько этот тест отражает силу разгибателей ног? Поскольку ясно, что более высокий результат в прыжке может быть достигнут не за счет большей силы, а за счет меньшей массы тела, лучшей техники или более высокой мотивации испытуемого. Рассмотрим несколько разновидностей информативности теста. Информативность по определению. Это наиболее простой случай. Например, ставится задача оценить «прыгучесть» спортсмена. Если определить (договориться), что понятие «прыгучесть» это способность спортсмена поднять общий центр массы своего тела в вертикальном прыжке толчком двумя ногами на максимальную высоту, то измерение этой высоты, безусловно, будет информативным тестом для оценки «прыгучести». Несколько сложнее выглядит ситуация, когда интересующее нас свойство в принципе может быть объективно измерено, но в силу каких-либо обстоятельств (трудоёмкости, отсутствия соответствующих измерительных средств и др.) мы не можем это сделать. Например, мы не можем измерять результат спортсмена на стайерской дистанции слишком часто, но хотим получить представление о том, как изменяется его способность показать этот результат. И, наконец, ситуация наиболее сложная, когда свойство или качество в принципе не поддаётся объективному измерению, а может быть описано только на уровне семантических определений. Например, такие свойства как: здоровье, тренированность или физические качество «ловкость». Таким образом, если оценку надёжности теста можно осуществить на основе анализа только его результатов, то для оценки информативности теста необходимо соотнести результат теста с некоторым внешним критерием. Отсюда следует, что ни один тест не может быть информативным «сам по себе» или «вообще». Он может быть информативен только по отношению к какому-то критерию. Поскольку критерии могут избираться различные, то и информативность теста будет меняться в зависимости от избранного критерия. Выбор критерия зачастую бывает наиболее сложной проблемой. Информативность теста может быть охарактеризована на основе качественного (логического), содержательного анализа того, что и как оценивает тест и на основе математико-статистического анализа эмпирических данных, количественно описывающих результат теста и критерий. В первом случае говорят о логической или содержательной информативности теста, во втором – об эмпирической информативности. Следует подчеркнуть, что эти два способа не следует рассматривать в отрыве друг от друга, т. к. несмотря на определённые преимущества эмпирических критериев (объективность, сравнимость, пригодность для математических расчётных методов прогнозирования) в практической работе содержательная информативность всегда предшествует эмпирической её оценке. Именно на основе логической информативности производится первичный выбор теста. Логический, содержательный анализ во всех случаях является обязательным, а в ряде случаев единственно возможным способом оценки информативности теста. Понятие «информативность» не имеет однозначной трактовки. Так, в теории тестов выделяют 7 основных видов информативности: содержательную (логическую), простую или сложную, абсолютную, дифференциальную, синхронную, диахронную, теоретическую (конструктивную) и 12 производных разновидностей: очевидную, внутренюю, внешнюю, чистую, инкременантную, параморфную, диагностическую, эмпирическую, ретроспективную прогностическую, факторную и дискриминантную (П. Благуш [4]). Логическая или содержательная информативность. Поскольку тестирование выполняется всегда с какой-то определённой целью, и его результаты используются для решения конкретной практической задачи (например, оценки состояния здоровья, тренированности, прогнозирования спортивного результата, отбора претендентов и т. д.), то выбор теста и обоснование его пригодности для решения поставленной задачи должны опираться на логический, содержательный анализ тех свойств, которые предстоит оценить на самом деле и того, в какой мере эти свойства отражены в результате теста. Например, совершенно очевидно, что такой тест как измерение силы кисти не будет информативным для оценки музыкальных способностей. В тех случаях, когда качество, которое предстоит оценить с помощью теста, семантически определяется однозначно и не допускает различных вариантов смыслового толкования, вопрос об информативности теста решается относительно просто – по определению. В этом случае как бы заранее договариваются, какой смысл вкладывать в то или иное понятие (термин). Например, договоримся, что под «аэробной производительностью» будем понимать то, что измеряется максимальным потреблением кислорода (МПК). В таком случае вопрос о том, что измеряет МПК, не возникает. Сомнению может подвергаться надёжность теста, но не его информативность. Если интересующее нас свойство не имеет однозначного определения, то ситуация с обоснованием информативности более сложная. Например, необходимо выбрать тест для оценки «работоспособности». Сразу возникает масса вопросов: какой работоспособности – физической или умственной, если физической, то какой – специальной или общей; если специальной, то какой – аэробной, анаэробной и т. д. Поскольку информативность теста зависит от его надёжности, а та, в свою очередь, от других свойств теста (трудности, длины, скорости) и от особенностей исследуемого контингента, то становится совершенно очевидным, что уже на этапе предварительной оценки пригодности теста необходимо дать ответы на все эти вопросы, причём на них нельзя ответить формальными математическими приёмами. Наиболее сложной является ситуация, когда свойство, подлежащее оценке, не только не может быть измерено прямым методом, но вообще носит скрытый (латентный) характер. Например, такие свойства как «здоровье, «физическая подготовленность», «физические качества» хотя и имеют определения в соответствующих областях науки (медицине, теории физического воспитания), но определены только в качественных, содержательных понятиях и обоснование пригодности тестов для их оценки может быть сделано только логическим путём. Содержание процедуры логического анализа информативности формализовать практически невозможно, но в общих чертах она сводится к анализу причинно-следственных отношений между факторами, определяющими уровень свойства, и факторами, влияющими на результат теста. Содержательный анализ информативности теста совершенно необходим не только для предварительного выбора теста, но и для последующей смысловой интерпретации результатов тестирования на этапе принятия практических решений. Эмпирическая информативность. Этот вид оценки информативности подразумевает возможность получения экспериментальным путем количественных, объективных характеристик результата теста, и его сопоставления с количественной оценкой критерия и последующего вычисления количественной меры их связи. Наиболее простой случай, когда имеется единичный критерий (к), с которым сопоставляется результат теста (t). Мерой информативности теста является коэффициент корреляции (rtk)между результатом теста и критерием. В качестве критерия при оценке информативности тестов обычно используются: прямое измерение свойства; спортивный результат; результат другого теста, информативность которого не вызывает сомнений. составной критерий (сумма баллов по нескольким упражнениям); принадлежность к какой-либо определённой группе (в этом случае используются специальные виды корреляционного анализа, например, коэффициент корреляции Юлла). Существуют различные варианты корреляционного анализа и выбор того или иного из них зависит от многих причин, в том числе от вида распределения результатов теста и критерия, от вида шкалы измерений, в которой выражены их значения. Наиболее часто информативность оценивается по коэффициенту корреляции Бравэ-Пирсона. Использование этого коэффициента предполагает, что выполняются следующие условия: 1) тест и критерий имеют распределение, не отличающееся существенно от нормального; 2) зависимость между результатом теста и критерием носит прямолинейный характер; 3) тест и критерий измерены в шкале отношений или интервалов. При оценке информативности теста этим методом предполагается, что результаты теста (Y) связаны с критерием (X) уравнением регрессии типа Y= КX + b (4). В таком случае наиболее вероятное значение может быть рассчитано по уравнению: (5), где: – среднее арифметическое значение результата теста; – среднее арифметическое значение критерия; – индивидуальный результат испытуемого – коэффициент регрессии, который показывает на сколько в среднем изменяется Y, если X изменяется на единицу. Мерой информативности (точности) индивидуальной оценки в этом случае может служить (6). Этот показатель называют стандартной ошибкой оценки. При полной информативности (rtk=1) ошибка оценки равна 0 (т. е. по результату теста Х возможно абсолютно точное предсказание критерия Y). Если информативность равна нулю (rtk =0), то возможность предсказания Y по X равна простому угадыванию, т. е. применение теста вообще не имеет практического смысла. Если результаты теста и критерия выражены в шкале порядка (рангов), то для оценки информативности теста можно использовать коэффициент ранговой корреляции Спирмена (7), где d – разность рангов сопряжённых пар значений теста и критерия; n – объем выборки. Ранговый коэффициент свободен от ограничений, предъявляемых к виду распределения и форме связи результатов теста и критерия, поэтому он может быть использован и в тех случаях, когда тест и критерий измерены в шкале интервалов или отношений, но не выполняется одно из условий применения линейного коэффициента корреляции Пирсона. Разумеется, что при этом результаты теста и критерия должны быть переведены в шкалу порядка, т. е. ранжированы. Если результаты теста и критерий выражены в шкале наименований таким образом, что их значения могут быть выражены для каждого испытуемого в виде двух альтернатив по тесту и двух альтернатив по критерию (например, А – занимается спортом, В – не занимается спортом; С – заболел гриппом, В – не заболел гриппом), то информативность может быть оценена по тетрахорическому коэффициенту корреляции Юлла: (8). |