Актуальные вопросы языкового тестирования. Издательство санктпетербургского университета
Скачать 6.52 Mb.
|
Рейтерская таблица для оценки компетенций Компетенция Умения Баллы Развитие темы дискурсивная компетенция) Умение описывать ситуацию и действующих лиц. Полнота: → умение развить тему (логичность, четкость, последовательность и беглость изложения темы высказывания 1 2 3 4 5 → умение построить высказывание повествовательного или описательного характера 0 1 2 3 4 Точность умение достоверно передать необходимую информацию 1 2 3 4 5 → умение выделить наиболее важную информацию 1 2 3 4 5 127 Общеевропейские компетенции владения иностранным языком С. 117–123. 107 1.3. Современные положения теории тестирования Беглость устной речи функциональная компетенция) Умение сделать предположение умение строить развернутые высказывания и понятно излагать свои мысли в соответствии с требованиями ситуации 1 2 3 4 Умение обосновать предположение умение строить развернутые высказывания и понятно излагать свои мысли в соответствии с требованиями ситуации 1 2 3 4 Целостность и связность дискурсивная компетенция) Композиционная структура и форма умение создать развернутое логичное высказывание с четкой структурой 1 2 3 4 5 → умение использовать средства связи при построении логичных и понятных высказываний 0 1 2 3 4 Лингвистическая компетенция Языковые средства словарный запас 0 1 2 3 4 5 → грамматическая правильность речи 1 2 3 4 5 → владение фонологией (четкость произношения 1 2 3 4 Социолингвистическая компетенция знание основных правили стереотипов общения в ситуациях, умение выбрать регистр общения в соответствии с ситуацией 1 2 3 4 По результатам анализа оценок ответов кандидатов можно сказать следующее. Преподаватели со стажем работы менее 5 лет в целом оценили ответ кандидата на 2 (7 из 10 человек) и 3, преподаватели со стажем более 10 лет — на 3 и 4. Наибольший разброс оценок представлен в группе преподавателей со стажем от 5 до 10 лет. Ответу даны оценки, и 3, и 2, и даже 0. Итак, данные эксперимента выявляют очень серьезный разброс в оценках ответа студента (от 0 до 4!). Причины такого неадекватного оценивания еще предстоит анализировать. Нам же в данном случае требовалось определить среднюю оценку, которую дали этому кандидату все участвовавшие в экспериментальном оце- нивании преподаватели, и сравнить ее с тестовой оценкой (под тестовой оценкой мы имеем ввиду оценку, данную профессиональными тесторами кандидату в результате оценивания по шкале, разработанной специально для оценки речевого продукта при помощи теста. Глава 1. Общие вопросы тестологии Мы получили результат, подтверждающий объективность тестовой оценки, — тестовая оценка совпала со средней (3,3)! Конечно, данный результат — весомое подтверждение важности тестирования вообще. Кроме оценки ответа кандидата преподавателям предлагалось назвать степень значимости параметров (от 1 дона которые они ориентировались при оценке ответа студента. Этими параметрами в группе более опытных преподавателей были названы (по убыванию умение логично, последовательно и четко изложить информацию создать текст описательного характера достоверно передать информацию умение создать развернутое высказывание с четкой структурой грамматическая правильность речи, словарный запас знание основных правил общения в ситуациях из 17 человек. Семь преподавателей также на первое место поставили составляющие дискурсивной компетенции, а на второе — умения социолингвистической компетенции. Молодые преподаватели (5 из 10) на первое место поставили составляющие языковой компетенции, на второе место — социолингвистической. Три преподавателя особенно значимыми посчитали составляющие функциональной компетенции, а на второе место поставили языковую. Два преподавателя выделили грамматическую компетенцию и словарный запас как самые главные при постановке оценки, на третье место поставив все остальные. Примерно такая же картина наблюдается и при анализе результатов оценивания ответа второго кандидата. Все это позволяет сделать выводы, что при оценивании продукта речи большинство преподавателей-практиков, не имеющих опыта работы в проведении тестирования, выделяют дискурсивную компетенцию как основную, прежде всего влияющую на общую оценку ответа студента. Эксперимент выявил также необходимость обращать больше внимания на социолингвистическую компетенцию как при контроле, таки при обучении речевой деятельности. Несомненно, наши наблюдения показали, насколько необходим и важен анализ как самих оценок (тестовых и нетестовых), таки методики и механизма оценивания речевого продукта 109 1.4. Статистический анализ тестовых данных 1.4. СТАТИСТИЧЕСКИЙ АНАЛИЗ ТЕСТОВЫХ ДАННЫХ. КЛАССИЧЕСКИЕ МЕТОДИКИ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ РЕЗУЛЬТАТОВ ТЕСТИРОВАНИЯ С начала XX в. в научную парадигму мышления прочно начинают входить статистические измерения. Попадают они ив лингвистику в результате чего создается особая отрасль знаний — математическая лингвистика, ив психологию (начиная с работ Спирмана), и через нее — в тестологию. Статистические методы Спирмана 128 сыграли большую роль для дальнейшего развития метода тестов, как в Америке, таки за ее пределами. Спирман обратил особое внимание те- стологов на статистический характер тестового материала. Он считал, что важным фактором для теста является степень корреляции данных по одному тесту сданными других тестов или с каким-либо другим объективным критерием. В нашей стране особое внимание статистическому анализу тестов придавал НА. Бернштейн 129 . Всесторонне и полно классическая теория тестов впервые изложена в фундаментальном труде Гарольда Гулликсена 130 . С тех пор теория несколько видоизменялась, в частности совершенствовался математический аппарат. Классическая теория тестов в современном изложении приведена у Л. Крокера и Дж. Альгины 131 . Из отечественных исследователей впервые описание этой теории дал В. С. Аванесов 132 . В работе М. Б. Че- лышковой 133 приведены сведения о статистическом обосновании качества теста. Итак, в языковом тестировании принято использовать следующие статистические понятия. Во-первых, это первичные описательные статистики, те. отражение водном числовом значении множества результатов измерения. К ним в первую очередь относятся меры центральной тенденции — мода, медиана, средняя 128 Spearman C. “General Intelligence”… 129 Бернштейн НА. Указ. соч. С. 100. 130 Gulliksen H. Theory of mental tests. New York: Willey, 1950. 131 Crocker L., Algina J. Introduction to Classical and Modern TestTheory. New York: Harcourt Brace Jovanovich, 1986. 132 Аванесов В. С. Основы научной организации педагогического контроля 133 Челышкова М. Б. Теория и практика конструирования Глава 1. Общие вопросы тестологии Среднее арифметическое (the Mean) есть сумма всех баллов, полученных экзаменуемыми, поделенная на количество экзаменуемых, см. формулу (1): , x M N = ∑ (где М — среднее арифметическое, х — баллы — общее количество экзаменуемых. Среднее значение является наиболее очевидной и часто используемой мерой центральной тенденции. Но его использование ограничивается тем, что на величину среднего влияет каждое отдельное значение. Если какое-нибудь значение в группе увеличится нас, то среднее увеличится на c / N. Таким образом, среднее значение весьма чувствительно к выбросам — экстремально малым или большим значениям переменной. Мода (the Moda) — наиболее часто встречающееся количество баллов, полученное испытуемыми. Когда два соседних значения встречаются одинаково часто и чаще, чем любое другое значение, мода есть среднее этих двух значений. Распределение может иметь и не одну моду. Когда все значения встречаются одинаково часто, принято считать, что такое распределение не имеет моды. Бимодальное распределение имеет на графике распределения две вершины, даже если частоты для двух вершин нестрого равны. В последнем случае выделяют большую и меньшую моду. Во всей группе может быть и несколько локальных вершин распределения частот. Тогда выделяют наибольшую моду и локальные моды. Моду полезно определять в том случае, когда тест слишком простили тяжел, либо когда тест проходят люди с различным уровнем знаний. Наличие двух и более мод в выборке может показать ее неоднородность, те. наличие двух или более подгрупп испытуемых, выделяющихся по какому-либо признаку, например по уровню подготовки, возрасту, психологическому типу личности. Медиана (the Median) — средний член упорядоченного ряда. Для определения медианы необходимо выстроить все баллы в порядке 134 См Hughes A. Testing for Language Teachers. Cambridge, 1989. P. 157; Alder- son J. C., Clapham С. M., Wall D. Language Test Construction and Evaluation. 111 1.4. Статистический анализ тестовых данных убывания (или возрастания) и затем найти средний член ряда. Если 10 испытуемых получили оценки 2, 2, 3, 3, 3, 3, 4, 4, 4 и 5, то медиана будет равна 3. При четном количестве измерений два средних члена упорядоченного ряда складываются и делятся пополам. Вычисление медианы необходимо для полноты и адекватности оценки теста. В случае, если только 1 чел. из группы численностью чел, заработавших по 8–10 баллов, получает 1 балл, то среднее арифметическое резко снизится из-за этого случайного балла. Для предотвращения неверного отражения действительной картины и рассчитывается медиана. Однако ни один из вышеперечисленных параметров не показывает широты разброса баллов экзаменуемых. Для ее определения вычисляется размах колебаний значения признака. Размах (the Range) — разность между наибольшими наименьшим значениями. Размах является наиболее простой и очевидной мерой изменчивости, указывающей на диапазон изменчивости значе- ний. Размах — это очень неустойчивая мера изменчивости, на которую влияют любые возможные выбросы. Более устойчивой мерой является дисперсия. Меры центральной тенденции используют при оценке качества теста при проведении апробации теста на репрезентативной выборке тестируемых. Известно, что хороший нормативно-ориентированный тест обеспечивает нормальное распределение индивидуальных баллов репрезентативной выборки участников, когда среднее значение баллов находится в центре распределения, а остальные значения концентрируются вокруг среднего по нормальному закону, те. примерно 70 % значений в центре, а остальные сходят на нет к краям распределения, как на рис. 5 136 Cambridge: Cambridge University Press, 1995. 135 Общая теория статистики учебник / под ред. А. М. Гольдберга, В. С. Коз- лова. М Финансы и статистика, 1985. 136 Наследов АД. Математические методы психологического исследования Анализ и интерпретация данных учебное пособие. е изд. СПб.: Речь, 2008; Ким В. С. Тестирование учебных достижений монография. Уссурийск Изд-во Уссурийск. гос. пед. ин-та, 2007. Глава 1. Общие вопросы тестологии Рис. 5. Стандартное нормальное распределение. Если тест обеспечивает близкое к нормальному распределение баллов, то это означает, что на его основе можно определить устойчивое среднее значение баллов, которое принимается в качестве одной из репрезентативных норм выполнения теста. При калибровке результатов теста за начальную точку принимают среднее значение, а затем двигаются в меньшую и большую стороны с шагом, равным двум дисперсиям. Подсчет дисперсии основан на вычислении отклонений каждого значения показателя от среднего арифметического в распределении. Расчет дисперсии производится по формуле (2): ( ) 2 , 1 i x x x M D N − = − ∑ (где x i — балл студента по тесту — количество экзаменуемых, М x — среднее арифметическое баллов. Дисперсия(variance) — мера изменчивости для метрических данных, пропорциональная сумме квадратов отклонений измеренных значений от их арифметического среднего. Чем больше изменчивость в данных, тем больше отклонения значений от среднего, тем больше величина дисперсии. Размах достаточно точно оценивается дисперсией, но эта величина имеет один недостаток она не отражает наличие пропусков в распределении баллов. Показателем же, принимающим 113 1.4. Статистический анализ тестовых данных во внимание каждый отдельный балл, будет среднеквадратичное отклонение. Это очень важный статистический параметр, он показывает разность между баллом, полученным студентом и средним арифметическим всех баллов. Среднеквадратичное отклонение — квадратный корень суммы квадратов разниц между баллами и средним арифметическим, поделенной на количество экзаменуемых минус один, см. формулу (3): ( ) ( ) 2 , 1 x M SD N − = − (где SD — среднеквадратичное отклонение, х — балл студента по тесту — количество экзаменуемых, М — среднее арифметическое баллов. Для вычисления среднеквадратичного отклонения вручную необходимо составить таблицу. В столбце под х необходимо выписать баллы в порядке убывания. Под (х – М) выписываются разницы между количеством баллов каждого того студента и средним арифметическим. М должно быть точным, не округленным. Сумма всех значений (х – М) должна равняться 0. 3. Затем все значения (x − М) возводятся в квадрат и записываются в третьем столбце под (х – М 4. Все значениях М складываются, и получается ∑ (х – М 5. Затем извлекается корень квадратный и вычисляется На основании указанных величин высчитываются параметры результатов языкового теста и делаются выводы относительно выборки испытуемых. Качество теста в целом оценивается двумя главными параметрами пригодности (validity) и надежности (Валидность в самом общем виде может быть определена как важнейшая характеристика теста, которая показывает, что измеряет тест и насколько хорошо он это делает. Другими словами, эта характеристика теста показывает большую или меньшую степень пригодности теста для его использования с определенной целью. Многие авторы давали определение этому понятию, но, пожалуй, наиболее кратко ив тоже время емко определял его Кюретон: Пригодность теста — это оценка состояния между простым подсчетом Глава 1. Общие вопросы тестологии баллов затеет и идеальным, принятым за эталон. Иными словами, это характеристика теста, которая показывает, что измеряет тест и насколько хорошо он это делает. Если тест на проверку грамматических конструкций измеряет знания или навыки употребления грамматических конструкций и ничего более, то он является пригодным для измерения грамматики. Этот тест не является пригодным для измерения знания словили понимания прочитанного. Если целью теста является проверить у студентов навык правильного произношения отдельных звуков, то этот тест не должен включать никакого другого материала (ни заданий, имеющих целью проверку грамматических навыков, ни заданий, учитывающих степень владения словарным запасом). Вопросы пригодности теста — вопросы о том, какие и насколько правильные, обоснованные выводы могут быть сделаны на основе тестовых оценок. Множество вопросов, относящихся к этому параметру, может быть сведено к двум какие выводы следует сделать о том, что измерялось тестом какие выводы могут быть сделаны об ином поведении, отличающемся от наблюдаемого при тестировании. Различают несколько видов валидности. Сопоставительная валидность (concurrent validity) определяется тем, насколько хорошо измеряет данный тест то, что хочет те- столог, по сравнению с другим тестом или оценкой. Результаты данного теста сопоставляются (определяется корреляция) с результатами другого теста или оценками преподавателей, которые получены доили сразу после данного теста. Различают критериально-ориентиро- ванную и прогностическую сопоставительную валидность. Критери- ально-ориентированная валидность опирается на какой-либо внешний критерий, с которым сравниваются результаты теста. Например, если известно, что для того, чтобы адекватно измерить успешность прохождения курса студентами, надо получить от них 100 ответов на 100 заданий теста, а нам по какой-либо причине необходимо сократить этот список до 25, то сначала мы проведем тест на 100 вопросов, потом на 25 вопросов и сравним результаты с помощью коэффициента корреляции (см. ниже. Если результаты будут отличаться в допустимых пределах, мы будем считать, что наш тест имеет высокую 137 Cureton ЕЕ. Статистический анализ тестовых данных валидность. Другим типом сопоставительной валидности является прогностическая валидность. Прогностическая валидность (predictive validity) показывает, насколько хорошо результаты данного теста предсказывают, например, успешность будущей учебы. Результаты данного теста сопоставляются (определяется корреляция) с результатами другого теста, который проводится через полгода или год учебы. Ввиду того что на прогностическую валидность влияет так много факторов помимо собственно усвоения материала и лингвистических достижений (как то общий интеллектуальный уровень, знание теории, мотивация, степень удовлетворенности учебой и др, 20 %-ный уровень предсказательной способности теста является уже высоком. Содержательная валидность (content validity) показывает, представлены ли в данном тесте все важнейшие элементы содержания программы, учебника и т. п. Проводятся логический анализ и сопоставление объектов тестирования с элементами программы, учебника и т. п, релевантны ли вопросы теста. Для определения содержательной валидности теста необходимо проанализировать и прописать спецификацию тех знаний, умений и навыков, которые тест контролирует. Конструктная (концептуальная) валидность отражает, насколько объекты тестирования и характер заданий учитывают психолингвистическую модель усвоения рассматриваемого языкового материала или данную модель. Проводится соответствующий анализ языкового материала теста. Этот тип валидности, собственно, и отражает общее определение валидности — насколько тест контролирует тот процесс, который он призван контролировать. Внешняя валидность показывает, насколько привлекательными, прагматичными считаются задания теста тестируемыми, преподавателями и администраторами. Проводится соответствующий анализ языкового материала теста. Итак, пригодность (валидность) языкового теста зависит от лингвистического содержания теста, от его цели и от ситуации или метода, использованных для тестирования содержания. Первые два типа валидности являются статистическими. При измерении внутритестового параметра статистической валидности удается получить некоторые числовые величины, которые служат количественными характеристиками данного параметра языкового теста. Эти величины получают на основании корреляционного анализа. Коэффициент корреляции — статистический показатель степени и на Глава 1. Общие вопросы тестологии правленности взаимосвязи между двумя случайными величинами. В частном случае это может быть связь между результатами первого и повторного тестирования. Отрицательная корреляция указывает на обратную зависимость — рост значения одного показателя сопровождается падением значения другого. Коэффициент валидности вычисляется по формуле (4) как коэффициент корреляции между двумя пробами теста, возведенный в квадрат (где ρ — коэффициент корреляции — разница между рангами баллов каждого испытуемого — количество экзаменуемых. Ранги присваиваются испытуемым в двух рядах — в критериаль- ном тесте ив экспериментальном. Разница между ними и есть Например, коэффициент корреляции 0,5, возведенный в квадрат, дает нам 25 %-ную валидность как характеристику теста в целом. Надежность является следующим важным параметром проверки эффективности языкового теста. В широком плане под надежностью понимается такая сторона предметов, явлений, процессов и систем, которая характеризует степень эффективности и устойчивости их становления, функционирования и развития» 138 Что касается психолого-педагогических измерений, то здесь под надежностью методисты подразумевают состоятельность результата оценки какого-нибудь периодически проверяемого (тестируемого) навыка или аспекта либо состоятельность сравнительных результатов тестирования какого-либо навыка в различных тестах. По нашему мнению, наиболее кратко ив тоже самое время точно определил его С. Стивенсон: Надежностью мы называем постоянство или устойчивость оценок, получаемых при повторяющихся наблюдениях» 139 Таким образом, можно сделать вывод, что применительно к тестам надежность определяется постоянством, с которым тест выполняет свою функцию измерительного инструмента. Надежность вычисляется сопоставлением цифровых данных, отражающих результаты ряда 138 Standards for Educational and Psychological Tests. Washington, 1974. P. 28. 139 Стивенсон С. Экспериментальная психология. МС. Статистический анализ тестовых данных тестов, выполненных одними и теми же студентами. То есть, если группа сдает один и тот же тест 2 раза с небольшим промежутком времени, в течение которого занятия языком не ведутся, результаты должны очень мало отличаться друг от друга. В противном случае тест ненадежен. По мнению И. А. Рапопорта, тест может быть надежным, небу- дучи валидным (пригодным, однако он не может быть валидным пригодным, не являясь в тоже время надежным. Иными словами, надежность теста — необходимое условие его валидности (пригодности. И это понятно, поскольку тест, результаты которого постоянно меняются, вообще ничего не тестирует. Показателем надежности служит величина коэффициента надежности, который показывает, насколько устойчивы показатели теста при повторном применении того же теста или его параллельного варианта. Следует оговориться, что ни один тест не является абсолютно надежным инструментом. Следовательно, всякий раз, когда говорят об устойчивости показателей тестов, имеют ввиду относительную устойчивость. На устойчивость тестовых показателей могут влиять такие факторы, как недостаточное количество тестовых заданий (чем полнее охватывают вопросы теста измеряемые функции, тем надежнее тест, разновидность заданий (чем разнообразнее задания и чем больше их дифференцирующая сила, тем надежнее тест (применительно к стандартным тестам, ограниченное время, отводимое на выполнение теста, непонимание испытуемым инструкции или вопросов теста. В отличие от коэффициента пригодности коэффициент надежности теста вычисляется без помощи внешнего критерия. По самому своему смыслу этот коэффициент показывает, насколько устойчивы показатели испытуемого при повторных его испытаниях одними тем же тестом или его параллельными вариантами. Существует несколько способов определения надежности. Самый простой — повторное применение того же теста. Однако этот способ имеет ограничения на его результаты может оказывать влияние элемент знакомства, памяти и упражняемости, а также фактор изменчивости самих обучающихся в тех случаях, когда между двумя применениями теста проходит довольно много времени. С целью устранения этих нежелательных факторов, изменяющих действительное значение коэффициента надежности, при повторном испытании применяют 140 Рапопорт И. А. Теория и практика языковых тестов. Таллин, 1980. С. 39. Глава 1. Общие вопросы тестологии параллельный вариант того же теста. При этом во внимание принимается не только равная трудность заданий, но и относительно одинаковые коэффициенты корреляции каждого задания с тестом в целом. Этот метод можно считать самым лучшим, хотя он очень громоздок и здесь также имеет место фактор узнаваемости. Другой способ определения надежности теста состоит в применении одной формы теста с последующим определением коэффициента корреляции между двумя половинами одного итого же теста (четными и нечетными заданиями). Если тест построен так, что задания следуют по возрастающей трудности, применяют различные способы чередования заданий в каждой половинке. Далее вычисляется коэффициент корреляции, который является показателем надежности половины теста. Коэффициент корреляции определяется по специальным математическим формулам (см. выше). Для вычисления коэффициента половинной надежности (КПН) теста необходимо определить коэффициент корреляции между двумя половинами теста — четной и нечетной. Для этого следует) разделить тест пополам — нечетные (№ 1, 2, 3, 5 …) в одну группу, четные (№ 2, 4, 6, 8 …) — в другую) занести результаты в таблицы) сосчитать баллы в обеих группах) присвоить каждому экзаменуемому два ранга один в нечетном тесте, другой — в четном) вычислить коэффициент корреляции между двумя половинами теста — четной и нечетной (по той же формуле (4) (см. выше, что и сопоставительная валидость) Данный коэффициент говорит о том, какова будет надежность теста в том случае, если он будет в два раза короче, чем данный. Для того чтобы определить надежность всего теста, нужно использовать формулу (5) Спирмана—Брауна: ÊÏ Í 2 , 1 hh hh r r = + (где КПН — коэффициент половинной надежности — корреляция между двумя половинами теста. Еще два параметра, применяемые в тестологии, характеризуют каждый вопрос теста по отдельности facility value (F. V.) — коэффи- 119 1.4. Статистический анализ тестовых данных циент трудности и descrimination index — дискриминационный коэффициент. Они выявляют применимость теста к данной конкретной группе. Коэффициент трудности вопроса (F. V.) показывает, насколько простили сложен каждый вопрос теста. То есть вычисление коэффициента трудности позволяет судить о том, насколько адекватно задание теста в данной языковой аудитории. Другими словами, F. V. отдельного задания теста — процент экзаменуемых, ответивших правильно на это задание. Если в группе 100 экзаменуемых и 50 из них ответили верно на вопрос данного задания, то F. V. задания будет вычислено по формуле (6): F.V 50 100% где F. V. — коэффициент трудности. Идеальный коэффициент трудности равен 50 %, те. когда половина испытуемых в данной языковой группе дает правильный ответ. Кроме определения, насколько сложно то или иное задание теста, необходимо знать, как оно дискриминирует тестируемых, те. позволяет разделить их на сильных и слабых. С этой целью выявляют дискриминантный коэффициент (discrimination index). Этот внутри- тестовый параметр показывает, насколько задание теста отличает хорошо подготовленного испытуемого от плохо подготовленного. Для вычисления дискриминантного коэффициента сначала необходимо определить ранги экзаменуемых. Если расположить баллы, полученные экзаменуемыми, в порядке убывания и присвоить первому экзаменуемому № 1, второму № 2 и т. д, то эти номера и будут считаться рангами. Если два или более экзаменуемых набрали одинаковое количество баллов, то ранг вычисляется как среднее между этими двумя или более рангами. Так, например, если баллы были 8, 6, 6, 5, то ранги будут соответственно 1,0, 2,5, 2,5, Существует множество способов вычисления дискриминантно- го коэффициента. Наиболее простым способом является такой, который требует ранжирования (ranking) экзаменуемых в соответствии с количеством очков, полученных ими в результате выполнения теста с последующим сравнением количества правильных ответов в лучшей трети тестируемых с количеством правильных ответов в худшей трети Глава 1. Общие вопросы тестологии Например, если лучшая группа состоит из 10 экзаменуемых и 7 из них верно ответили на вопрос (0,7), в то время как только 2 чел. изв слабой группе (0,2) ответили верно, то D i = 0,7 – 0,2 = + 0,5. Считается, что задание, у которого D i = + 0,5, хорошо дискриминирует тестируемых. Задания, дискриминантный коэффициент которых равен или стремится к нулю, не позволяют выявить различий в уровне знаний сильных и слабых экзаменуемых. Для вычисления дискриминантного коэффициента используется формула (7): , i RT RB D NT − = (где RT — количество правильных ответов в верхней группе — количество правильных ответов в нижней группе — количество испытуемых в верхней группе. Такой анализ заданий не подходит для субъективных тестов, таких как написание резюме, эссе, а также интервью, но предварительное апробирование заданий все же необходимо. Иногда представляется целесообразным производить ранжирование экзаменуемых не только по результатам теста на понимание иноязычной речи на слух, но и по результатам всего теста (включая говорение, чтение и письмо). Более точное представление о коэффициенте дискриминантно- сти можно получить следующим образом. Любой ответ испытуемого на конкретное задание можно оценить по двухбалльной шкале — верно (1 балл, неверно (0 баллов. Сумма баллов по всем пунктам представляет собой первичную сырую) оценку. Мера соответствия успешности выполнения одной задачи всему тесту является показателем дискриминантности заданий теста для данной выборки испытуемых и называется коэффициентом дискриминации (индексом дискриминации, вычисляется по формуле (где r p — коэффициент корреляции — среднее арифметическое всех индивидуальных оценок по тесту 141 Ким В. С. Указ. соч 121 1.4. Статистический анализ тестовых данных — среднее арифметическое оценок по тесту у испытуемых, правильно выполнивших задание (в случае опросника личностного — соответствие с ключом — среднеквадратичное отклонение индивидуальных оценок по тесту для выборки — число испытуемых, правильно решивших задачу (или тех, чей ответ на данный пункт теста соответствует ключу — общее число испытуемых. Коэффициент дискриминации (дифференцирующая способность) тестового задания — количественная характеристика способности тестового задания дифференцировать испытуемых по уровню их подготовленности. Изменяется от –1 до +1. Высокий положительный коэффициент дискриминации свидетельствует об эффективности деления испытуемых. Высокое отрицательное значение свидетельствует о непригодности данной задачи для теста, о ее несоответствии суммарному результату. Коэффициент дискриминации является, по сути, показателем критериальной валидности отдельного тестового задания, поскольку определяется по отношению к внешнему критерию суммарному результату. Считается, что коэффициент дискриминации не должен быть меньше 0,25 142 . В соответствии со значением коэффициента дискримации можно повести нормирование тестовых заданий в банке тестовых заданий. Более точное представление о дискриминативности задания можно получить, посчитав коэффициент точечно-бисериальной корреляции (см. ниже формула (Описанные выше два параметра (коэффициент трудности вопроса и дискриминантный коэффициент) показывают, насколько применим тест к данной группе испытуемых. Таковы основные внутритестовые параметры, которые вычисляются с помощью классического аппарата статистических методик. Учитывая, что тестовая методика контроля для получения максимально объективных данных требует правильного и точного применения, считаем необходимым подчеркнуть, что внутритестовые параметры языкового теста, приводимые ниже, в полном объеме могут и должны быть реализованы только в стандартизованных тестах или экспериментальных тестах-срезах, подводящих итог длительному периоду обучения и претендующих на более или менее предельную 142 Crocker F. C. Statistics for the teacher. Windsor: NEFR-Nelson, 1985. P. 77. Глава 1. Общие вопросы тестологии точность измерений. В тестах же, рассчитанных на повседневное применение, покрывающих незначительный по объему материал, не представляется возможным полностью реализовать требования, выполнение которых предполагает постоянное применение математического аппарата. Внутритестовые параметры следует считать относительными, а не абсолютными, каковыми их пытаются представить некоторые отечественные и зарубежные авторы. В учебном процессе тестовая методика не единственная форма контроля. Ее функция, по нашему мнению, состоит в дополнении к традиционным формам контроля, в частичной их замене там, где это необходимо, чтобы сэкономить время и интенсифицировать процесс опроса на объективной основе. Поэтому возможные неточности показаний тестов могут быть быстро обнаружены преподавателем в процессе его повседневной работы со студентами. Современные тестологи разрабатывают новые методики статистического анализа результатов тестирования. Примером может служить метод Георга Раша (Rasch Analysis) (см. раздел 1.4.2.), наиболее популярный в настоящее время у тестологов группы Современный аппарат базового статистического анализа тестов включает такие понятия, как дисперсионный анализ и его виды, теория зависимости задания и ответа (IRT), коэффициент альфа Крон- баха, коэффициенты Кудера–Ричардсона КР и КР. Вот некоторые из них. Альфа Кронбаха оценивает внутреннюю надежность и согласованность теста. По величине варьируется от 0 до 1. Часто используется для тестов с оценочными шкалами в противоположность тестам с дихотомическими заданиями, хотя может использоваться и для тех, и для других. Стандартизированный коэффициент альфа Кронбаха α st вычисляется по формуле (9) 144 : ( ) , 1 1 st N r N r ⋅ α = + − ⋅ (9) 143 Continuity and Innovation: Revising the Cambridge Proficiency in English Ex- amination 1913–2002 / ed. by C. Weir, M. Milanovic. Cambridge, 2003 (Studies in Language Testing. [T.] 15) 144 Клайн П. Справочное руководство по конструированию тестов Введение в психометрическое проектирование. Киев ПАН Лтд, 1994.. 123 1.4. Статистический анализ тестовых данных где α st — стандартизированный коэффициентр альфа Кронбаха, N — количество исследуемых компонентов определяет средний коэффициент корреляции между компонентами. Также коэффициент можно вычислить по формуле (10): ãäå 2 2 1 2 1 , , 1 i N N X Y i i i X N X Y N = = σ − σ α = = − σ ∑ ∑ (где α — коэффициентр альфа Кронбаха, X — все исследованные множества — отдельный компонент — среднеквадратичное отклонение всех исследованных множеств — среднеквадратичное отклонение отдельного компонента. Несмотря на то, что альфа Кронбаха может принимать значения от 1 до ∞, только положительные значения поддаются интерпретации. Альфа Кронбаха сравнивает разброс каждого элемента с общим разбросом всей шкалы. Если разброс результатов теста меньше, чем разброс результатов для каждого отдельного вопроса, следовательно, каждый отдельный вопрос направленна исследование одного итого же признака, свойства или явления. Они вырабатывают значение, которое можно считать истинным. Если такое значение выработать нельзя, те. получается случайный разброс при ответе на вопросы, то тест ненадежен и коэффициент альфа Кронбаха будет равен 0. Если же все вопросы измеряют один и тот же признак, то тест надежен и коэффициент альфа Кронбаха в этом случае будет равен 1. Считается, что профессионально разработанные тесты должны иметь внутреннюю согласованность на уровне не менее 0,90 Для дихотомических заданий формула альфа Кронбаха была модифицирована Кудером и Ричардсоном в две другие формулы — KR- 20 и KR-21. KR-21 требует меньшего количества информации и более проста для расчета, нов целом уступает поточности. Последняя имеет вид формулы (11): 145 Дружинин В. Н. Экспериментальная психология учебное пособие. М Инфра-М, 1997; Наследов АД. Математические методы психологического исследования … е изд 146 3десь и далее определения даются попер. Гордеева — неопубликованный Глава 1. Общие вопросы тестологии 2 , 1 i i X p q K K α где K — количество тестовых заданий — пропорция правильных ответов по отношению к числу вопросов в тесте — пропорция неправильных ответов по отношению к числу вопросов. Бисериальная корреляция (biserial correlation) — индекс дискри- минативности для дихотомических заданий, обозначаемый r bis : соотношение между критерием (обычно общий результат теста) и способностью, лежащей в основе правильного / неправильного ответа на задание. Величина по крайней мерена выше, чем для точеч- но-бисериальной корреляции (r pb ). Преимущество состоит в том, что он является довольно устойчивым для выборок, различающихся уровнем способностей испытуемых. Расчет коэффициента точечно-бисериальной корреляции производится по формуле (12): ( ) 1 0 1 0 , 1 pb X m m n n r n n − = ⋅ σ − (где m 1 и m 0 — средние значения Х со значением 1 или 0 по Y, σ X — стандартное отклонение всех значений по Х, n 0 — количество значений Х с 1 или 0 по Y, n — общее количество пар значений. Расчет точечно-бисериальной корреляции является одним из видов проверки валидности 147 Дисперсионный анализ оперирует понятиями дисперсии, или вариативности, и совместной вариативности, или ковариации (covariance) — ANCOVA (Analysis of Covarience), те. совместного изменения двух или более переменных. Например, длина предложения и лексическая трудность являются особенностями текста для чтения, которые будут иметь тенденцию к соотношению, те. совместно варьироваться. Совместное изменение должно приниматься во внимание при выведении одной переменной из других, например при предсказании трудности текста для чтения исходя из длины предложений и лексической трудности 147 Челышкова М. Б. Теория и практика конструирования 125 1.4. Статистический анализ тестовых данных Метод ANOVA был разработан Р. Фишером для анализа результатов экспериментальных исследований. Метод сводится к изучению влияния независимой переменной (одной или нескольких) на зависимую переменную. Например, сравнивается эффективность двух учебных программ. Для этого из нескольких сотен школ отобрано пять. В них два параллельных класса обучались по разным программам — типичная ситуация педагогического эксперимента. При этом независимой переменной являются программы (два фактора, зависимая переменная — показатели в пяти школах. При этом изучается не только гипотеза об эффективности учебных программно и различия их эффективности в разных школах 148 Все эти методики непросты для понимания лингвистов и гуманитариев, однако дело упрощается тем, что по многим из них существуют компьютерные программы подсчета. Пример статистической обработки данных по тестами и развитие тестовой методики в сторону сопоставленя неоднородных тестов (поиск кросстестового коэффициента) см. враз- деле 4.6. 1.4.2. СОВРЕМЕННАЯ ТЕОРИЯ ТЕСТОВЫХ ЗАДАНИЙ И МЕТОД АНАЛИЗА Г. РАША Современная теория статистического анализа тестовых данных (IRT, или теория тестовых заданий) — это группа математических моделей, характеризующих соотношение выполнения теста индивидуумом с уровнем его способностей. Эти модели основаны на фундаментальной теории, состоящей в том, что ожидаемый ответ индивидуума на определенный вопросили задание теста является функцией как уровня трудности задания, таки уровня способностей индивидуума. Логит (logit) — в зависимости задание — ответ единица измерения, полученная из натурального логарифма отношения шанса на успех к шансу неудачи, те (отношение шансов. Различие в ло- гитах между способностью человека и трудностью задания — это log odds лица для успешного выполнения задания. Модель Раша, подробно рассматриваемая ниже, была расширена до так называемой многоаспектной модели (many-facet Rasch model). 148 Наследов АД. Математические методы психологического исследования Анализ и интерпретация данных учебное пособие. е изд, испр. и доп. СПб.: Речь, 2006. С. 186–187. Глава 1. Общие вопросы тестологии Расширение модели Раша позволяет моделировать вероятные ответы на основе добавочной комбинации аспектов. Например, выполнение письменного задания может быть смоделировано с целью отражения трудности задания плюс строгости рейтера. Многообразие тестов вообще и тестов, используемых при обучении иностранным языкам, неизбежно ставит вопрос об их эффективности, те. адекватности теста уровню обучаемого, эффективности его использования и т. п. При решении подобных вопросов желательно получить объективные оценки, те. оценки, независящие от множества случайных факторов, возникающих при тестировании, как то предъявления несложного теста группе сильных обучающихся (и наоборот, распределения учащихся по способностям внутри группы и т. п. Для решения подобной проблемы значительную популярность в последние полвека приобрел метод, названный в честь датского математика Георга Раша (Georg Rasch, 1901–1980), — так называемая однопараметрическая модель Раша 149 . В своем основном виде модель применяется для анализа дихотомических (те. имеющих только два возможных значения) переменных, что как нельзя лучше подходит к тестам, где мы легко можем обозначить правильный ответ на вопрос как 1, а неправильный — как 0. После проведения теста легко составить матрицу, в строчках которой были бы испытуемые, в столбцах вопросы теста, а на их пресечении — баллы (1 или 0), полученные испытуемым за ответ на тот или иной вопрос. Легко заметить, что подобная матрица не зависит ни от числа вопросов в тесте, ни от количества студентов, что делает первоначальное применение модели практически универсальными в высшей степени нетрудоемким. Суммировав баллы в каждой строке (те. подсчитав число правильных ответов, мы получаем первичный балл испытуемого (аналогично можно получить первичный балл задания, суммируя в столбцах число правильных ответов на задание всеми испытуемыми чем больше правильных ответов на задание, тем легче оно оказывается для данной группы испытуемых. Отсюда, разделив полученный балл на общее число заданий, легко перейти к вероятности правильных (p), и, соответственно, вероятности неправильных (q) ответов 149 Rasch Analysis: сайт. URL: www.rasch-analysis.com (дата обращения 10.10.2016); Rasch G. Op. cit.; Wright B. D., Masters G. N. Rating Scale Analysis: Rasch Measurement. Chicago: Mesa Press, 1982. 127 1.4. Статистический анализ тестовых данных Можно ввести понятия уровня подготовленности (ability) S студента и трудности заданий t, см. формулу (13): 1 , , p p S t q p − = = (где S — уровень подготовленности студента — вероятность правильных ответов — вероятность неправильных ответов — уровень трудности заданий. Модель Раша зависит только от отношения S к t поэтому носит название однопараметрической. Можно обозначить l nt = Предлагается считать задания сочень сложными, сот до 2,59 — трудными, от –1,49 до 1,49 — заданиями среднего уровня сложности, от –2,59 до –1,5 — легкими, сочень легкими 150 Задания, оценивающиеся нулями (предельно трудные) и единицами предельно легкие, считаются «нетекстовыми», те не дифференцирующими испытуемых по уровню подготовленности. Вводя l n S = θ, l n t =δ, получаем общий вид модели в виде формулы, или вероятность того, что участник с уровнем подготовки S правильно выполнит задание трудности t: ( ) ( ) ( ) exp , , 1 exp P θ − δ δ θ = + θ − δ (где P — вероятность правильного ответа — уровень обучающегося — сложность вопроса. Модель верна для любого уровня трудности заданий и для любой пары участников тестирования. Отсюда происходит и другое название модели — функция успеха. Единицей измерения модели является логит. Как ив случае со многими другими статистическими параметрами, логит является условной единицей, смысл численного значения которой полностью выявляется только при сравнении результатов анализа нескольких тестов. При одном логите вероятность успеха равна 0,5, те. сложность задания соответствует уровню обучающегося. Вероятность правильного ответа 150 Аванесов В. С. Основы теории педагогических заданий // Педагогические измерения. 2006. № 2. Глава 1. Общие вопросы тестологии обучающегося на вопрос, простой для его уровня подготовки, больше, в противном случае — меньше 0,5. Задание считается более трудным, если вероятность правильного ответа на него меньше, чем на другое, независимо от уровня выполняющего его. Одновременно более подготовленный студент имеет бóльшую вероятность правильного ответа на все задания. Для обработки полученной матрицы имеются разнообразные коммерческие пакеты программ, тем не менее она достаточно легко вычисляется при последовательном применении стандартизованных те. имеющихся вменю программы) формул в таблице Microsoft Excel пример — табл. 6). Это позволяет быстро обработать результаты любого тестирования практически независимо от количества испытуемых даже пользователями начального уровня. Таблица Пример вычисления тестовых результатов |