Чернявская А. П
Скачать 0.89 Mb.
|
Тема 9 КОМПЬЮТЕРНОЕ ТЕСТИРОВАНИЕ Компьютерное тестирование – разновидность тестирования с использованием современных технических средств, имеющее ряд преимуществ по сравнению с традиционным бланочным тестированием (получение мгновенного результата, исключение предвзятости, нормирование трудности и объёма тестовых заданий, массовость, лёгкость обработки результатов, возможность тестирующих программ работать в режиме обучения). Функции компьютерного теста – обучение (в качестве дидактического обучающего средства); – контроль ЗУНов учащихся; – самообучение (тренажёр) и самоконтроль; – дистанционное обучение; – корректировка учебного процесса. Инструментальные тестовые оболочки Для создания тестов по предметной области разрабатываются специальные инструментальные программы-оболочки, позволяющие создавать компьютерные тесты путем формирования базы данных из набора тестовых заданий. Классы программ-оболочек 1. Универсальные (содержат тестовую оболочку как составную часть. Примеры: «Адонис» (Москва), «Linkway» (Microsoft), «Фея» (Томск), «Радуга» (Москва) и т. п. 2. Специализированные (предназначены лишь для формирования тестов. Примеры: «Аист» (Москва), «I_now» (Иркутск), «Тест» (Красноярск) и др. Для того чтобы разработать компьютерный вариант теста с помощью одной из названных выше программ, необходимо уяснить, какие формы тестовых заданий они допускают. Показатели качественного компьютерного теста – Восприимчивость к угадыванию тестируемым; – восприимчивость к невнимательности и ошибочным действиям тестируемого; – положительное влияние на тестируемого и педагога, который использует тест. Компьютерные формы представления тестовых заданий 1. Альтернативные вопросы (требуют ответа да – нет). Закрытая форма вопроса: номер правильного ответа. 2. Задание на соответствие: требует соотнести элементы двух множеств. 3. Задание на восстановление правильной последовательности: требует расположить элементы множества в определённом порядке. 4. Вопросы с шаблоном ответа (предполагают числовой или текстовой ввод правильного ответа). 5. Вопросы с выбором нескольких вариантов (ключевых слов, изображений, обозначений). 6. Конструирование ответа (шаблонный и бесшаблонный варианты): ответ формируется путем последовательного выбора его элементов из инструментария по типу меню. 7. Задание на конструирование изображений: с помощью графредактора, меню изображений (аналогично предыдущему примеру). 8. Задание на демонстрацию с движущимися объектами. Ответ в виде действия тестируемого (определенный набор клавиш). (Пример: клавиатурный тренажер на время.) Выбор формы представления задания определяется • особенностями инструментальных тестовых программ (тестовыми оболочками); • особенностями предметной области; • опытом и мастерством экспертов. Рекомендации по разработке вопросов к компьютерному тесту 1. При выборе того или иного метода ввода ответов следует исходить в первую очередь из специфики учебного материала. 2. Выборочный метод (вопросы с выбором ответов) целесообразно применять только в тех случаях, когда характер учебного материала не позволяет применять другие методы ввода ответов. 3. Наибольшую объективность проверки знаний обеспечивает результативный метод ввода ответов. Его желательно применять всегда, когда позволяет характер материала. 4. Методы с обозначенным порядком ввода ответов относительно сложны, и их целесообразно использовать только для проверки знаний подготовленных соответствующим образом проверяемых. 5. Вопросы лучше формулировать в форме заданий. 6. При постановке вопросов и формулировании вариантов ответов необходимо избегать двусмысленностей, двояких толкований, вопросов в отрицательной форме, формулировок, несущих в себе элемент подсказки, а также явно абсурдных. Готовность к компьютерному тестированию Под общей готовностью к компьютерному тестированию понимается интегративное личностное качество. Становление общей готовности осуществляется в процессе целенаправленной, специально организованной деятельности по подготовке. Содержание готовности к компьютерному тестированию: – мотивационный компонент, – когнитивный компонент, – процессуальный компонент. Мотивационный компонент готовности к компьютерному тестированию включает: – положительное отношение к компьютерному тестированию; – четкое и полное осознание значения компьютерного тестирования для системы образования и себя лично; – понимание роли компьютерного тестирования на современном этапе развития системы образования; – осознание необходимости и важности овладения основами теории и практики компьютерного тестирования; – интерес к компьютерному тестированию, его освоению. Когнитивный компонент представляет собой знание: – значений понятий: «компьютерное тестирование», «педагогический тест», «компьютерный тест», «тестовое задание»; – возможностей и ограничений компьютерного тестирования; – форм тестовых заданий; – этапов и форм компьютерного тестирования. Процессуальный компонент включает следующие умения: – адекватно воспринимать интерфейс компьютерного теста; – адекватно относиться к ситуации компьютерного тестирования; – отвечать на тестовые задания различных форм [15]. Технология проектирования компьютерных тестов предметной области Проектирование модульной модели знаний Метод нисходящего проектирования модели знаний состоит в следующем: вначале строится генеральное содержание предметной области с разбивкой на укрупненные модули (разделы). Затем проводится детализация модулей на элементарные подмодули, которые, в свою очередь, наполняются педагогическим содержанием . Каждый модуль предполагает входящую информацию, состоящую из набора необходимых понятий из других модулей и предметных областей, а на выходе создает совокупность новых понятий, знаний, описанных в данном модуле, рис. 1. Рисунок 1. Модуль может содержать подмодули. Элементарный подмодуль - неделимый элемент знания - может быть представлен в виде базы данных, базы знаний, информационной модели. Понятия и отношения между ними представляют семантический граф (рис. 2). Рисунок 2. Пример элемента модуля знаний по теме «Исследование графиков функций», рис. 3. Рисунок 3. Модульное представление знаний помогает: • организовывать четкую систему контроля с помощью компьютерного тестирования, поскольку допускает промежуточный контроль (тестирование) каждого модуля, итоговый контроль по всем модулям и их взаимосвязям; • осуществлять наполнение каждого модуля педагогическим содержанием; • выявлять и учитывать семантические связи модулей и их отношения с другими предметными областями [9]. Основные понятия компьютерного тестирования Тестирование - процесс оценки соответствия личностной модели знаний ученика экспертной модели знаний. Главная цель тестирования - обнаружение несоответствия этих моделей (а не измерение уровня знаний), оценка уровня их несоответствия. Тестирование проводится с помощью специальных тестов, состоящих из заданного набора тестовых заданий. Тестовое задание - это четкое и ясное задание по предметной области, требующее однозначного ответа или выполнения определенного алгоритма действий. Тест - набор взаимосвязанных тестовых заданий, позволяющих оценить соответствие знаний ученика экспертной модели знаний предметной области. Тестовое пространство - множество тестовых заданий по всем модулям экспертной модели знаний. Класс эквивалентности - множество тестовых заданий, таких, что выполнение учеником одного из них гарантирует выполнение других. Полный тест - подмножество тестового пространства, обеспечивающее объективную оценку соответствия между личностной моделью и экспертной моделью знаний. Эффективный тест - оптимальный по объему полный тест. Эффективный компьютерный тест оценивает уровень соответствия или несоответствия личностной модели знаний ученика и экспертной модели. Множество тестовых заданий (тестовое пространство), согласно принципу исчерпывающего тестирования, может быть бесконечным. Однако в каждом реальном случае существует конечное подмножество тестовых заданий, использование которых позволяет с большой вероятностной точностью оценить соответствие знаний ученика заданным критериям по экспертной модели знаний (полный тест). Из полного теста можно выделить эффективный тест (оптимальный по объему набор тестовых заданий, гарантирующий оценку личностной модели ученика заданным критериям). Выбор эффективного теста зависит от удачного разбиения тестового пространства на классы эквивалентности, пограничные условия, создание тестов на покрытие путей и логических связей между понятиями и модулями. В дальнейшем необходим тестовый эксперимент на группе учащихся, который позволит провести корректировку и доводку теста до вида эксплуатации. Способы составления тестовых заданий (по степени сложности) 1) формирование вопросов к понятиям, составляющим узлы семантического графа (рис. 2), разработка упражнений, требующих для их выполнения знания свойств выбранного понятия; 2) разработка тестовых заданий, определяющих отношения между понятиями; 3) конструирование заданий, выявляющих связь понятий между отдельными модулями. Этапы построения компьютерных тестов: 1) формализация экспертной целевой модели знаний; 2) проектирование тестового пространства; 3) формирование и наполнение тестовых заданий; 4) формирование полного компьютерного теста; 5) тестовый эксперимент; 6) выбор эффективного теста; 7) анализ, корректировка и доводка теста до вида эксплуатации [9]. Тема 10 СБОР И СТАТИСТИЧЕСКАЯ ОБРАБОТКА РЕЗУЛЬТАТОВ ТЕСТИРОВАНИЯ Статистическая обработка полученных данных тестирования (результатов испытуемых) позволяет определить количественные характеристики тестовых заданий и всего теста, что даёт возможность использовать тест как научно обоснованный, объективный инструмент педагогических измерений. Статистическая обработка результатов тестирования проводится с помощью программного обеспечения. 1. Матрица тестовых результатов Для удобства обработки тестовых данных результаты заносятся в матрицу тестовых результатов. Ниже приведён пример такой матрицы (один балл за правильный ответ, ноль баллов - за неправильный ответ или пропуск задания) [5]. Таблица 5 Матрица тестовых результатов № испытуемого i № задания j Индивид уальный балл X i 1 2 3 4 5 1 0 0 0 0 0 0 2 1 0 1 0 1 3 3 1 1 1 0 0 3 4 1 1 0 0 0 2 5 1 1 1 1 0 4 Число правильных ответов Y j 4 3 3 1 1 12 Для наглядности и удобства дальнейшего использования необходимо упорядочить матрицу тестовых результатов. Для этого строки таблицы располагают таким образом, чтобы индивидуальные баллы располагались в порядке возрастания. Затем столбцы матрицы располагают в порядке убывания. Таблица 6 Упорядоченная матрица тестовых результатов № испытуемого i № задания j Индивидуальный балл X i 1 2 3 4 5 1 0 0 0 0 0 0 4 1 1 0 0 0 2 2 1 0 1 0 1 3 3 1 1 1 0 0 3 5 1 1 1 1 0 4 Число правильных ответов Y j 4 3 3 1 1 12 2. Трудность тестовых заданий По результатам апробационного тестирования определяются характеристики тестовых заданий - трудность и дискриминативность. Трудность задания – соотношение количества испытуемых, справившихся с данным заданием, и общего количества испытуемых. Трудность задания вычисляется по формуле: , где p j - доля правильных ответов на j-ое задание; Y j - количество испытуемых, выполнивших j - ое задание верно, N - число испытуемых в группе, j - номер задания. Чем выше показатель трудности, тем задание легче, чем меньше показатель трудности задания, тем задание сложнее. Показатель трудности важен для определения характеристики тестового задания и помогает проранжировать задания, входящие в тест по степени сложности. Благодаря этому можно определить место задания в тесте. 3. Дискриминативность тестового задания Дискриминативность (дифференцирующая способность, различающая способность) задания - это способность задания дифференцировать испытуемых по уровню достижений, на сильных и слабых. Задание, которое одинаково выполняется и слабыми, и сильными, имеет низкую дискриминативность. Задание с высокой дискриминативностью выполняют только сильные учащиеся. Индекс дискриминативности определяется как разность долей правильных ответов сильной и слабой групп по формуле: (r дис ) j = (p 1 ) j - (p 0 ) j , где r - индекс дискриминативности, p 1 - доля правильных ответов в сильной подгруппе (27 % от всего количества), p 0 - доля правильных ответов в слабой группе (27 %). Значение индекса дискриминативности находится в интервале [- 1; 1]. Если индекс дискриминативности выше 0,3, это свидетельствует о том, что задание обладает хорошим дифференцирующим эффектом. Если r = 0, то это значит, что и слабые, и сильные испытуемые выполняют задание одинаково. Отрицательный показатель дискриминативности появляется в том случае, когда слабые учащиеся выполняют задание правильно, а сильные - неправильно, что свидетельствует о некачественном (невалидном) задании. Тестовые задания с показателями r дис ? 0 и r дис < 0 необходимо удалять. Высокая дискриминативность, которая свидетельствует о сильном дифференцирующем эффекте тестового задания, характерна для заданий со средним показателем трудности (0,5). 4. Дистракторный анализ Одно из важнейших требований, которое предъявляется к заданиям закрытой формы, - это правдоподобность дистракторов (неправильных ответов). Дистракторный анализ (оценка качества дистрактора) предполагает подсчет долей испытуемых, выбравших каждый дистрактор. В идеальном варианте каждый дистрактор должен выбираться в равной доле от всех неправильных ответов. Ниже представлены таблица 7, с качественными и таблица 8, с некачественными дистракторами. Таблица 7 Распределение ответов при удачных дистракторах Количество учащихся, выбравших ответ № задания 1 ответ 2 ответ (правильный) 3 ответ 4 ответ j 20% 40% 20% 20% Таблица 8 Распределение ответов при неудачных дистракторах Количество учащихся, выбравших ответ № задания 1 ответ 2 ответ (правильный) 3 ответ 4 ответ j 45% 40% 5% 10% В результате дистракторного анализа выявляются задания с неработающими дистракторами (вариантами ответов в закрытом задании, которые испытуемые выбирают мало или вообще не выбирают). Если в задании есть неработающие дистракторы, то вероятность угадывания правильного ответа повышается, снижается его трудность. Такие задания требуют переработки (замены неработающих дистракторов) или удаления их из теста [3]. 5. График (кривая частотного распределения) Для интерпретации распределения результатов выполнения теста необходимо построить гистограмму или график (кривую частотного распределения), в котором по оси Х откладывается количество выполненных заданий, по оси У – количество учащихся, верно выполнивших эти задания (в абсолютном значении или в процентах). Схема 2 6. Анализ кривой частотного распределения Асимметрия. Наличие асимметрии легко установить визуально, анализируя график или гистограмму. Схема 3 Виды асимметрии Положительная асимметрия распределения характерна для излишне легких тестов, эффект отрицательной асимметрии встречается в излишне трудных тестах. В хорошо сбалансированном по трудности тесте асимметрия нулевая. Эксцесс. С помощью эксцесса можно получить представление о том, является ли гистограмма островершинной или плоской. Островершинная кривая имеет явно выраженный положительный эксцесс, средневершинная имеет нулевой эксцесс, характерный для нормальной кривой, плосковершинная имеет эксцесс меньше нуля. Схема 4 Виды эксцессов Понятие «эксцесс» применимо лишь к унимодальным распределениям. Для нормального распределения характерна кривая с нулевой симметрией, нулевым эксцессом, одной вершиной [5]. 7. Меры центральной тенденции Меры центральной тенденции предназначены для выявления «центрального положения», вокруг которого в основном группируется множество значений такого распределения данных. Мода (Мо) – это такое значение, которое встречается наиболее часто среди результатов выполнения теста. В том случае, если два значения встречаются одинаково часто, соответствующее распределение называется бимодальным. Один из наиболее важных выводов в случае бимодального распределения – корректировка трудности заданий теста. В том случае, когда все значения баллов учеников встречаются одинаково часто, принято считать, что моды у распределения нет. Среднее выборочное (М или ), или среднее арифметическое определяется суммированием всех значений совокупности и последующим делением на их число. Для совокупности индивидуальных баллов х 1 , х 2 , …, х N группы испытуемых числом N среднее значение будет равно: Медиана (Ме) – среднее (центральное) значение упорядоченного числового ряда. Например, для ряда 3, 4, 5, 6, 7, 9, 11 медианой будет 6, так как это значение имеет равное число значений справа и слева от себя в числовом ряду. Медиана чётного ряда находится как полусумма двух центральных значений. Интерпретация мер центральной тенденции. Меры центральной тенденции помогают при оценке качества теста в том случае, когда она проводится на репрезентативной выборке учеников. Хороший нормативно- ориентированный тест обеспечивает нормальное распределение индивидуальных баллов учеников, когда среднее значение баллов совпадает с модой и находится в центре распределения, около 68% концентрируются вокруг среднего по нормальному закону, а остальные сходят на нет к краям распределения: Схема 5 График нормального распределения Нормальное распределение унимодально и симметрично, мода, медиана и среднее значение равны. На малых выборках любые показатели теряют свою стабильность. Смещение среднего значения влево или вправо говорит о слишком трудной или слишком легкой подборке заданий теста [12]. 8. Меры изменчивости Размах – измеряет на шкале расстояние, в пределах которого изменяются все значения показателя в распределении. Из индивидуального балла самого сильного ученика вычитают индивидуальный балл самого слабого. Дисперсия Подсчет дисперсии основан на вычислении отклонений индивидуального балла каждого ученика от среднего арифметического в распределении: или x i – М (i=1,2,…,N). Знак отклонения указывает место результата ученика по отношению к среднему арифметическому по тесту. Для ученика с индивидуальным баллом выше среднего значение разности будет положительно, а для тех, у кого результат ниже среднего арифметического, отклонение отрицательно. Мера изменчивости, называемая дисперсией обозначается S 2 x (или ? 2 x ) и вычисляется по формуле , где x 1 – индивидуальный балл первого ученика, x 2 – индивидуальный балл второго ученика и т. п., – среднее выборочное (среднее арифметическое) для данной группы, ? – сумма квадратов разностей, вычисленных для каждого ученика, N – количество учащихся в данной группе. Низкая дисперсия индивидуальных баллов говорит о слабой дифференциации испытуемых по уровню подготовленности в группе, что противоречит основной цели нормативно-ориентированных тестов. 9. Определение достоверности различий между сравниваемыми группами Существуют множество статистических критериев и способов для определения того, является ли различие в уровне знаний, умений, качеств двух групп случайных или статистически достоверным. Один из таких способов – расчёт t-критерия Стьюдента (для независимых выборок) по формуле , где и – среднее выборочное (среднее арифметическое) для первой и второй группы, ? 2 1 и ? 2 2 – дисперсия для данной группы, n 1 и n 2 – количество учащихся в данной группе. Полученный результат сравнивается с табличным результатом для данной степени свободы ?, которое определяется по формуле: ? = n 1 +n 2 -2, где n 1 – количество учащихся в первой группе, n 2 – количество учащихся во второй группе. Например, для двух групп численностью каждая 10 человек ? = 10 = 10 – 2 = 18, t табл = 2,10. В том случае, если результат превосходит табличное значение, можно говорить о достоверном статистическом различии в уровне знаний, формирований умений или личностных качеств между первой и второй группой. Таблица 9 Критические значения t-критерия Стьюдента при уровне значимости 0,05 ? t-критерий 4 2,78 5 2,58 6 2,45 7 2,37 8 2,31 9 2,26 10 2,23 11 2,20 12 2,18 13 2,16 14 2,14 15 2,13 16 2,12 17 2,11 18 2,10 19 2,09 20 2,09 25 2,06 30 2,04 40 2,02 50 2,01 60 2,00 80 1,99 100 1,98 |