Чернявская А. П
Скачать 0.89 Mb.
|
Тема 7 ПСИХОЛОГИЧЕСКИЕ ТЕСТЫ: ТЕРМИНЫ И ОПРЕДЕЛЕНИЯ. ПСИХОЛОГО-ПЕДАГОГИЧЕСКИЕ АСПЕКТЫ ТЕСТИРОВАНИЯ 1. Понятийный аппарат тестологии 1.1. Понятие теста. 1.2. Надёжность и валидность теста. 1.3. Психологические аспекты тестирования. 1.1. Отечественная педагогическая тестология - очень молодая наука. В настоящий момент в различных изданиях по теории и практике тестирования можно встретить различное толкование и определение одних и тех же понятий, для обозначения одного явления может использоваться несколько синонимических терминов, основная группа терминов имеет иноязычное происхождение. Термин «тест» (от англ. test - испытание, исследование) имеет в русском языке несколько значений (см. словарь иностранных слов). Но нас интересует только значение, которое используется в тестологии. Существуют различные точки зрения при определении понятия «тест». 1) Тест - это инструмент, состоящий из квалиметрически выверенной системы тестовых заданий, стандартизированной процедуры проведения и заранее спроектированной технологии и анализа результатов для измерения качеств и свойств личности, учебных достижений, изменение которых возможно в процессе систематического обучения [8]. 2) В.С. Аванесов предлагает различение теста как метода и теста как инструмента. Тест как метод предполагает технологию измерения, которая включает в себя разработку системы тестовых заданий с заданными качественными и количественными характеристиками для объективного и надежного оценивания учебных достижений испытуемых, стандартизированную процедуру проведения тестирования, методы статистической обработки, анализа и интерпретации полученных результатов. Тест как инструмент измерения определяется как система заданий (в большинстве случаев возрастающей трудности) специфической формы, позволяющая качественно оценить структуру и эффективно измерить уровень знаний, умений и навыков учащихся [1]. Слово «тест» в первом значении имеет научный аспект и используется учеными- тестологами, которые знают обо всех этапах разработки и применения теста, а также о теоретическом обосновании выбранных способов проверки и обработки полученных результатов в соответствии с классической теорией тестов или современной теорией тестов. Второе значение чаще возникает в практической области: в сознании тех, кто его использует или испытуемых, которые выполняют тест. Чаще используется именно второе значение. Но при этом надо помнить, что тест как измерительный инструмент является частью научного метода измерения (тестирования, теста) и соответственно должен отвечать ряду требований по его разработке, использованию и оцениванию результатов, которые определяются научными подходами. 1.2. Отличие тестов от других форм контроля. 1. Содержание теста подвергается четкому планированию. На стадии разработки теста происходит отбор содержания, которое будет подвергаться проверке, планируется форма заданий, их количество и расположение. 2. Форма заданий. В тестах форма заданий стандартизирована - по форме предъявления и по форме записи ответов. 3. Наличие статистических характеристик у тестовых заданий. Заранее известно, какова трудность предлагаемого задания, будет ли оно одинаково выполняться слабыми и сильными испытуемыми или нет (дифференцирующая способность) и др. 4. Наличие специальных шкал, которые соотнесены со стандартизированными нормами для подведения результатов тестирования. 5. Наличие оценок точности измерения (ошибки измерения). С помощью статистических методов мы можем оценить ошибку измерения, а по результатам оценки принять или не принять результаты тестирования. Отличительные особенности теста определяют преимущества теста перед традиционными формами контроля учебных достижений: объективность, надежность, точность, экономичность измерений. 1.3. Тест, предъявляемый испытуемому, состоит из инструкции и тестовых заданий. В инструкции даются указания, из скольких частей состоит тест, какое количество времени дается на его выполнение, какой стратегии должен придерживаться испытуемый (например, если не знаете ответ на задание, приступайте к выполнению следующего), что надо сделать, чтобы записать правильный ответ. Если тест включает различные формы заданий, то при смене форм, перед каждым субтестом дается дополнительная инструкция по выполнению данной формы задания. Далее, после инструкции располагаются пронумерованные тестовые задания. Задания в тесте (субтесте), в соответствии с теорией тестирования, должны располагаться по нарастанию трудности, то есть в начало теста включаются легкие задания, потом более сложные. Тест всегда сопровождается подробной инструкцией для организаторов и наблюдателей тестирования. Данная инструкция должна обеспечить равные условия для всех, кто выполняет тест. Поэтому в этой инструкции четко оговариваются условия тестирования (требования, предъявляемые к помещению, где будет проходить тестирование, количество испытуемых в группе, время тестирования), форма заполнения тестовых бланков (данные испытуемого: имя, возраст, пол, школа и др.; как заносить правильные ответы и т. д.). 2. Надёжность и валидность теста Основными показателями качества теста являются надежность и валидность теста. А так как тест является инструментом педагогического измерения, то эти показатели имеют численное значение и определяются с помощью различных методов как в классической теории тестов, так и в современной теории тестов. Надежность - это характеристика теста, отражающая точность педагогического измерения, а также устойчивость результатов тестирования к воздействию посторонних (случайных) факторов. Для оценки надежности нормативно-ориентированного теста используются две группы методов. 1. Двукратное тестирование: – ретестовый метод; – метод параллельных форм. 2. Однократное тестирование (метод расщепления теста). Оценка надежности чаще всего строится на подсчете корреляции двух наборов результатов выполнения одного и того же теста или двух его параллельных форм. Чем выше корреляция, тем надежнее тест. Ретестовый метод. Данный метод оценки надежности предполагает двукратное проведение одного и того же теста в одной группе испытуемых. Повторное тестирование проводится примерно через 2-3 недели, чтобы учащиеся не слишком сильно забыли проверяемый материал и недалеко продвинулись в изучении нового, то есть уровень их учебных достижений остался примерно прежним. Ретестовый метод основан на подсчете корреляции индивидуальных баллов испытуемых по результатам выполнения первого и второго тестирования. Коэффициент надежности (коэффициент корреляции Пирсона): - Хорошим коэффициент надежности теста считается, когда показатель колеблется в пределах 0,8 < К < 1. Данный метод оценки надежности не очень удобен в педагогических измерениях. Временной фактор играет большую роль: временной промежуток не может быть большим - изменится уровень учебных достижений учащихся, но и не должен быть слишком коротким - испытуемые могут помнить задания теста и ответы на них. И в том и в другом случае результаты измерения нельзя использовать для определения надежности теста. Метод параллельных форм. Метод параллельных форм предполагает двукратное тестирование одной и той же группы испытуемых тестами, которые идентичны по содержанию, структуре, включают задания тождественные по трудности, дифференцирующей способности и др., то есть параллельными формами теста. Коэффициент надежности: x i – индивидуальный балл i-ого студента при ответе на тест X y i – индивидуальный балл i-ого студента при ответе на тест Y N – число студентов Главная трудность применения этого метода в том, что прежде чем использовать параллельную форму теста, разработчику надо создать новый тест, тождественный первому, и доказать идентичность, а это очень трудоемкая процедура. Поэтому этот метод, с практической точки зрения, малоэффективен. Однократное тестирование (метод расщепления теста). Этот метод удобен в практическом применении, так как ограничивается однократным тестированием. Метод расщепления теста основан на допущении параллельности двух половин теста и предполагает деление результатов тестирования на две части: данные по нечетным заданиям теста (Х) и по четным (У). Корреляция двух половин тестов возрастает по мере роста однородности (гомогенности) теста. Поэтому метод расщепления теста называют методом оценки внутренней согласованности и используют для определения гомогенности теста. Коэффициент надежности вычисляется по формуле: , где результат первого тестирования – это результаты по нечетным заданиям, а второго – по четным заданиям. Так как подсчет надежности (К) ведется по расщепленному тесту, который в два раза короче, то оценка надежности исходного корректируется по формуле Спирмена- Брауна В практике педагогических измерений часто используется способ оценки надежности с применением формулы Кьюдера-Ричардсона. Она может применяться только в том случае, когда выполнение задания оценивается дихотомически (1 балл - правильно; 0 баллов - неправильно). Рассмотренные выше методы определения надежности подходят только для оценки нормативно-ориентированных тестов. По мнению многих тестологов, эти методы нежелательно использовать для вычисления надежности критериально-ориентированного теста, так как дисперсия тестовых баллов в критериально-ориентированном тесте небольшая (здесь не нужна большая дифференциация баллов испытуемых), а соответственно и корреляционная оценка надежности будет низкой. Поэтому предлагается другая методика оценки надежности. Надежность теста, ориентированного на область содержания, может быть измерена как постоянство результатов тестирования для испытуемых, которым предлагается два набора тестовых заданий, которые соответствуют одному и тому же содержанию. Практически это выглядит следующим образом. Группа испытуемых выполняет два идентичных теста или два теста объединяются в один, при этом вопросы перемежаются: (1 вариант – 1 вопрос, 2 вариант – 1 вопрос, 1 вариант – 2 вопрос, 2 вариант – 2 вопрос и т. д.). По итогам тестирования испытуемые делятся на две группы: получившие зачет и не получившие зачет по двум тестам (по частям расщепленного теста). Далее проводится сравнение результатов тестирования по двум вариантам или, во втором случае, по вариантам расщепленного теста. По результатам теста составляется таблица сопряжения. Численный показатель коэффициента надежности критериально-ориентированного теста вычисляется с помощью ?-коэффициента корреляции. Вычисляется также ?-коэффициент как показатель критериально-ориентированного теста по формуле: ? = (P - Pc)/(1 - Pc), где P = A + D - доля испытуемых, получивших «зачет» и «незачет» и в первой, и во второй форме теста; Pc - вероятность случайного принятия согласованного решения. Pc вычисляется по формуле: Pc = (c + d)(d + b) + (a + b)(c + a) Каппа-коэффициент может принимать значения от -1 до 1. Если создается тест для аттестации по итогам определенной ступени обучения, то рекомендуется вычислять ? - и ?-коэффициенты. Их величины должны быть больше 0,8 (0,85) и приблизительно равны между собой, что свидетельствует о хорошей надежности теста. Валидность (от англ. Validity - значимость, обоснованность, пригодность) - это характеристика способности теста служить поставленной цели измерения, то есть способность теста измерять то, для чего он предназначен. Выделяют несколько видов валидности, которые отражают различные аспекты этого критерия качества теста (А. Анастази; А.Н. Майоров): содержательную, критериальную и конструктную (концептуальную) валидность [2]. 1. Содержательная валидность (content validity) - соответствие теста как измерительного инструмента той области содержания, знания и умения, которую проверяют данным тестом. В зависимости от выбранного подхода при создании теста предъявляются различные требования к содержательной валидности. Для критериально- ориентированных тестов одно из требований содержательной валидности - полнота отображения, а в некоторых случаях – детализация проверяемой области содержания. При нормативно-ориентированном подходе тест можно охарактеризовать как валидный по содержанию, если он будет хорошо дифференцировать испытуемых и отражать самые важные характеристики этого теста. Валидность по содержанию закладывается в тест уже на этапе работы со спецификацией теста и отбора его содержания. Для педагогических тестов содержательная валидность очень важна и оценивается экспертным путем. 2. Критериальная валидность - это характеристика теста, отражающая обоснованность, значимость его результатов, по сравнению с некоторой внешней переменной (степень соответствия между результатами тестирования и внешним критерием). Критериальную валидность определяют как корреляцию результатов тестирования с некоторым внешним критерием. В качестве внешнего критерия могут браться результаты испытуемых по другому тесту, отметки, выставленные по методике традиционного оценивания. Критериальная валидность, в зависимости от выбранного критерия, может быть текущей (внешний критерий - текущие оценки) или прогностической (критерий - некоторый будущий результат). Для оценки критериальной валидности необходимо составить таблицу с результатами тестирования и список тех же студентов с экспертной оценкой преподавателя (-ей). В качестве критерия берем оценки преподавателей при традиционной проверке знаний без использования тестов. Формула: s x 2 – дисперсия индивидуальных баллов, N – число студентов. Критериальная валидность измеряется от –1 до 1, валидность более 0,3 считается удовлетворительной. 3. Конструктная (концептуальная) валидность. Об этом виде валидности говорится в том случае, если представление об измеряемом феномене существует только в проекте и требует доказательства. Разработчик теста только предполагает о том, как будет проявляться объект измерения. Чаще всего это относится к психологическим тестам. Для педагогических тестов понятие конструктной валидности применимо в процессе разработки теста, когда его качественные и количественные характеристики еще не имеют определенных характеристик. Для выявления валидности на этапе создания теста используются методы корреляционного и факторного анализа. 3. Психологические аспекты тестирования К человеку, проводящему тестирование, предъявляются определенные требования. 1. Отсутствие влияния экспериментатора (педагога) на результаты тестирования. Повлиять на результаты можно различными способами. Часто педагоги даже не подозревают об этом влиянии. Например, повлиять может интонация, с которой читаются вопросы или варианты ответов (когда неосознанно выделяются голосом или произносятся в ином темпе правильные варианты), невербальные проявления (кивки головой, жесты и др.). Для того чтобы избежать влияния экспериментатора необходимо соблюдать следующие требования: - тексты заданий или вариантов ответов не читаются вслух, а даются испытуемым в печатном виде, - шрифт всех заданий и вариантов ответов должен быть одинаков, - экспериментатор не отвечает на вопросы, не объясняет содержания заданий, не комментирует варианты ответов и задания. 2. Соблюдение одинаковых для всех условий тестирования. Все тестируемые должны проходить тестирование в одинаковых условиях. Для этого необходимо четко соблюдать инструкцию для испытуемых и инструкцию для экспериментатора. Соответственно, в этих инструкциях должны быть четко указаны все необходимые для тестирования условия (сроки проведения, требования к помещению и оборудованию, требования к уровню квалификации экспериментатора и др.). 3. Объяснение результатов тестирования испытуемым. Испытуемым необходимо предоставить информацию о полученных результатах, при этом рассказать о результатах необходимо, с одной стороны, объективно, с другой стороны, таким образом, чтобы испытуемый полностью понял всю информацию. 4. Соблюдение этических требований. Существует несколько профессиональных этических принципов, обязательных для представителей всех профессий, работающих с людьми. Например, международный этический стандарт психологов включает в себя принципы ответственности (за свою работу и принимаемые решения), компетентности, этической и юридической правомочности, квалифицированной пропаганды профессии психолога, конфиденциальности (сохранения профессиональной тайны), благополучия клиента, информирования клиента о целях обследования, морально-позитивного эффекта исследования, гражданственности и патриотизма. Тема 8 ВИДЫ ТЕСТОВ И ФОРМЫ ТЕСТОВЫХ ЗАДАНИЙ 1. Классификация педагогических тестов По целям использования выделяют (классификация предложена Гронлундом, ее же придерживаются М.Б. Челышкова, А.Н. Майоров): 1) входное тестирование (обеспечивает проверку знаний и умений в начале обучения); 2) формирующее и диагностическое тестирование (предполагает контроль формирования новых знаний и умений в процессе обучения, обеспечивает текущий контроль); 3) тематическое, итоговое, рубежное тестирование обеспечивает определение итоговых достижений [16]. Два подхода к разработке тестов 1) нормативно-ориентированный, 2) критериально-ориентированный. Соответственно различают два вида тестов: – нормативно-ориентированный (позволяет сравнивать уровень учебных достижений испытуемых друг с другом); – критериально-ориентированный (служит для определения уровня освоения учащимся содержания какого-либо предмета, дисциплины, раздела, темы) [5]. Таблица 4 Сравнительный анализ нормативно-ориентированных и критериально-ориентированных тестов НОПТ КОПТ Цель тестиров ания Сравнение уровня достижений испытуемых друг с другом Оценка уровня достижений в соответствии со степенью освоения знаний и умений определенной области содержания Критери й оценки Стандартизированные нормы Достаточная доля (%) проверяемого материала Область Задания на проверку Для более полного охвата содержа ния наиболее значимых элементов содержания содержания составляется детальная спецификация теста (план), отражающая все элементы содержания Сфера примене ния Конкурсные отборы (вступительные экзамены в вузы) Оценка итогового уровня обученности (начальное, среднее, высшее образование); оценка эффективности программы обучения Характе ристика тестовых заданий Задания должны быть среднего уровня трудности (от 0,3 до 0,7) и высокой дифференцирующей способности (больше 0,3) Задания должны соответствовать спецификации и элементам проверяемого содержания. Задания могут быть различного уровня трудности. Схема 2 Классификация видов тестов По средствам предъявления педагогические тесты делятся на: 1) бланочные (испытуемые отмечают или вписывают правильные ответы на бланке); 2) компьютерные (задания высвечиваются на мониторе компьютера). По степени однородности задач: 1) гомогенные (контроль знаний и умений по одному предмету, дисциплине); 2) гетерогенные (измерение уровня подготовленности по нескольким учебным предметам). а) полидисциплинарный(проверка знаний по нескольким дисциплинам) б) междисциплинарный (проверка знаний и умений в смежных дисциплинах (математика- физика, химия-биология, история-культурология)). Типы тестов I. Открытые (испытуемый сам записывает правильный ответ) Формы тестовых заданий открытого типа а) задания на дополнение (краткий ответ: формула, числовое выражение, слово и др.). б) задания со свободно конструируемыми ответами (ответ в свободной, развернутой форме: решение задачи с пояснениями, небольшое сочинение. Должна оговариваться полнота ответа для получения максимального балла). II. Закрытые (предполагают выбор правильного ответа из предложенных вариантов. Оптимальное количество альтернативных ответов - 4-5. Неправильные, но правдоподобные ответы, то есть похожие на правильные, называются дистракторами (от англ. distract - отвлекать). Формы тестовых заданий закрытого типа а) задания альтернативных ответов (задания с двумя ответами: да - нет, правильно - неправильно). Имеют очень высокий процент угадывания (50%), их одиночное использование в тесте считается неэффективным; б) задания с выбором нескольких правильных ответов; в) задания на установление соответствия; г) задания на установление правильной последовательности. Требования к заданиям на дополнение. 1. Нацеленность каждого задания лишь на одно дополнение, место дополнения обозначается прочерком. 2. Постановка дополнения в конце задания. 3. Равная длина всех прочерков в тексте. 4. Указание единиц измерения после прочерка (при необходимости). 5. Исключение повторов и двойного отрицания в тексте задания. Требования к заданиям с выбором ответов. 1. Краткая и четкая формулировка задания и вариантов ответа, исключение двусмысленности. 2. Наличие основной, полной информации в задании к тесту, избегание повторяющихся слов и выражений в вариантах ответа. 3. Соблюдение правил грамматики и сочетаемости при формулировании текста задания и ответов. 4. Исключение двойного отрицания. 5. Наличие только одного правильного ответа. 6. Избегание слов: «все», «ни одного», «никогда», «всегда» и выражений «все перечисленные», «ни один из перечисленных» (могут способствовать угадыванию правильного ответа). 7. Одинаковая привлекательность дистракторов, их связь с содержанием тестируемого раздела. 8. Формулирование задания и вариантов ответа исключающих наличие ключа для других заданий. 9. Исключение заданий, выполнение которых основывается на субъективном мнении испытуемого. Требования к заданиям на установление соответствий. 1. Выбор элементов двух множеств по одному основанию. 2. Размещение в тексте задания названий каждого столбца (обобщающее определение множества). 3. Наличие нескольких правдоподобных дистракторов в правом списке. 4. Указание в инструкции к заданию о наличии дистракторов и о количестве возможных использований элементов второго списка. 5. Число элементов одного списка не должно превышать 10. 6. Расположение всех заданий на одной странице, недопущение переноса отдельных элементов. В изложении темы использованы материалы курса лекций Ю.А. Воронина и др. [3]. |