История создания тестов


Сегодня тесты активно используются в образовательном процессе. История возникновения и использования тестирования как диагностического метода уходит вглубь веков. Есть сведения, что уже с III тысячелетия до н.э. в странах Древнего Востока использовались системы конкурсных испытаний интеллектуального характера, предназначенные для отбора персонала на правительственные должности. Однако всё вышеперечисленное нельзя назвать тестами в современном понимании этого термина.

Широкое развитие применение тестов в образовательном процессе получило за рубежом. В школьной практике тесты начали применяться Ф. Галтоном в 1892 году. В 1894 году впервые в школах появились тесты успешности (для проверки знаний, умений и навыков учащихся по отдельным учебным дисциплинам – первыми стали применяться тесты для проверки правописания). Американец В.А. Макколл разделил тесты на педагогические (Educational Test) и психологические (Intelligence Test).

А. Макколл обосновал цель использования педагогических тестов – объединение в группы учащихся, усваивающих равный по объёму материал с одинаковой скоростью. Однако основоположником педагогических измерений считается американский психолог Э. Торндайк (1874 – 1949). Ему приписывают разработку первого педагогического теста. В 1904 году вышла его книга «Введение в теорию психологии и социальных измерений».

Признанный авторитет в области педагогического тестирования Э. Торндайк выделяет три этапа внедрения тестирования в практику американской школы: 

1. Период поисков (1900 – 1915).  На этом этапе происходило осознание и первоначальное внедрение тестов памяти, внимания, восприятия и других, предложенных французским психологом А. Бинэ. Разрабатываются и проверяются тесты интеллекта, позволяющие определять коэффициент умственного развития.

2. Последующие 15 лет – годы «шума»  в развитии школьного тестирования, приведшие к окончательному осмыслению его роли и места, возможностей и ограничений. Были разработаны и внедрены тесты О. Стоуна по арифметике, Б. Зекингема для проверки правописания, Э. Торндайка по диагностике большинства школьных предметов. Т. Келли разработал способ измерения интересов и наклонностей обучаемых, а Ч. Спирмен предложил общие основы использования корреляционного анализа для стандартизации тестов.

3. С 1931 г. начинается современный этап развития школьного тестирования.  Поиски специалистов направляются на повышение объективности тестов, создание непрерывной (сквозной) системы школьной тестовой диагностики, подчиненной единой идее и общим принципах, созданию новых, более совершенных средств предъявления и обработки тестов, накопления и использования диагностической информации.

Педагогика, развившаяся в России в начале века, безоговорочно приняла тестовую основу объективного школьного контроля. Первые научные труды по теории тестов появилась в начале ХХ века, на стыке психологии, социологии, педагогики и других так называемых поведенческих наук.

Педагогическая тестология  – это прикладная методическая теория научной педагогики. Ключевыми понятиями тестологии, как одной из методических теорий, являются измерение, тест, содержание и форма заданий, надежность и валидность результатов измерения. Кроме того, в тестологии используются такие понятия статистической науки, как выборочная и генеральная совокупность, средние показатели, вариация, корреляция, регрессия и др.

Распространение психолого – педагогической диагностики в России  связано с возникновением в 20-е годы XX века новой науки – педологии, которую Л.С. Выготский определял как науку о целостном развитии ребенка. Проблемой разработки тестов вплотную занимались видные российские ученые: М.С. Бернштейн, П.П. Блонский, А.П. Болтунов, С.Г. Геллерштейн, Г.И. Залкинд, И.Н. Шпильрейн, А.М. Шуберт и др. Однако, начиная с 30-х годов наука о тестах стала называться буржуазной, все её цели считались «реакционными». После известного постановления ЦК ВКП(б) «О педологических извращениях в системе Наркомпроса» (1936) были ликвидированы не только интеллектуальные, но и безобидные тесты успеваемости. Попытки возродить их в 70-х годах ни к чему не привели. В этой области наша наука и практика значительно отстали от зарубежной.

Однако в последние годы мы наблюдаем активное внедрение тестов в образовательный процесс. И, несмотря на недостатки, которые имеют место при использовании такой формы контроля и оценки знаний, тестирование занимает довольно прочную позицию.

Слово «тест»  вызывает у учителей самые различные представления. Одни полагают, что это вопросы или задачи с одним готовым ответом, который надо угадать. Другие считают тест формой игры или забавы. Третьи пытаются истолковать это как перевод с английского слова «test» (проба, испытание, проверка). В общем, по этому вопросу нет единства мнений. Тем более что в учебниках педагогики об этом не пишут. А если где и пишут, то нередко написанное трудно понять. Не случайно размах мнений о тестах оказывается слишком широким: от суждений обыденного сознания до попыток научного истолкования сущности тестов.

В науке проводят существенные различия между простым переводом слова и смыслом понятия.

Чаще всего мы встречаемся с упрощенным восприятием понятия «тест», как простой выбор одного ответа из нескольких предложенных к вопросу.

Многочисленные примеры таких, казалось бы, «тестов» легко найти в газетно-журнальной периодике, в различных конкурсах и в многочисленных книжных публикациях под названием «Тесты». Но и это часто оказываются не тесты, а нечто внешне похожее на них. Обычно это сборники вопросов и задач, рассчитанных на выбор одного правильного ответа из числа предложенных. Они только по внешней видимости похожи на настоящий тест. Различия в понимании сущности тестов порождают различия в отношении к тестам.

В наши дни существует много видов тестов, поэтому дать универсальное определение для всех этих видов вряд ли можно.

Тесты можно классифицировать по различным признакам: 

  • по целям – информационные, диагностические, обучающие, мотивационные, аттестационные;
  • по процедуре создания – стандартизованные, не стандартизованные;
  • по способу формирования заданий – детерминированные, стохастические, динамические;
  • по технологии проведения – бумажные, в том числе бумажные с использованием оптического распознавания; натурные, с использованием специальной аппаратуры; компьютерные;
  • по форме заданий – закрытого типа, открытого типа, установление соответствия, упорядочивание последовательности;
  • по наличию обратной связи – традиционные и адаптивные.
Традиционный тест содержит список вопросов и различные варианты ответов.

Каждый вопрос оценивается в определенное количество баллов. Результат традиционного теста зависит от количества вопросов, на которые был дан правильный ответ. По мнению, В. С. Аванесова, традиционный тест – система заданий, предъявляемая в порядке увеличения сложности в одно и тоже время, с одинаковой системой оценивания для всех тестируемых.

Адаптивный тест  – особый вид теста, в котором каждое последующее задание выбирается в зависимости от ответов на предыдущие задания. Последовательность заданий и их количество в таком виде теста определяется динамически.

Самыми значимыми преимуществами компьютерного адаптивного тестирования перед традиционным являются: 

  • возможность адаптации под уровень знаний тестируемого (не придется отвечать на слишком сложные или слишком простые вопросы);
  • экономия времени и сил за счет сокращения количества заданий (длина теста может быть уменьшена до 60%) без потери уровня достоверности.

Уровень знаний выявляется при анализе ответов каждого ученика на все задания теста. Чем больше правильных ответов, тем выше индивидуальный тестовый балл испытуемого. Обычно этот тестовый балл ассоциируется с понятием "уровень знаний" и проходит процедуру уточнения на основе той или иной модели педагогического измерения. Один и тот же уровень знаний может быть получен за счет ответов на различные задания.

С началом активного развития компьютерных технологий в качестве инструмента анализа заданий очень эффективно использование компьютера.

Сегодня компьютерные тесты являются одним из электронных средств обучения (ЭСО).

Тесты должны удовлетворять определенным требованиям, так как случайно подобранный набор заданий нельзя назвать тестом. 

  • Надежность контрольного задания  – это его способность с достаточной для практики одинаковостью характеризовать, исследуемый в дидактических экспериментах, показатель, как заданий в целом, так и его частями, или по другому, тот же показатель одним и тем же заданиям, но в разные моменты времени.

    Для пояснения понятия надежности контрольного задания обратимся к таблице умножения, убрав в ней правые части всех равенств и рассматривая оставшиеся выражения, как перечень контрольных заданий. Если группе испытуемых выдать некоторое число этих заданий и оценить их знания дважды: по ответам на задания из четных строк, то очевидно, у каждого из испытуемых получается приблизительно одни и те же оценки.

    Также очевидно, что одинаковые оценки у каждого из испытуемых получатся и в том случае, если контроль знания таблицы умножения будет проведен по некоторой совокупности заданий дважды, но в разные моменты времени (например, через два дня). Приблизительное совпадение рядов оценок в обоих случаях как раз и говорит о надежности комплекта рассматриваемых контрольных заданий, то есть таблицы умножения.

  • Валидность (или адекватность целям проверки) 

    а) содержательная валидность теста, т.е. задание теста построено на основе только технических учебных элементах, которые изучались учащимися и на той степени абстракции, на которой они излагались. По содержанию тест соответствует образовательному стандарту.

    б) функциональная валидность теста, т.е. задания теста соответствуют выявленному уровню усвоения – уровню заданному образовательным стандартом.

При составлении задания выделяются существенные и несущественные признаки элементов знаний. Существенные признаки закладываются в эталонный ответ. В другие ответы закладываются несущественные признаки с учетом характерных ошибок. Если учащиеся при работе с заданием знают и выделяют существенные признаки, а не формальные, то задание отвечает критерию валидности. Другими словами валидностью контрольного задания называется степенью соответствия своему назначению.

К критериям валидности относятся ответы на вопросы типа: «Соответствует ли задание программы курса или его раздела?»; «Охватывает ли задание достаточно полно весь курс или его раздел?»; «Достаточна ли вероятность того, что если испытуемый успешно справился рассматриваемым контрольным заданием, то он наверняка знает соответствующий материал в целом?».

Другими словами, показатель валидности отвечает на вопрос: «А то ли, что сформулировано в назначении контрольного задания, измеряется с его помощью?»

Очевидно задание может быть надежным , но невалидным. Также очевидно, что имеется прямая связь между надежным и валидным: задание с низкой надежностью не может быть валидным.

Например, если с целью проверки знания таблицы умножения, воспользоваться заданиями, составленными из произведений только одинаковых цифр (2*2, 3*3 ….), то оно, конечно, будет достаточно надежным: при проведении с ним серии экспериментов, описанных выше, будут получаться одинаковые оценки у большинства испытуемых. Но, очевидно, зарегистрированные при этом успехи не говорят о знании всей таблицы умножения. Следовательно, если целью контроля является проверка знаний всей таблицы умножения, то валидность задания, составленного из произведений только одинаковых цифр, явно недостаточна.

С использованием понятий надежности и валидности контрольных задания В.С. Аванесова дает следующие определение:

Дидактическим тестом  называется совокупность задания, которые составлены в собирательной форме, предназначены для сравнительной оценки знаний, умений, навыков, способностей, умственного развития и удовлетворяют заданным требованиям надежности и валидности.

  • Определенность 

    После прочтения заданий каждый учащийся понимает, какие действия он должен выполнить, какие знания продемонстрировать. Если учащийся после прочтения задания правильно действует и отвечает менее 70% учащихся, то его необходимо проверить на определенность.

  • Простота 

    Формулировка заданий и ответы должны быть четкими и краткими. Показателем простоты является скорость выполнения задания.

  • Однозначность 

    Задание должно иметь единственный правильный ответ – эталон.

  • Равнотрудность 

    При составлении тестов в нескольких вариантах равнотрудность определяется стабильностью результатов по вопросам во всех вариантах одного и того же задания.

Общедидактические требования к контролю знаний включают: систематичность, углубленность, всесторонность, объективность, индивидуализацию, гласность, дифференцируемость оценок.