Бот не выдаст: ChatGPT научился проверять ЕГЭ
Чат-боты в перспективе смогут решить проблемы с погрешностью при выставлении оценок за ЕГЭ и другие аттестационные экзамены. С инициативой внедрить нейросети в систему проверки единого госэкзамена в Минпросвещения намерена обратиться компания Skyeng, которая уже научила чат-бот на основе ChatGPT проверять работы по английскому языку. Однако эксперты пока придерживаются разных мнений относительно будущего участия нейросети в анализе экзаменационных работ. Подробности — в материале «Известий».
Как ChatGPT научили проверять ЕГЭ
В онлайн-школе английского языка Skyeng рассказали «Известиям», что запустили чат-бот «Skysmart AI ЕГЭ Эксперт» на базе ChatGPT для подготовки учеников к ЕГЭ по английскому, но теперь предлагают внедрить его в систему оценки ответов единого государственного экзамена.
Дело в том, говорят в компании, что итоговая оценка нередко зависит от человеческого фактора: спецификатор ЕГЭ по английскому языку, составленный Федеральным институтом педагогических измерений (ФИПИ), признает погрешность от 2–4 и более баллов в зависимости от оценки разными экспертами. Одинаковые ответы могут принести разное количество баллов, что может быть критичным при зачислении в вуз. Основатель онлайн-школы Skyeng Георгий Соловьев считает, что в перспективе чат-бот может решить эту проблему. Теперь компания намерена выйти с этим предложением к руководству Минпросвещения.
— Это первый тренажер, созданный с помощью искусственного интеллекта, который может полностью заменить проверку экспертом, — сказал Соловьев «Известиям». — На данный момент мы добились точности, сопоставимой с работой профессиональных методистов: чат-бот запущен в бета-версии, но уже прогнозирует баллы по устной и письменной частям с вероятностью 80%.
В компании рассказали, что чат-бот прошел слепое тестирование с участием членов предметной комиссии. Предполагалось, что если хотя бы в 50% случаев результаты проверки человека и нейросети совпадают, то чат-бот сможет стать вспомогательным инструментом как в подготовке к ЕГЭ, так и для его оценивания. В итоге выяснилось, что чат-бот проверяет отдельные критерии и аспекты ответов (решение коммуникативной задачи, организация текста и языковое оформление) так же хорошо, как и эксперт, в 68% случаев. В 61% случаев дает качественную аргументацию оценки за задание, объясняя, почему снижен балл. «Обучение» чат-бота пока продолжается.
Георгий Соловьев считает, что чат-бот как минимум мог бы помочь многим выпускникам в подготовке к экзамену — особенно с заданиями на говорение, где сложно оценить самого себя.
Компания готовит подобный тренажер и по другим предметам.
Как проверяют ЕГЭ сейчас
В Рособрнадзоре сообщили «Известиям», что в ЕГЭ по иностранным языкам краткие ответы уже проверяются программными средствами.
— А письменные и устные развернутые ответы проверяются экспертами предметных комиссий субъектов РФ, — рассказали в ведомстве. — Каждый обезличенный ответ независимо проверяется двумя экспертами. В случае возникновения существенных расхождений, указанных в спецификации контрольных измерительных материалов, между ними назначается третий эксперт, чьи баллы являются окончательными. В случае несогласия с выставленными баллами участник ЕГЭ вправе подать апелляцию. Работа будет пересмотрена с привлечением эксперта, который ранее не проверял эту работу.
Член общественного совета при Рособрнадзоре, начальник отдела методического обеспечения процедур оценки Московского центра качества образования Роман Дощинский замечает, что перепроверка может быть инициирована еще и государственной экзаменационной комиссией и это будет уже пятая линия проверки одной и той же работы.
Руководитель научно-исследовательского центра систем оценки и управления качеством образования ФИРО РАНХиГС Борис Илюхин подчеркивает, что основные причины ошибок экспертов — это не невнимательность, а различная трактовка тех или иных норм. То, что один человек признает ошибкой, другой может считать правильным написанием.
— Ошибка в этом случае потянет на 1–2 балла, — сказал Борис Илюхин.
Роман Дощинский указывает, что предложения от различных коммерческих структур по автоматизированной проверке ЕГЭ появляются, но государство не вкладывается в эти разработки, потому что считает их бесперспективными, особенно когда речь идет об оценке экзаменов с высокими ставками.
— Возможно, это могло бы удешевить проверку — все-таки команда экспертов стоит больших денег, — сказал он. — Но и вложения в программное обеспечение, особенно вначале, тоже будут велики, плюс понадобятся специалисты, обслуживающие это ПО. Неизвестно, удешевит ли это процесс в итоге.
Справится ли чат-бот с проверкой
Рособрнадзор рассказал «Известиям», что на международных языковых экзаменах по английскому языку много лет используется компьютеризированная процедура сдачи экзамена, в том числе процедура проверки устных ответов участников, — и разработчики ЕГЭ знакомы с этими процедурами. Однако возможность использования ИИ при проверке экзаменационных работ «нуждается в серьезном всестороннем исследовании», добавили в ведомстве.
Роман Дощинский считает, что пока проверка результатов экзаменов нейросетью возможна только в условиях жестко выстроенного развернутого ответа, поэтому и эксперименты касаются в основном иностранных языков. Кроме того, машинная проверка подразумевает оформление работы в компьютерном виде — сейчас это крайне сложно осуществить.
Сооснователь «Новой школы» Тимур Сафин указывает, что нынешние генеративные нейросети не до конца понимают все сложности русского языка: компания столкнулась с трудностью проверки ЕГЭ по русскому, потому что ChatGPT не всегда понимает особенности стилистики и грамматики языка. Пока не хватает данных.
Руководитель направления «Самолетум лаборатория», эксперт в цифровизации образования Андрей Комиссаров подчеркивает: важно, какие именно нейросети используются для оценки экзаменов.
— У алгоритма ChatGPT есть целый ряд серьезных недостатков и проблем, связанных со знаниевой частью, — сказал он «Известиям». — Но поскольку в гигантском массиве данных, на котором был научен ChatGPT, английский язык составлял основную часть, с высокой долей вероятности действительно можно использовать подобные системы для оценки этого предмета. Экзамены по другим предметам нельзя обработать с помощью ChatGPT.
В целом же применять нейросетевые алгоритмы можно, продолжает Комиссаров. Cовременный искусственный интеллект — это ансамбль из нескольких нейросетей и нескольких подходов.
— В наших разработках мы используем не ChatGPT, а специально предобученные на массиве данных — учебниках ФГОС, креативных работах педагогов, нормативных актах и т.д. — нейросети как один из элементов проверки, а также так называемые онтологические графы, или графы системы знаний, как другой вариант проверки, — говорит он. — Искусственный интеллект, обученный таким образом, может и должен быть использован, в том числе для проверки заданий ЕГЭ. Я считаю, что в перспективе года-двух с высокой долей вероятности именно таким образом задача и будет решена.
Нужен ли бот для проверки
Борис Илюхин из РАНХиГС считает, что чат-бот — это не решение проблемы корректной оценки за ЕГЭ. Научить бота правилам проверки — это выполнимая задача, но нет самой задачи автоматизировать эти процессы с помощью нейросетей, замечает он. Важнее разработать образовательные технологии, помогающие в изучении языков, математики и иных предметов — особенно с учетом нехватки педагогов в отдельных школах.
Кандидат технических наук Владимир Арлазаров, генеральный директор ИИ-компании Smart Engines, также указывает на нецелесообразность проверок с помощью нейросети, тем более когда речь идет о языковых экзаменах.
— Язык создан и в основном нужен для общения между людьми, а не для общения с ботами, даже если они представляют собой одно из грандиозных достижений науки, — заметил он в беседе с «Известиями». — Боты полезны в двух случаях — когда имеется четкий алгоритм «вопрос–ответ» или когда надо создать симулякр.
Главный научный сотрудник Центра финансово-экономических решений в образовании НИУ ВШЭ Ирина Абанкина, однако, считает, что использование нейросетей для оценки работ учащихся — это одно из самых перспективных направлений не только в итоговой аттестации, но и в промежуточных работах.
— Искусственный интеллект позволяет давать рекомендации по индивидуализации учебного плана: выявлять дефициты, пробелы и в то же время сильные стороны, — сказала она «Известиям». — Если будущее образования за индивидуализацией, нейросети в этом могут очень сильно помочь.
Для проверки непосредственно ЕГЭ нейросетям действительно может помочь созданный ФИПИ кодификатор по разным предметам, куда зашиты и типы задач, и шаблоны решений, и типы вопросов.
— По сути, кодификаторы — это содержание образования, — говорит Ирина Абанкина. — На их основе удается разрабатывать чат-боты, которые позволяют проверять работы. Конечно, за этим будущее. Даже если сейчас они совершают ошибки, нивелировать человеческий фактор с их помощью будет можно. Это огромный прорыв в образовании в целом.
В онлайн-школе «Умскул» считают, что такие чат-боты могут быть полезны школьникам из маленьких городов и сел для проверки своих знаний, так как у них меньше шансов адекватно оценить свой уровень подготовки, особенно по иностранному языку. Помогут чат-боты оценить уровень и объективность экспертов, проверяющих работы. А Тимур Сафин отметил, что это нужный и важный инструмент с точки зрения разгрузки учителей при проверке работ.
— Техническую монотонную работу уже сейчас можно перепоручить машине. Там есть очевидные плюсы: машина всех и всегда проверяет одинаково, с одинаковой эмпатией, — заметил эксперт.
Руководитель Центра экономики непрерывного образования ИПЭИ РАНХиГС Татьяна Клячко считает, что использовать нейросеть для проверки ЕГЭ можно — но только как предварительную работу.
— Нейросеть опирается на имеющиеся данные и пока не может оценить нестандартные решения и ответы, — считает она. — Поэтому за нейросетью должен приглядывать человек. Кроме того, надо понимать, что без дальнейшей человеческой деятельности нейросети нечем будет подпитываться и не на чем будет развиваться. Все попытки исключить человека из социальной деятельности, как думается, обречены на неудачу. Объективность нейросети простирается только на текущее состояние объекта. Новое ей пока неподвластно.