Может ли нейросеть сдать ЕГЭ по английскому на сотку?

от автора

Я уже пятнадцать лет учу детей английскому языку. Ученики рассказывают, как пользуются нейросетями везде: разговаривают через них с вымышленными персонажами, рисуют картины, делают домашку. За последнее я на них ругаюсь, говорю, что ChatGPT за них ЕГЭ не сдаст.

А вдруг сдаст? Стал думать, как устроить экзамен нейросетке и узнать, захватит ли нас Скайнет. Спойлер: пока нет, но восстание машин близко.

Как я проводил экзамен для ChatGPT

С доступом к ChatGPT у меня возникли проблемы, которые смог решить ботом в Телеграме. Сначала мучался с VPN, кое-как зашел, и увидел, что за самую новую и крутую версию надо платить. Я не против, но иностранной карты у меня нет.

Написал ученикам, спросил, чем они пользуются. Они скинули мне в Телеграме бота, у которого есть подписка на ChatGPT4-o. Сказали, что справляется точно так же, как официальная версия.

Решил дать нейросети решать демоверсию 2025 года, как раз недавно разбирали ее с учениками.

В экзамене по английскому есть четыре части: аудирование, тестовая, письмо+эссе и устная. Слушать аудио бот не может, поэтому в аудировании я дал ему текстовые расшифровки заданий. Устную часть нейросеть сдавала письменно.

Задания я давал боту так же, как они написаны в бланках ЕГЭ. Решил посмотреть, как он справится. 

С чем он справился?

На полный балл нейросеть решила все задания на грамматику и словообразование. Это понятно, английский для ChatGPT родной, она на нем столько текста прочитала, сколько даже носители языка за всю жизнь не увидят.

Нейросеть хорошо справляется с заданиями, где к тексту дают утверждения и надо сказать: правда это, ложь, или в тексте про это ничего не сказано. Дети путаются и додумывают ответы. Если текст про булочки, но там ничего не сказано про то, что они сладкие, ученик может написать “Правда”. Он то знает, что булочки обычно сладкие. А бот идет четко по тексту, ищет конкретные цитаты и отвечает только по ним.

Есть утверждение «Джули часто работает летом». А в аудировании фраза «Этим летом я не работаю.» Дети отвечают «Неправда», но ответ — «Не сказано». Тут говорится только про это лето, мы не знаем, что было в прошлые года.

Устную часть он сдал почти на максимальный балл. И то, единственный минус я ему поставил по вредности. В экзамене есть задание, в котором нужно просто прочитать текст вслух. А раз железка говорить не может, то пусть получает ноль. Можно было взять другую нейросеть, которая умеет проговаривать текст голосом. Но сдает экзамен у меня только ChatGPT, помощь и подсказки не принимаю.

Интересно, что нейросеть не допустила ошибку, за которую детям снижают баллы. Причем, как по мне, не совсем заслуженно.

В устной части есть задание, где школьнику надо представить, что он нашел два фото для школьного проекта. Дается тема, например, «Волонтерство», и две фотографии: на одной собирают мусор, на другой ухаживают за собакой в приюте.

Здесь надо: 

  • описать две фотографии 

  • найти сходства, различия

  • сравнить то, что есть на фото, написать преимущества и недостатки

  • выразить мнение по теме

  • написать, какой из двух вариантов ты предпочитаешь и почему.

Нам на всех курсах подготовки говорят, что детям нельзя говорить «На фотографии МЫ видим, что…». Это считается за фактическую ошибку, потому что в задании написано, что мы не можем отправить фото другу. Вроде логично, но все равно похоже на придирку.

ChatGPT предпочитает пассивные предложения: «На фотографии есть…», «На фотографии видно…» Это его и спасло.

Где ChatGPT теряет баллы?

В чтении и аудировании выяснилось, что нейросеть не может понять общий посыл текста, она ищет отдельные цитаты, которые подходят под ответы. Дети так тоже делают. Поэтому в текстах есть предложения, которые подходят под один ответ, но если прочитать все, то окажется, что ответ другой. Слабые ученики на этом теряют баллы, нейросеть тоже.

Приведу пример. В обоих разделах есть задание, где дают тексты (устно или письменно) и заголовки. Нужно понять, какой заголовок к чему подходит. В одном из текстов рассказывается, что Новый год — это время начать все с чистого листа. Автор убирается в квартире, выкидывает все лишнее. Говорит, что в других странах есть традиции, которые тоже показывают Новый год как начало новой жизни.

Правильный заголовок: «Новый год — лучшее время для новых начинаний». Нейросеть выбрала вариант: «К Новому году важно тщательно подготовиться». Объяснила ответ тем, что в тексте говорится про уборку перед праздником, а уборка — это подготовка.

Если бы кроме предложения про уборку там ничего не было, то ответ бы подошел. Но весь текст про другое.

Такие ошибки у него частые, но не постоянные. В заданиях на восприятие текста бот набрал 12 баллов из 20.

Больше всего баллов нейросеть потеряла в заданиях, где нужно было написать тексты: на эссе и письме. Пока я проверял и оценивал его сочинения, я понял, что искусственный интеллект здесь не виноват. Проблема в формулировках ЕГЭшных заданий.

Проблемы ЕГЭ

ЕГЭ по английскому языку в целом не самый прямолинейный экзамен. В математике оценивание проще — ты либо решил задачу правильно, либо нет. А английский приходится подгонять под рамки, чтобы можно было оценивать детей. Из‑за этого некоторые задания становятся не проверкой умения пользоваться языком, а заучиванием шаблонов и клише.

Больше всего баллов дают именно за письмо и эссе. Это вроде бы творческие задания, но на практике его можно и нужно зазубрить.

На бланке написано: «Напишите письмо, в нем ответьте на вопросы и задайте свои.» А в итоге приходится рассказывать детям, что еще надо дату написать по шаблону, поздороваться и сказать, как рад получить письмо. Еще надо знать структуру письма и эссе и делать все строго по ней. И еще много всего, чего в задании нет. Но если все это не сделать, снимут баллы.

Про то, что нужно использовать глаголы-связки, текст обязательно нужно делить на пять абзацев и многое другое в задании не сказано. 

Про то, что нужно использовать глаголы-связки, текст обязательно нужно делить на пять абзацев и многое другое в задании не сказано. 

Еще важно уместиться в количество слов. Если написать меньше минимума, то задание дальше даже не проверяют. Просто ставится ноль баллов. Если больше, то все лишние слова зачеркивают и не учитывают. Тут сразу теряются баллы за организацию, потому что часть заключения не влезла в текст.

Ноль могут поставить за несоответствие текста теме. Детям кажется, что невозможно написать эссе вообще не о том, но организаторы и тут придумывают ловушки.

В один из годов в название темы вставили словосочетание «digital literacy» («цифровая грамотность»). «Literacy» не самое простое слово, знают его далеко не все. У меня два ученика написали на экзамене текст про электронные книги. Потому что в задании незнакомое слово, похожее на «literature» («литература»). Оба потеряли из‑за этого по 18 баллов.

Сколько баллов набрала нейросеть?

ChatGPT потерял четыре балла на аудировании, пять на чтении, еще девять на письме и эссе. То есть 18 баллов из 82. По стобалльной шкале он набрал 68 баллов. В прошлом году средний балл среди школьников был 65,39.

Результат неплохой, но видно, что нейросеть может и лучше. Поэтому я решил поменять запросы в некоторых заданиях и дать ей экзамен еще раз.

Готовим ChatGPT к пересдаче

Раз мне приходится объяснять детям, как работают критерии, то объясню и ChatGPT. Он же не виноват, что у нас половину задания дети узнают не из бланков, а от учителей.

Взял свои рекомендации для детей, переписал их под запрос для нейросети. В нем я рассказал, по каким критериям оценивается текст, дал шаблоны, клише и пример идеально написанного задания. Получилось огромное такое полотно текста.

Промт для письма:

Скрытый текст

Ты получил письмо от англоязычного друга по переписке Оскара:

 

…Yesterday at school our foreign language teacher told us a lot about Russian

literature. What Russian writers are popular with Russian teenagers? Who is

your favourite writer? What book of Russian literature do you think a foreigner

should read first, and why?

I’ve just got an unusual present…

Напиши ответ Оскару. Поблагодари его за письмо, скажи Оскару, что ты рад получать от него письма. Не забывай про вводные конструкции. Ответь на его вопросы и задай три вопроса о подарке. В конце извинись, что тебе приходится заканчивать письмо.  В твоем письме строго должно быть не меньше 100 и не больше 140 слов. Пиши языком уровня B1.

Не забывай о словах-связках:
Дополнения: first, also, finally наконец

Противопоставления: but, however
Примеры: such as, for example
Рассуждения: as, because 

О времени: when, while
В начале фразы: Anyway, Well, 

отвечай на все вопросы из письма друга 

задай свои 3 вопроса (строго придерживайся темы и «настроения» письма друга) 

обращайся к другу вежливо и с уважением 

напомни другу о вашей прошлой переписке 

благодари друга за письмо

напиши, что надеешься получить от него письмо в ответ 

пиши в неофициальным стиле 

обращение должно быть на отдельной строке

завершающая фраза на отдельной строке

подпись автора на отдельной строке,

адрес автора (только город) и дата в правом верхнем углу

письмо логично связано (одна цельная идея, а не множество разных)

весь текст разбит на абзацы (обязательно 3 абзаца)

Вот образец идеального письма: 

 Moscow

 Russia 

 10 June 

          Dear Steve,

          

Thanks a lot for your letter. I haven’t heard from you for ages. I’m sorry I haven’t answered earlier but I was  busy with my school.

           

In your letter you asked me about the reading habits in my family. Well, my parents usually read modern novels. However, they wouldn’t mind reading about the life of well-known people.  As for me, I enjoy reading and I read a lot in my spare time. I’m fond of detective stories because they have interesting story lines. My favourite writer is Agatha Christie because her stories are always fascinating. 

           

Anyway, I’m glad your sister got married. How old is your husband? Is he a student? What kind of music does he enjoy?

           

I’m sorry, I have to go now as I promised my mum to go shopping with her.   Please write back! 

          

All the best,

Ivan

Промт для эссе:

Скрытый текст

Перед тобой результаты опроса. Прокомментируй их и напиши мнение по теме опроса. В твоем ответе должно быть строго не меньше 200 и не больше 250 слов. Ответ должен состоять из пяти абзацев. Пиши языком уровня B1.

Абзац №1. Make an opening statement on the subject of the project
Это вступление. Здесь отрази тему эссе и назови источник данных, о которых пойдет речь. Этот абзац состоит из трех предложений, в которых надо описать основную мысль работы и указать источник информации: таблицу или диаграмму.

Клише для абзаца №1:

Nowadays, people are getting more and more concerned about […].

Some people think that […].

There are those who say that […].

Some people are convinced that […].

Nowadays, some people may hold the opinion that […].

At the same time, others consider that […].

Others agree that […].

[…] and others believe that […].

Пример абзаца №1

Nowadays, people are getting more and more concerned about the growing prominence of IT careers among teenagers in Zetland. During our research on why IT professions are so popular among young people, I found a table with statistics that reveal the main reasons behind their choice. In this essay, I will examine these numbers and share my thoughts on the subject.

Абзац №2. Select and report 3 facts
Здесь изложи 3 факта, которые дает таблица или диаграмма. В этом абзаце четыре предложения. В первом должна быть вводная мысль, которая изложит смысл всего абзаца. Дальше — по одному предложению на каждый факт.

Клише для абзаца №2 эссе по английскому:

As can be seen from the […].

First(ly), […].

Second(ly), […].

Finally, […].

First of all, […].

Besides, […].

What is more, […].

Пример абзаца №2

As can be seen from the data provided, we can observe the key insights about the preferences of Zetland teenagers when it comes to IT careers. Firstly, 33% of the respondents prioritise a good salary as their primary motivation for choosing a career in IT. Secondly, many vacancies in the IT sector, with 25% of youths, emphasise the wealth of job opportunities available. Finally, working from home is a significant factor, with 20% of the respondents valuing this flexibility in their career choices.

Абзац №3. Make 2 comparisons where relevant and give your comments
В третьем абзаце нужно сравнить числовые данные из таблицы или диаграммы. В этом абзаце три предложения. В первом должна быть вводная мысль, которая изложит смысл всего абзаца. Дальше сделай два сравнения положений из данных и прокомментируй их.

Клише для абзаца №3 эссе по английскому:

Comparing […] to […].

[…] in comparison with […].

[…] whereas […].

The difference between […].

Пример абзаца №3

Comparing the reasons for choosing an IT career among Zetland teenagers, we noticed some interesting trends. Good salary appears to be the most popular reason, with 33% of the respondents, while constant development seems to be the least favoured, getting only 8%. This significant difference of 25 percentage points highlights how important money is in teenagers’ career decisions.

Абзац №4. Outline a problem that can arise with some IT jobs and suggest a way of solving it.
В этом абзаце нужно выделить и описать проблему, которую видно из предыдущих фактов и сравнений. Потом предложить способ, как ее можно было бы решить.

Клише для абзаца №4 эссе по английскому:

According to the research […].

As a result, […].

I believe […].

I would suggest […].

Пример абзаца №4

Based on the data and comparisons, a significant issue emerges in the field of IT careers among Zetland teenagers. While these careers offer benefits, such as good salaries and numerous opportunities, there is a risk of work-related stress and burnout. To address this, I would suggest that educational institutions and IT companies introduce stress management programs, prioritise well-being, and encourage a healthy work-life balance.

Абзац №5. Conclude by giving and explaining your opinion on the importance of IT in the modern world
Это заключение. В нем нужно подвести итоги работы, описать и объяснить свое мнение по теме задания. Важно, чтобы этот абзац по объему был примерно одинаковым с первым абзацем.

Клише для абзаца №5 эссе по английскому:

According to the arguments presented above, I can note […].

All in all, […].

In conclusion, I would like to stress that […].

To sum up, […].

The arguments I have presented […] would indicate that […].

All in all, I still strongly believe that […].

From these arguments one could conclude that […].

So it is up to you to decide whether or not […].

Пример абзаца №5

In conclusion, I would like to stress that IT careers hold significant appeal for Zetland teenagers. The data highlights various factors contributing to their popularity, including good salaries, ample job opportunities, remote work options, creative prospects, and continuous growth potential. Overall, I firmly believe that IT careers offer young individuals the tools and opportunities needed to thrive in the digital era.

Но здесь у меня возникла проблема с тем, как работает бот в Телеграме. Большие тексты Телеграм сразу делит на несколько сообщений. И бот сразу начинает отвечать на них, как на отдельные запросы. Сначала пытался уместить все свои советы в одно сообщение, но не получалось оставить все важное.

Тогда я попробовал заставить бота не отвечать мне сразу, а дождаться кодового слова.

Получилась вот такая приписка к инструкции. Сработало.

Получилась вот такая приписка к инструкции. Сработало.

Дал нейросети переписать задания, теперь по новому запросу. Получилась машина для написания идеальных писем и эссе. Бот пишет грамотнее любого школьника, а теперь он соблюдает все требования, учитывает все критерии оценки.

Это ученики могут что-то забыть, где-то не написать нужную фразу. А у машин таких слабостей нет. 

Результаты

После обучения я еще раз заставил нейросеть сделать задания, оценил их и теперь у меня есть окончательные результаты.

Вот сколько первичных баллов получил ChatGPT:

  • Аудирование: 8 из 12

  • Чтение: 7 из 12

  • Грамматика и лексика: 18 из 18

  • Письмо и эссе: 20 из 20 (до написания обучалок было 11 из 20)

  • Говорение: 19 из 20 (как научится читать вслух, можем вернуть один балл)

В интернете есть таблица перевода первичных баллов в привычную шкалу из ста.

В интернете есть таблица перевода первичных баллов в привычную шкалу из ста.

Тем, кто ЕГЭ не застал, удобнее в пятибалльной шкале. Официального перевода баллов ЕГЭ в обычные оценки нет. Обычно мы считаем, что отличник подтвердил свои оценки, если он набрал больше 80 баллов. Так что ChatGPT заслужил свою пятерку. Хорошо, что пока без плюса.

Если вы сдаете ЕГЭ или готовите к другим экзаменам, можете тоже устроить нейросети проверку знаний. В телеграм-бота можно отправлять фотографии, чтобы он посмотрел на график или таблицу. Он запоминает до трех сообщений одновременно, так что можно сначала обучить его, а потом дать задачу. Бот запомнит инструкции и сделает все по ним.


ссылка на оригинал статьи https://habr.com/ru/articles/869830/