Ахиллесова пята ИИ: простая задача, обнажившая слабости всех языковых моделей — решено в GPT 1o

от автора

Сегодня вышла новая модель от OpenAI GPT1o. Попробовал, хитрые (и не очень) задачки из Linguistic Benchmark Questions вроде той что на картинках ниже или про братьев («У Алисы есть N братьев и M сестер. Сколько сестер у брата Алисы?»  ) . Новая GPTo1 решает. Буквально месяц назад на Habr выходила статья про такие задачи Ахиллесова пята ИИ: простая задача, обнажившая слабости всех языковых моделей — ступор, кризис, LLM никогда не превзойдет… и кажется уже можно ее удалять. Есть шанс что ее обучили на этом самом Linguistic Benchmark Questions, а с новыми вопросами она справится хуже, но тут уже надо внимательнее исследовать.

Кажется это и правда что-то новое, и теперь надо попробовать со сложными задачами на программирование. Протестируем и напишем в нашем ТГ канале AI4Dev, где мы пишем об использовании LLM в разработке софта.

GPT4o  не справляется

GPT4o не справляется

GPT o1  справляется

GPT o1 справляется


ссылка на оригинал статьи https://habr.com/ru/articles/842956/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *