Kaggle Benchmarks. «Kaggle уже не тот…»

В ML/DS сообществе есть шаблонная фраза “Kaggle уже не тот”. Ностальгия по временам ушедшим понятна, но в общем-то очевидно, что драматически меняется вся индустрия и ландшафт соревнований вместе с ним. На смену заголовку, встречавшему кагглеров раньше, “Your Home for Data Science” пришел новый: “The World’s AI Proving Ground”.

Бенчмарки на Kaggle

В 2026 Kaggle окончательно перешел под крыло AI фронтьера от Google DeepMind. Сменился и фокус. Один из больших апдейтов — появление раздела «Benchmarks» и инструментария Kaggle Benchmarks SDK. Вкратце, это фреймворк + инфраструктура, которые позволяют создавать наборы тестов на любой вкус, объединять их в комплексные бенчмарки и быстро прогонять на них большие модели в равных условиях. Можно придумать и реализвать почти любой тест, метрику и механику его прогона. Тесты можно объеденить в группу и уже эта сущность и будет называться бенчмарком. На выходе будут логи, json, метрики, сравнения, лидерборд. И данные, и код бенчмарков можно оставить в приватном датасете, не доступном публично, а можно раскрыть.

На апрель 2026 доступно около 40 моделей. Все что на слуху — там есть. На прогон моделей дается еженедельно обновляемый бюджет, который полностью покрывает площадка. Если не хватает, можно запросить пополнение.

Бенчмарки, вероятно, крайне важны для Kaggle сейчас. Традиционных соревнований стало заметно меньше и вряд ли прибавится в ближайшее время. Это факт, как бы он не нравился Кaggle мастерам. Хотя медали за бенчмарки пока не дают.

Конкурс от DeepMind

Пару дней назад завершился первый конкурс бенчмарков «Measuring Progress Toward AGI — Cognitive Abilities«. DeepMind выступали организаторами.

Всего заявлено 5 треков со следующими вопросами:

Learning
Могут ли модели приобрести и применить новые знания и навыки, а не просто вспомнить, чему они были обучена?
Metacognition
Знают ли модели то, что они знают, а что нет?
Attention
Могут ли модели сосредоточиться на том, что важно, и игнорировать то, что не имеет значения?
Executive Functions
Могут ли модели планировать, подавлять импульсы и гибко адаптироваться или они по умолчанию используют привычные реакции?
Social Cognition
Могут ли модели понимать и ориентироваться в социальных ситуациях, а не просто создавать вежливый текст?

Чуть более 1000 участников. К каждому бенчмарку по условиям конкурса надо было представить код + описание (writeup). Пролистывая райтапы зацепило 3 факта:

количество и качество отличных идей от людей далеких от DS/AI
дебри нейрослопа в которые обернуты эти идеи
отсутствие в участниках большинства сильных кагглеров

Личный опыт

Поучаствовал на треке Attention. Моя история с представленным бенчмарком «TraceQuest: City Detective Benchmark. Multimodal Attention» родилась из простого любопытства. Задался вопросом — могут ли AI модели действовать в нескольких измерениях не теряя внимания к деталям (изображение, логика, время), как это в состоянии делать, например, 8 летние дети.

За основу взял механику настольной игры «MicroMacro: Город улик». Там есть огромная ч/б карта города с ~10 000 деталей, 400+ персонажей и детективные истории, которые происходят в городе. Каждый персонаж может быть отрисован на карте в разные моменты времени и местоположении. Одно «дело-история» — это 5-10 связанных друг с другом вопросов. Например, ограбление банка, мотивация, погоня, смена транспортных средств и т.д.

механика игры "MicroMacro" — механика игры «MicroMacro»

Написал создателю игры, пригласил в команду, не особо рассчитывая на его ответ. Но всего за 3 дня до финала соревнования автор игры ответил, что ему интересно и он не возражает. Дальше как в тумане. Днем работа, ночью Kaggle. Бенчмарк родился легко, райтап сложнее. Принципы «Keep it simple» и сторителлинга значат сейчас, к сожалению, на Kaggle, намного больше, чем многие думают.

PS и ссылки

Удивительно, какой диапазон исследований эффективности и поведения больших моделей можно относительно просто сейчас реализовать. Порог входа сильно снижен, а порог выхода наоборот далек. Любопытно и куда смотрят в этих исследованиях на Kaggle, в Anthropic и DeepMind.

Приведу несколько ссылок, если эта тема заинтересовала:

Kaggle Benchmarks | Benchmarks SDK | Создать свой

Соревнование «Measuring Progress Toward AGI — Cognitive Abilities» | Райтапы

Мои бенчмарки на Kaggle:

TraceQuest: City Detective (мультмодальный Attention по настолке)
PsychoMirror (AI психология, протокол Шоготта)
FlightRank Benchmark (модели ранжируют авиабилеты)
Cayley Solvers (алгоритмическое решение головоломок перестановками)

Исследования Anthropiс:

ссылка на оригинал статьи https://habr.com/ru/articles/1025362/