OpenAI удивляет марафоном релизов, Google выпускает прорывной квантовый чип: главные события декабря в сфере ИИ

от автора

Финал года выдался богатым на события в сфере ИИ. OpenAI провели свой первый «адвент-календарь» с ежедневными релизами, каждый из которых заслуживает отдельного внимания. Параллельно технологические гиганты представили множество новинок: от квантовых чипов с рекордной производительностью до компактных, но мощных языковых моделей, способных конкурировать с признанными лидерами.

Мы собрали самые интересные новости, исследования и релизы декабря. Новые инструменты, важные научные работы и технические находки — в свежем выпуске нашего ИИ-дайджеста!

Оглавление

Новости гигантов индустрии

Новые модели

Интересные открытия

Новые инструменты

Свежие исследования

Заключение

Новости гигантов индустрии

OpenAI: 12 дней релизов

В декабре OpenAI провели свой первый «адвент-календарь» с ежедневными релизами, превратив предновогодний период в настоящий марафон технологических анонсов. От новых моделей до интеграций с популярными сервисами — каждый день приносил значимые обновления для разных категорий пользователей. 

(Источник изображения) 

Рассказываем, что нового представили Сэм Альтман и его коллеги:

  1. Релиз full o1 и o1 Pro Mode. Полная версия получила поддержку изображений, стала на 30% быстрее preview-версии и более стабильной. Pro-версия, доступная по подписке всего за $200, использует улучшенный ризонинг-пайплайн для более глубокого анализа.

  2. Анонс Reinforcement Fine-Tuning (RFT). Новый метод позволяет обучать модели до экспертного уровня на минимальном наборе данных (около 100 сэмплов). Пока доступен только для избранных партнеров.

  3. Выпуск SORA turbo. Улучшенная версия генератора видео поддерживает создание роликов продолжительностью до 20 секунд в разрешении 1080p. Pro-подписчики получили безлимитный доступ, для Plus доступно 50 генераций. Добавлен кастомный видео-редактор для работы с таймлайном.

  4. Обновление Canvas. Добавлен интерпретатор Python-кода с визуализацией ошибок и построением графиков. Инструмент стал доступен всем пользователям и получил возможность интеграции с кастомными GPT. Улучшена система комментирования кода с выделением участков прямо в запросах.

  5. Интеграция с Apple. ChatGPT получил глубокую интеграцию с iOS и macOS и теперь встроен в Siri. В Visual Intelligence появился прямой доступ к GPT-4o для анализа видео в реальном времени, добавлены инструменты для работы с документами через Finder.

  6. Запуск Advanced Voice Mode с поддержкой видео и демонстрации экрана в реальном времени. Добавлен голос Санты и поддержка русского языка. Модель эффективно запоминает контекст показанного контента.

  7. Внедрение системы Projects (папок) для организации диалогов. Позволяет создавать рабочие пространства с общим контекстом и файлами, группировать чаты по темам и устанавливать общие инструкции для проектов.

  8. Улучшение SearchGPT. Добавлена поддержка голосового поиска, превью веб-страниц в чате и интеграция с картами. Функционал стал доступен бесплатным пользователям. Появилась возможность использовать GPT как дефолтный поисковик.

  9. Обновление API. Добавлена поддержка изображений, структурированных выводов в JSON и developer промптов. Внедрен preference finetuning и настройка reasoning efforts. Realtime API получил WebRTC-интеграцию при снижении цен на 60%.

  10. Интеграция с телефонией. ChatGPT стал доступен через звонки (1-800-CHATGPT, США) и WhatsApp-сообщения. Сервис работает даже на базовых телефонах, обеспечивая широкую доступность.

  11. Добавлена функция стриминга приложений. Позволяет транслировать данные из приложений напрямую в чат для анализа и визуализации. Поддерживается работа с кодом и графиками без копирования.

  12. Анонс o3 и o3-mini. Новая модель показала впечатляющие результаты: вдвое лучше o1 в кодинге, 88% на бенчмарке ARC AGI и 25% на Frontier Math. Обе версии поддерживают разные режимы рассуждений (low, medium, high) и улучшенный alignment. Публичный релиз запланирован на январь.

Не удивимся, если это еще не конец новостей от OpenAI. Остается гадать, какие сюрпризы компания заготовила на следующий год. 

Google теряет ключевых разработчиков NotebookLM

NotebookLM только набрал популярность, как его команда покидает Google для создания собственного стартапа. Руководитель проекта Райза Мартин вместе с ведущим дизайнером Джейсоном Шпильманом и инженером Стивеном Хьюзом объявили об уходе из компании.

(Источник изображения)

По словам Мартин, команда увидела «возможность создать что-то действительно трансформационное в своей области». Хотя стартап пока находится в режиме полной секретности и даже не раскрывает своего названия, из комментариев для TechCrunch следует, что проект будет ориентирован на массового пользователя.

«По мере развития frontier-моделей растет потребность в продуманных продуктах, которые сделают преимущества этих технологий доступными и понятными для обычных людей», — отметила Мартин. Пока неизвестно, будет ли новый проект развивать идеи NotebookLM в области AI-подкастов и умных заметок, или команда выберет совершенно новое направление.

Несмотря на раннюю стадию проекта и отсутствие объявленных инвестиций, стартап уже получил значительную поддержку от основателей других компаний, инвесторов и академического сообщества.

Apple интегрирует ChatGPT в свои устройства

Apple анонсировала масштабное обновление для своих устройств, центральным элементом которого стала долгожданная интеграция ChatGPT с Siri. Обновление iOS 18.2 знаменует важный этап в развитии Apple Intelligence — комплекса AI-функций, ставшего ключевой особенностью линейки iPhone 16.

Интеграция активируется автоматически при сложных запросах к Siri. Система использует модель GPT-4o и не требует отдельной учетной записи OpenAI. Особое внимание уделено конфиденциальности: OpenAI не хранит запросы пользователей.

Параллельно компания представила два новых AI-инструмента: Playground для генерации изображений и Image Wand для редактирования фотографий. Функционал доступен владельцам iPhone 15, iPhone 15 Pro и всех моделей iPhone 16 после установки необходимых моделей AI.

xAI делает Grok-2 бесплатным для пользователей X

Илон Маск тоже не остается в стороне и делает всем пользователям X новогодний подарок: Grok-2 становится бесплатным. Новая версия модели, которую команда xAI тестировала последние недели, работает в три раза быстрее предшественника и отличается улучшенной точностью, следованием инструкциям и поддержкой множества языков.

(Источник изображения)

Помимо базового функционала, пользователям стали доступны веб-поиск, цитирование источников и генератор изображений Aurora. Интересная новинка — кнопка Grok в ленте X, которая помогает получить контекст для постов и глубже разобраться в трендовых обсуждениях. Премиум-подписчики, как обычно, получат повышенные лимиты использования и первыми опробуют новые возможности.

Анонс происходит на фоне успешного раунда финансирования: xAI привлекла $5 млрд при оценке в $50 млрд — более чем двукратный рост с весны. 

Google представила Willow — квантовый чип с септиллионным преимуществом

Вот уже 30 лет физики и инженеры пытаются решить главную проблему квантовых компьютеров – их чудовищную нестабильность. Чем больше кубитов, тем больше ошибок, и тем быстрее система теряет свою «квантовость». 

Похоже, команде Google Quantum AI наконец удалось совершить прорыв: их новый чип Willow не просто исправляет ошибки — он делает это экспоненциально лучше при увеличении числа кубитов.

(Источник изображения)

За 5 минут Willow выполняет вычисления, на которые самому быстрому современному суперкомпьютеру потребовалось бы 10 септиллионов лет. Для понимания масштаба: это число с 25 нулями, что значительно превышает возраст нашей Вселенной.

В основе такой производительности лежит революционный подход к коррекции ошибок. Исследователи тестировали массивы кубитов разного размера: от сетки 3×3 до 7×7. С каждым увеличением размера сетки уровень ошибок не рос, а наоборот — снижался вдвое. Это то самое «below threshold» состояние, которого квантовая индустрия ждала с 1995 года, когда Питер Шор впервые предложил концепцию квантовой коррекции ошибок.

Чип был создан в специализированной лаборатории Google в Санта-Барбаре — одной из немногих в мире, построенных с нуля для производства квантовых процессоров. При 105 кубитах Willow демонстрирует лучшие в своем классе показатели стабильности: время удержания квантового состояния достигает 100 микросекунд, что в 5 раз превышает результаты предыдущего поколения чипов.

GitHub делает Copilot бесплатным

GitHub продолжает удивлять разработчиков: компания объявила о запуске бесплатной версии своего AI-ассистента Copilot. Более того, теперь инструмент будет поставляться по умолчанию с редактором VS Code. До этого момента большинству разработчиков приходилось платить от $10 в месяц — бесплатный доступ был только у студентов, преподавателей и разработчиков, поддерживающих open-source проекты.

Иллюстрация работы Copilot

Иллюстрация работы Copilot

Конечно, у бесплатной версии есть ограничения. Пользователи получат 2000 автодополнений кода в месяц, причем в этот лимит входят все предложения Copilot, а не только принятые. Также доступны только две базовые модели: Claude 3.5 Sonnet от Anthropic и GPT-4o от OpenAI (в платной версии есть еще Gemini 1.5 Pro и модели o1). Чат с ассистентом ограничен 50 сообщениями, но все расширения и навыки Copilot остаются доступными.

Решение о запуске бесплатной версии выглядит логичным: с 2021 года на рынке AI-ассистентов для кода появились серьезные конкуренты вроде Tabnine, Qodo и решений от AWS, которые уже предлагают бесплатные планы. GitHub рассчитывает использовать широкое распространение VS Code, чтобы расширить аудиторию Copilot.

Новые модели

По ощущениям, за декабрь нам представили рекордное количество новых моделей. Вот самые интересные из них.

Microsoft Phi-4: малышка с большими амбициями 

Microsoft представила новое пополнение в семействе Phi — компактную модель с 14B параметров, которая удивляет своей производительностью. Несмотря на скромный размер, Phi-4 работает наравне с GPT-4o mini и Llama-3.3-70B, а на математическом бенчмарке AMC 10/12 достигает впечатляющих 91.8%, обходя даже Gemini Pro 1.5.

Такой результат достигнут благодаря комбинации качественных синтетических и органических данных на претрейне, а также внедрению pivotal token search — метода улучшения качества генерации, который основан на поиске и оптимизации «ключевых» для правильного ответа токенов. Модель пока доступна только в ограниченном режиме на платформе Azure AI Foundry для исследовательских целей.

Meta Apollo: видео-LLM учится смотреть длинные ролики

Meta выпустила семейство видео-моделей Apollo, способных анализировать часовые видео с точным отслеживанием персонажей и сцен. Примечательно, что все три версии (1.5B, 3B и 7B) достигли превосходных результатов на LongVideoBench, несмотря на компактный размер.

Успех Apollo построен на концепции Scaling Consistency: команда протестировала 84 варианта архитектур на малых моделях и обнаружила, что найденные оптимальные решения хорошо масштабируются на более крупные версии. Среди ключевых инноваций — равномерное сэмплирование кадров, комбинированные энкодеры и постепенное размораживание компонентов при обучении.

Amazon Nova: новая линейка моделей

Amazon представила линейку моделей Nova, включающую Pro, Micro и Lite версии. Флагманская Nova Pro сопоставима по возможностям с Llama 3.2 90B и приближается к уровню Sonnet 3.5 и GPT-4o, предлагая при этом втрое более низкие цены: $0.8/1M на входе и $3.2/1M на выходе при контексте в 300К токенов.

(Источник изображения)

Младшие модели особенно впечатляют: Lite показывает результаты на уровне Gemini Flash, а Micro, хотя и уступает Haiku 3.5, демонстрирует рекордную скорость в 157 токенов в секунду. Все модели уже доступны для тестирования на LM Arena и AWS Bedrock.

Помимо базовых моделей, Amazon анонсировала Nova Premier — мультимодальную модель для сложных рассуждений, релиз которой ожидается в начале 2025 года. Также компания представила генеративные модели Nova Canvas для создания изображений и Nova Reel для работы с видео, обе со встроенными возможностями водяных знаков. В планах компании на следующий год — выпуск speech-to-speech модели и нативной мультимодальной модели. Конкуренция на поле ИИ продолжает расти.

Google Gemini 2.0: новая эра ИИ-ассистентов

Google выкатила сразу несколько мощных обновлений своего флагманского AI. Главная новинка – Gemini 2.0 Flash Thinking Experimental, модель с улучшенными способностями к рассуждениям, которая, в отличие от других подобных моделей, не скрывает процесс своих размышлений. Модель не только превосходит своего предшественника Gemini 1.5 Pro по ключевым показателям, но и работает вдвое быстрее. Главная особенность — расширенные мультимодальные возможности: теперь Flash может не только воспринимать текст, изображения и видео на входе, но и генерировать изображения вместе с текстом, а также создавать многоязычные аудио через text-to-speech.

Семейство моделей Flash (источник изображения)

Семейство моделей Flash (источник изображения)

Модель получила встроенную поддержку различных инструментов, включая Google Search и выполнение кода. Для разработчиков уже доступен новый Multimodal Live API с поддержкой потокового видео и аудио в реальном времени. Протестировать Gemini 2.0 Flash можно в AI Studio и Vertex AI, а в январе 2025 года модель появится в пользовательском приложении Gemini.

Параллельно Google представила несколько экспериментальных ИИ-агентов на базе Gemini 2.0: 

  • Project Astra — универсальный ассистент с поддержкой нескольких языков, способный запоминать до 10 минут сессии и использовать Google Search, Lens и Maps. 

  • Project Mariner — агент для работы в браузере с эффективностью 83.5%. 

  • Jules — специализированный помощник для разработчиков, интегрирующийся с GitHub. 

Отдельно стоит отметить Deep Research — инструмент для углубленного поиска информации в интернете с составлением подробных отчетов.

Veo 2: Google бросает вызов SORA

Google DeepMind представила Veo 2 — генератор видео нового поколения, превзошедший в пользовательских тестах нашумевшую SORA от OpenAI. По данным тестирования, 58.8% участников предпочли генерации Veo, особенно впечатлившись качеством роликов с едой и картографическими сценами.

Пример генерации от Veo 2

Пример генерации от Veo 2

Модель создает видео длительностью до 8 секунд в разрешении 4K, демонстрируя улучшенное понимание физики, динамики жидкостей и световых эффектов. Особое внимание уделено реалистичности движения и кинематографическим эффектам — разные линзы, освещение, управление камерой. Veo 2 доступна эксклюзивно через инструмент VideoFX, причем некоторые пользователи из листа ожидания уже получили доступ к тестированию.

Google Genie 2: игровой движок на стероидах

Еще одна новинка от DeepMind — Genie 2, ИИ-движок, способный генерировать бесконечное разнообразие интерактивных 3D-миров по одному изображению. В отличие от предшественника, который справлялся только с 2D-пространствами в духе Mario, новая версия создает полноценные трехмерные миры с реалистичной физикой, освещением и даже NPC.

Работает это впечатляюще просто: пользователь загружает картинку-промпт (можно даже концепт-арт), и Genie 2 превращает ее в играбельное окружение, которым можно управлять с помощью клавиатуры и мыши. Модель помнит все, что было показано ранее: если отвернуться от объекта и повернуться обратно, он останется на месте. А еще она может генерировать новый контент «на лету», поддерживая согласованность мира до минуты реального времени.

Особенно интересно, что в эти миры уже можно запускать ИИ-агентов. DeepMind продемонстрировала это на примере своего агента SIMA, который успешно выполнял команды вроде «открой синюю дверь» или «зайди за дом» в сгенерированных Genie 2 пространствах. 

Пример работы Genie

Пример работы Genie

Технически Genie 2 — это авторегрессивная латентная диффузионная модель, обученная на большом датасете видео. На данный момент доступна только базовая недистиллированная версия. Дистиллированная будет работать в реальном времени, но с некоторой потерей качества. И да, иногда модель выдает забавные сюрпризы: то призрак в саду появится, то персонаж вместо сноубординга решит заняться паркуром.

Google представляет PaliGemma 2

И последняя модель-новинка от DeepMind в нашем списке — новое семейство мультимодальных моделей PaliGemma 2, которые способны эффективно работать с текстом и изображениями. В линейку вошли три версии: 3B, 10B и 28B параметров, каждая из которых поддерживает три разрешения — от 224×224 до 896×896 пикселей. Всего доступно девять предобученных моделей с разными комбинациями размера и разрешения.

Технически PaliGemma 2 объединяет визуальный энкодер SigLIP-So400m с языковыми моделями Gemma 2. Модели уже протестированы на более чем 30 задачах: от простой генерации подписей к картинкам до сложного анализа рентгеновских снимков и распознавания нотных записей. И, что особенно приятно, все версии open-weight — можно свободно использовать для transfer learning и файнтюнинга.

Meta выпускает Llama 3.3: маленькая, но удаленькая

Meta представила новую версию своей языковой модели — Llama 3.3 70B, которая, несмотря на значительно меньший размер, показывает производительность на уровне своей «старшей сестры» Llama 3.1 405B. По словам Ахмада Аль-Дахле, вице-президента Meta по генеративному ИИ, такого результата удалось достичь благодаря новейшим методам пост-обучения, включая оптимизацию предпочтений в реальном времени (online preference optimization).

Модель обучена на 15 триллионах токенов и поддерживает восемь языков, включая английский, немецкий, французский и испанский. На ключевых бенчмарках, включая MMLU и HumanEval, новая Llama превосходит даже таких тяжеловесов индустрии как Gemini 1.5 Pro, GPT-4o и недавно выпущенную Nova Pro от Amazon. Особые улучшения заметны в области математики, программирования и следования инструкциям.

(Источник изображения)

Технически модель использует оптимизированную трансформер-архитектуру с Grouped-Query Attention для улучшенной масштабируемости при инференсе. Обучение проводилось с использованием supervised fine-tuning и RLHF для повышения полезности и безопасности. Модель уже доступна на Hugging Face с контекстным окном в 128К токенов, правда, для платформ с более чем 700 миллионами пользователей требуется специальная лицензия.

DeepSeek выпускает V3: китайский гигант на MoE

DeepSeek продолжает удивлять: компания представила новую версию своей языковой модели — DeepSeek V3, построенную на архитектуре Mixture-of-Experts (MoE). При общем размере в 685B параметров модель активирует только 37B для каждого токена, что делает её невероятно эффективной. На LiveBench она уже стала лучшей открытой моделью, уступая только экспериментальной gemini-exp-1206.

V3 превосходит не только Sonnet, но и GPT-4o по большинству бенчмарков. Особенно заметен отрыв в математике: на MATH-500 модель показывает 90.2%, а на AIME 2024 — 39.2%, что значительно выше результатов конкурентов. При этом обучение заняло всего 2.788M часов на GPU H800, без единого сбоя или отката.

Информация по бенчмаркам с сайта DeepSeek

Информация по бенчмаркам с сайта DeepSeek

Модель уже доступна на Hugging Face и поддерживает различные режимы запуска, включая FP8 и BF16 инференс.

DeepSeek вообще поражает своей продуктивностью: только за последний месяц компания выпустила DeepSeek 2.5, поисковую систему, DeepSeek VL2, DeepSeek-R1, и теперь V3. 

Интересные открытия

Genesis: симулятор физики в 4D

19 ведущих лабораторий мира, включая Nvidia, Stanford и MIT, представили Genesis — революционный движок для симуляции физики в 4D. И хотя звучит это как очередной игровой симулятор, на деле Genesis может стать прорывом в обучении роботов: он работает в 10–80 раз быстрее существующих GPU-ускоренных платформ вроде Isaac Gym или MJX.

Пример работы Genesis

Пример работы Genesis

Чтобы оценить масштаб улучшения, достаточно одного примера: обучение робота ходьбе в Genesis занимает всего 26 секунд на RTX 4090, тогда как в реальном мире этот процесс был бы в 430 000 раз дольше. А благодаря GPU-параллелизации движок может рассчитать обратную кинематику для 10 000 манипуляторов всего за 2 миллисекунды.

В основе Genesis лежат современные солверы MPM, SPH, FEM и PBD, решающие уравнения движения и деформации объектов. Поверх них работает модель, генерирующая среды, параметры объектов и сценарии взаимодействия. Это делает Genesis мощным инструментом для создания физически точных данных, которые сложно или невозможно собрать в реальности — особенно когда речь идет о мягких роботах. С точки зрения практического применения этот релиз может оказаться даже значимее, чем нашумевшие SORA и Veo.

Почему ChatGPT боится Дэвида Майера: история одного бага

Пользователи ChatGPT обнаружили забавную особенность: если спросить бота о некоем «Дэвиде Майере», он мгновенно зависает. Попытки обойти эту блокировку или схитрить не приносят результата — бот упорно отказывается даже упоминать это имя. 

Как выяснилось позже, Майер не одинок: ChatGPT также «боится» Брайана Худа, Джонатана Терли, Дэвида Фабера и нескольких других персон.

Расследование показало интересную связь: все эти люди так или иначе связаны с «правом на забвение». Например, Брайан Худ — австралийский мэр, который обвинил ChatGPT в ложном описании его как преступника, тогда как на самом деле он просто сообщил о преступлении. Джонатан Зиттрейн — юрист, специализирующийся на праве на забвение, а Гвидо Скорца входит в совет итальянского управления по защите данных.

А вот с Дэвидом Майером история особенная. Профессор Майер, преподававший историю драмы, столкнулся с тем, что его имя использовал в поддельных документах разыскиваемый преступник. Из-за этого профессору даже запретили путешествовать, и он постоянно боролся за то, чтобы его имя не ассоциировалось с террористом. Похоже, что у ChatGPT есть специальный список имен, требующих особого обращения, и этот список каким-то образом был поврежден неисправным кодом.

Hugging Face запускает бесплатный курс по файнтюнингу

Hugging Face представили открытый практический курс по настройке языковых моделей. В программе — все самые актуальные техники: от базового файнтюнинга с учителем до современных методов DPO и ORPO. Особенность курса в том, что все примеры построены на малых моделях серии SmolLM2, которые можно запустить даже на домашнем компьютере.

(Источник изображения)

Курс разбит на восемь модулей, охватывающих разные аспекты настройки моделей: от обучения следованию инструкциям до работы с мультимодальными моделями и синтетическими датасетами. Каждый модуль включает практические задания, которые можно выполнить без дорогостоящего оборудования или платных сервисов.

Интересно, что курс развивается по принципу open source: любой участник может внести свой вклад через pull request, добавив собственные примеры или улучшив существующие материалы. Находка для тех, кто хочет погрузиться в практический AI без лишних затрат.

За 128 лет вычисления усовершенствовались в 1,000,000,000,000,000,000,000 раз

В сети появился обновленный график закона Мура, демонстрирующий поразительный прогресс в области вычислений. За последние 128 лет производительность на доллар выросла в секстиллион раз (на секундочку, число с 21 нулем). Что особенно интересно — этот рост происходил независимо от состояния экономики, задолго до того, как сооснователь Intel Гордон Мур заметил эту тенденцию в 1965 году.

График показывает, как менялись технологии: от первых интегральных схем до современных ASIC. Особенно заметен недавний переход лидерства от GPU (зеленые точки) к ASIC (желтые и оранжевые). Архитектура NVIDIA Hopper стала своего рода переходным видом — это уже не совсем GPU, но еще не полноценный ASIC, оптимизированный под 8-битные вычисления для AI-моделей.

Авторы исследования считают этот график «самым важным из когда-либо созданных». По их мнению, каждая индустрия в конечном счете станет информационным бизнесом. Например, через 20 лет конкурентоспособность фермера будет зависеть не от качества работы, а от того, как он использует информацию — от спутниковых снимков для оптимизации полей до генетического кода семян. И такие изменения ждут все отрасли по мере того, как IT проникает в экономику.

Новые инструменты

Для работы с контентом

Meta Video Seal: защита от дипфейков 

Meta выпустила открытый инструмент для водяных знаков на сгенерированных ИИ видео, устойчивый к распространенным видеоэффектам и сжатию. Чтобы продемонстрировать его эффективность на фоне других решений для маркировки контента, компания выложила на GitHub бенчмарк Omni Seal Bench. 

Процесс размещения цифровых водяных знаков для видео (источник изображения)

Процесс размещения цифровых водяных знаков для видео (источник изображения)

Midjourney: быстрая кастомизация 

В Midjourney обновили систему настройки моделей: теперь для эффективной персонализации требуется меньше оценок изображений, появилась поддержка мудбордов и возможность создавать несколько профилей моделей.

Regenbogen: навигатор цветовых палитр 

Инструмент для просмотра цветовых палитр в различных R-пакетах с возможностью подбора оптимальной палитры для конкретного типа графика. Включает детальную информацию и готовый код для копирования.

HunyuanVideo: видеогенерация от Tencent

Tencent выпустила опенсорс AI-модель для продвинутой генерации видео с инновационным видео-аудио синтезом и эффективными техниками масштабирования. Модель превосходит несколько коммерческих аналогов по качеству визуала и движения.

MarkItDown: конвертация в Markdown 

Опенсорс-библиотека от Microsoft для конвертации широкого спектра форматов файлов (PDF, PowerPoint, Word, Excel, HTML, изображения, аудио) в Markdown.

Для разработчиков

ensure: умное тестирование для R 

Новый R-пакет, предоставляющий возможности юнит-тестирования с использованием LLM.

Пример работы ensure

Пример работы ensure

skimpy: продвинутая статистика

Инструмент для получения расширенной статистики о переменных в pandas или Polars фреймах прямо в консоли или интерактивном окне Python. Улучшенная версия pandas df.describe().

Replit Assistant: AI-помощник для всех 

Обновленный AI-ассистент и агент от Replit, теперь доступный всем пользователям. Позволяет модифицировать код и разрабатывать ПО с помощью естественно-языковых промптов, использует новую модель ценообразования на основе чекпойнтов.

Иллюстрация работы Replit

Иллюстрация работы Replit

Devin: AI-инженер как сервис 

Cognition Labs запустила Devin — ИИ-инженера, способного выполнять сложные задачи программирования. Доступен для индивидуальных разработчиков и команд по подписке, с дополнительными опциями для предприятий.

Для удобства

Project Mariner: веб-серфинг от Google 

Google представила AI-агента, способного взаимодействовать с веб-страницами от имени пользователя. Агент на базе Gemini может управлять браузером Chrome, заполнять формы и выполнять задачи вроде составления списка покупок или поиска авиабилетов. Правда, данные платежных карт он пока не заполняет.

Reddit Answers: AI-помощник для поиска 

Reddit с некоторым опозданием, но наконец анонсировал AI-интерфейс для поиска информации по всем обсуждениям платформы. Система предоставляет структурированные ответы со ссылками на релевантные сообщества и посты, позволяя легко углубляться в интересующие темы.

DataJourney: управление данными 

Опенсорс тулкит для управления данными с акцентом на дизайн, упрощающий рабочие процессы с помощью модульных, воспроизводимых решений.

xlDuckDb: SQL в Excel 

Интеграция DuckDB с Excel, позволяющая выполнять SQL-запросы прямо в таблицах с выводом результатов в обычные ячейки.

Свежие исследования

Заканчиваем подборкой исследований на разные темы, чтобы вы не заскучали на новогодних праздниках.

Anthropic об агентных системах: руководство к действию 

О чем: Anthropic представили практическое руководство по созданию эффективных AI-агентов. Исследователи разграничивают агентов и воркфлоу, описывают базовые паттерны построения (prompt chaining, routing, parallelization) и подчеркивают важность простоты и прозрачности в дизайне агентных систем.

Ссылка на исследование

Игра в донора: тест на кооперацию 

О чем: DeepMind провели эксперимент по оценке способности AI-моделей к сотрудничеству через «Игру донора». Только Claude 3.5 Sonnet показал стабильные социальные паттерны, в то время как Gemini и GPT-4o предпочли эгоистичные стратегии даже при введении штрафов.

Ссылка на исследование

Процесс «Игры донора» с культурной эволюцией. В первой генерации создаются 12 агентов с помощью стратегии. Они играют 12 раундов игры, где выбирают, кому сделать пожертвование. 50% агентов с лучшими результатами переходят в следующую генерацию. Из них инициализируются 6 новых агентов, которые используют выжившие стратегии. Процесс повторяется 10 раз.

Процесс «Игры донора» с культурной эволюцией. В первой генерации создаются 12 агентов с помощью стратегии. Они играют 12 раундов игры, где выбирают, кому сделать пожертвование. 50% агентов с лучшими результатами переходят в следующую генерацию. Из них инициализируются 6 новых агентов, которые используют выжившие стратегии. Процесс повторяется 10 раз.

Switti: новый подход к генерации изображений 

О чем: Yandex Research представили модель, работающую в 7 раз быстрее диффузии при сопоставимом качестве. Switti использует авторегрессивный подход, прогнозируя не следующий токен, а следующий масштаб, что позволяет генерировать изображения за 0.1 секунды.

Ссылка на исследование

Сократовское обучение для AI 

О чем: DeepMind предложили метод Boundless Socratic Learning, где внешний учитель заменяется внутренним взаимодействием агентов через «сократовские игры». Подход включает систему с главным критиком и прокси-ревард моделью для дополнительного обучения.

Ссылка на исследование

cDPO: критические токены в alignment 

О чем: Tencent AI Lab и университет Цинхуа представили новый метод alignment’а, основанный на поиске критических токенов в цепочках рассуждений. Метод cDPO автоматически определяет токены, влияющие на качество ответов, и использует их для оптимизации модели.

Ссылка на исследование

Влияние критических токенов на траектории рассуждений. Токен «owed» приводит к неправильным логическим умозаключениям, и, соответственно, — к ошибочным ответам. Напротив, декодирование альтернативных токенов, таких как «paid», значительно повышает точность рассуждений, позволяя модели выдавать правильные ответы. 

Влияние критических токенов на траектории рассуждений. Токен «owed» приводит к неправильным логическим умозаключениям, и, соответственно, — к ошибочным ответам. Напротив, декодирование альтернативных токенов, таких как «paid», значительно повышает точность рассуждений, позволяя модели выдавать правильные ответы. 

Учебник по reinforcement learning от Google DeepMind 

О чем: Кевин Мерфи выпустил компактное 114-страничное пособие по обучению с подкреплением, охватывающее все ключевые концепты — от базовых алгоритмов вроде SARSA до применения RL в современных LLM и достижении AGI.

Ссылка на исследование

GenCast: AI-прогноз погоды от DeepMind 

О чем: DeepMind представили модель GenCast, превосходящую традиционные системы прогнозирования погоды. Используя исторические данные, модель генерирует более точные и быстрые прогнозы, особенно для экстремальных погодных явлений.

Ссылка на исследование

INTELLECT-1: глобальный эксперимент 

О чем: PRIME Intellect выпустили первую 10B-параметровую модель, обученную совместными усилиями по всему миру. Проект демонстрирует потенциал децентрализованного, community-driven обучения с инновациями в распределенных фреймворках.

Ссылка на исследование

JetFormer: унифицированная генерация 

О чем: Представлен авторегрессивный декодер-трансформер, объединяющий генерацию изображений и текста без предобученных компонентов, достигая конкурентного качества в text-to-image задачах.

Визуализация обучения JetFormer с принуждением учителя

Визуализация обучения JetFormer с принуждением учителя

Ссылка на исследование

NAMMs: эволюция трансформеров 

О чем: Neural Attention Memory Models улучшают эффективность трансформеров через обучение управлению памятью, что позволяет лучше работать с контекстом и осуществлять zero-shot перенос.

Ссылка на исследование

Structured 3D Latents: новый подход к 3D 

О чем: Метод использует унифицированное структурированное латентное представление для создания качественных 3D-ассетов с гибкими форматами вывода и возможностями локального редактирования.

Ссылка на исследование

Автоматический анализ дефектов ПО 

О чем: Исследование определяет ключевые аспекты применения AI для обнаружения программных дефектов, используя качественный, описательный и неэкспериментальный подход.

Ссылка на исследование

AI в геонауках 

О чем: Обзор того, как AI трансформирует понимание земных систем, включая атмосферу, литосферу, гидросферу и криосферу. Исследование показывает беспрецедентное ускорение в понимании взаимодействий между различными сферами Земли.

Ссылка на исследование

Наблюдения, гипотезы и прогнозы в области геонаук с помощью ИИ

Наблюдения, гипотезы и прогнозы в области геонаук с помощью ИИ

Практические аспекты агентных систем 

О чем: Работа предлагает практические рекомендации по созданию и развертыванию надежных LLM-агентов, основываясь на опыте исследовательского сообщества.

Ссылка на исследование

Заключение

Декабрь наглядно показал, что индустрия ИИ движется к более зрелому этапу развития. На смену гонке за размером моделей приходит поиск эффективных решений и практического применения технологий. Особенно радует, что многие достижения становятся доступными через открытые реализации, позволяя исследователям и разработчикам по всему миру участвовать в развитии технологий.

На этом у нас все! Спасибо за прочтение и с наступающим Новым годом!🎄


ссылка на оригинал статьи https://habr.com/ru/articles/867760/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *