Нейросети для создания презентаций — что умеют и можно ли собрать свой сервис самому

от автора

Сервисов для генерации презентаций на нашем рынке достаточно много. И мы решили разобраться, что реально есть на рынке, чем они отличаются технически и в каком сценарии каждый из них оправдан.

Перебирать все подряд смысла нет. Мы выбрали четыре сервиса — два российских, ориентированных на местную аудиторию, один западный как высокая планка качества, один как вариант для тех, кто уже в корпоративной среде. Плюс — разбираем сценарий ручной сборки некоторых сценариев.

Итак, прежде чем идти по сервисам — давайте попробуем понять, как все это вообще работает. 

Сколько моделей используется на самом деле

Когда вы нажимаете «сгенерировать презентацию» — запускается целый конвейер нейросетей. Собственно, где каждый этап и решает свою задачу.

Языковая модель (LLM) — первый и самый важный этап. Принимает текст запроса, тему или загруженный документ, и генерирует структуру. Сколько слайдов, какие заголовки, что именно написать на каждом. Здесь определяется логика повествования — будет ли презентация связной или окажется набором тезисов без внутренней аргументации. 

Да, небольшой нюанс — LLM генерирует текст для слайдов немного иначе, чем для чата. Слайд требует компрессии — смысл в 15-20 словах, а не в целом абзаце. Поэтому, естественно, тут важен стартовый внутренний оптимизированный промпт в самой архитектуре сервиса.

Генератор изображений — второй этап. Для каждого слайда нужна иллюстрация. Одни сервисы используют диффузионные модели и генерируют картинку точно под контекст слайда. Другие — семантический поиск по стоковым библиотекам. Т.е., берут заголовок слайда и ищут наиболее релевантное стоковое изображение. Генеративные модели дают более точное попадание по смыслу, но периодически галлюцинируют — особенно на текстовых элементах внутри картинки. Стоковый поиск надежнее, но часто выдает очевидные и заезженные фотографии.

Шаблонизатор — третий слой. Самый простой и часто недооцененный. Это не нейросеть — это система правил и дизайн-шаблонов. Куда поставить заголовок, как расположить текст и изображение, какие отступы, шрифты, цветовая схема. 

Поверх этого — опциональный RAG-слой. Перед генерацией модель обращается к внешним источникам и подтягивает актуальные данные. Без него знания ограничены датой обучения модели. С ним — актуальность выше, но и, соответственно, скорость и стоимость запроса растут.

КЭМП, который ex КАМПУС

Kampus.ai — российский генератор презентаций, ориентированный на аудиторию в сфере образоввания. Позиционирует себя как ИИ-помощник для студентов и преподавателей. Генерирует всякие доклады, рефераты, аналитические отчеты, учебные презентации по 160+ дисциплинам. Аудитория, понятное дело, довольно широкая. Соответственно — и продукт универсален.

Технологии компания раскрывает частично. Официально заявлена GPT-архитектура как основа с дополнительными специализированными слоями под предметные области. По их словам, под разные дисциплины активируются разные модели — по сути, мультиагентная схема с маршрутизацией по тематике. Ну тут, если быть откровенным — все логично. Нейросеть, которую намеренно дообучили на корпусе по химии дает другое качество вывода, чем универсальная модель. Насколько глубоко это реализовано — можно проверить только качеством результатов тестирования.

Разбираемся подробнее.

Итак, тут у нас предложение — сделать презентацию объемом до 20 слайдов из темы, файла или ссылки, отредактировать структуру перед финальным рендером, экспортировать в PPTX. Оплата рублями.

Как устроен ввод. На главной странице генератора — поле для темы. В это поле вводите и тему, и все дополнительные вводные. «Климатические изменения и Арктика» — правильно. «Климатические изменения и Арктика, 12 слайдов, синий цвет, побольше графиков» — тоже хорошо. Дополнительные инструкции не мешают внутренней обработке запроса, т.к. сервис настраивает параметры еще и на следующем шаге.

Есть и альтернативные режимы ввода. Загрузка файла (например, готового реферата или статьи), вставка текста, ссылка на источник. Если загружаете файл — сервис сроит структуру на основе вашего контента, а не придумывает с нуля. Очень даже удобное решение, т.к. на выходе — структурированный конспект существующего документа, а не генерация по теме вслепую.

Настройка перед финальным рендером. После первичного анализа сервис показывает оглавление — список слайдов с заголовками. Здесь правите структуру — убираете ненужные блоки, меняете порядок, добавляете свои пункты. На этом же шаге и количество слайдов, объем текста на экране (тезисно или развернуто), стиль повествования, дизайн-тема.

Качество генерации. Мы сгенерировали каждым исследуемым сервисом по 10 презентаций. Сильная сторона Кэмпа — это, что вполне логично, предметные академические темы. История, право, биология, экономика — там, где структура устоялась и модель видела тысячи похожих текстов при обучении. Текст на слайдах выходит связным, заголовки логичны, аргументация последовательна (особенно — в закрепленном примере, хех).

Слабая сторона — все, что требует специфичного контекста (но, если честно, данный пункт будет применим ко всем моделям). Т.е., очень нишевые темы — нужно дополнительно перепроверять.

Редактор и экспорт. На выходе — онлайн-редактор и PPTX. В браузерном редакторе: правка текста, замена изображений, перестановка блоков. PPTX открывается в PowerPoint или Google Slides без потери форматирования.

Сократик

Сократик — российский ИИ для создания презентаций, на рынке с 2024 года. Очень притягивающее УТП — «уникальная презентация за минуту». Целевая аудитория та же, что у КЭМП — студенты и люди с задачей получить быстрый результат. Минимум шагов, минимум настроек, максимум скорости.

По технологиям раскрыты некоторые базовые составляющие: языковая модель на базе Яндекс GPT (подтверждается партнерством с Яндексом и полученным грантом), инфраструктура на Яндекс Клауде. Внутри работает собственный AI R&D, который раcсматривает в том числе генерацию через графы знаний — это подход, при котором структура контента строится не как линейная последовательность блоков, а как семантическая сеть связанных понятий. Как именно это влияет на конечный результат — в интерфейсе не видно, но идея технически интересная.

Маркетологи нам говорят, что создать презентацию с помощью нейросети в Сократике — можно за секунды. Ну, давайте проверим.

Интерфейс. Минималистичный до предела. Поле для промпта и кнопка. После первоначальной генерации сервис показывает структуру, где можно скорректировать оглавление и состав слайдов. То есть шаг контроля всё-таки есть. Как и у КЭМП.

Промпт имеет значение. В отличие от КЭМП, здесь промпт — важный инструмент управления. Чем подробнее опишете задачу, тем точнее результат. «Презентация о влиянии удаленной работы на продуктивность, для HR-аудитории, акцент на цифры и исследования, 8 слайдов» — дает другой результат, чем просто «удаленная работа». В примере ниже — мы не уточнили про актуальность дат и получили пункт про «Динамику роста инвесторов на рынке РФ 2017-2023». В 2026 году.

Качество генерации. Текст на слайдах — тезисный, без излишней воды. Графические элементы подбираются по контексту слайда, не случайно. Дизайн базовый, но шаблонов много. Для учебной презентации или рабочего брифинга — отлично закрывает задачу.

Публичное выступление, питч, клиентская презентация — здесь дизайнерских возможностей меньше, чем хотелось бы. Шаблонов много, но не особо и разнообразные. И не совсем понятно — что именно должно занимать минуту. Весь процесс или генерация. Генерация — да, быстрая. Но не минута.

Экспорт. Скачивается сразу после генерации. Редактор есть — можно поправить текст и переставить элементы.

Gamma (gamma.app)

Вот мы и подошли к зарубежному флагману. Gamma — американский стартап из Сан-Франциско, запустился в 2022 году. К 2026-му — более 100 миллионов пользователей. И тут у нас позиционирование уже нестандартное. Не просто нейросеть для создания презентаций, а инструмент для живых документов. За этим стоит реальная архитектурная идея — контент хранится в блоках, а не в слайдах, и один набор блоков отображается в разных форматах.

Технологии Gamma не раскрывает, что, понятное дело, стандартная практика для B2C-продукта. Известно следующее: генерация изображений через партнерские диффузионные модели, текст — через LLM с надстройкой под структурирование в блоки. Gamma не специализируется по темам, не делает дообучение под академические дисциплины. Ставка — на качество шаблонизатора, гибкость редактора и UX. 

Есть четыре режима ввода (генерация по промпту, по готовому тексту, создать из шаблона и импорт из файла/url), ИИ-ассистент внутри каждого блока, встроенная генерация изображений, аналитика просмотров по слайдам, три формата вывода (презентация, документ, веб-страница). Бесплатный план с ограниченными генерациями, платный от $8 в месяц. Оплата — иностранная карта или крипта.

Карточный формат вместо слайдов. Gamma работает не со слайдами в традиционном понимании, а с картами — т.е., контентными блоками. Один набор карт можно отобразить в нескольких режимах. Как презентацию (полноэкранные слайды), как документ для чтения или как веб-страницу по ссылке. Создаете контент один раз, выбираете формат под аудиторию — это очень даже практично, когда один материал нужен в разных каналах.

При генерации с нуля Gamma сначала показывает структуру — заголовки и подзаголовки. Редактируете до финального рендера: убираете ненужное, добавляете свое.

После генерации каждый блок доступен для контекстного редактирования. Выделяете элемент и запрашиваете: «сократи вдвое», «переформулируй более формально», «добавь три тезиса по исследованиям». Ассистент работает в контексте конкретного блока, видит его содержание. Это не плагин сверху — это встроенный инструмент.

Изображения. Генерация картинок встроена в редактор. Не нужно переключаться в Midjourney или Nano Banana — описываете нужное изображение прямо в интерфейсе, оно появляется на слайде. 

Аналитика. Если отправляете презентацию по ссылке — видите, сколько времени конкретный человек провел на каждом слайде. Для питчей и переговоров это очень даже информативно. Понятно, что зацепило, что проскочили.

Качество генерации. Скажем сразу, шаблоны тут хорошо продуманы. Типографика нестандартная. Компоновка элементов — тоже нестандартная, как для автогенератора. Текст лаконичен по умолчанию. Для профессионального использования значительно ближе к приемлемому без ручной правки.

Ограничения. Но Гамма — это иностранный сервис. Есть бесплатные генерации, но, по сути, тоже платный — от $8 в месяц. Увы, оплата иностранной картой или крипто. Для нашего пользователя (особенно при учете целевой аудитории) — это барьер.

Google Slides + Gemini

Google Slides с Gemini — не автогенератор в привычном смысле, и это важно зафиксировать. Создать полную презентацию с нуля ИИ здесь не попросишь — Google даже не думает конкурировать с Gamma или КЭМП в этом сценарии. Slides — корпоративный редактор с историей аж с 2006 года, Gemini — ИИ-слой, добавленный поверх него в 2023-2024 году. 

По технологиям Google прозрачнее остальных. В силу размера компании и публикаций — Gemini Pro/Ultra задокументированы в мануалах, Nano Banana как нативная модель для изображений тоже. 

Что Gemini умеет в Slides. Тут у нас не только генерация изображений по текстовому запросу, но и генерация всего слайда целиком.

Интеграция с живыми данными — очень важный пункт. Например, данные из Google Sheets вставляются напрямую. Для квартальных отчетов, операционных дашбордов, командных презентаций с актуальными цифрами — это большое преимущество.

Стоит отметить, что Google Slides изначально — многопользовательский инструмент с историей версий, гранулярными правами доступа и комментариями. Ни один из автогенераторов не конкурирует здесь.

Доступность. Gemini включен в Google Workspace Business Standard ($12/пользователь/месяц) и выше. Для российского корпоративного пользователя — к сожалению, вопрос решаемый через Workspace с зарубежным биллингом.

Что делать, когда автогенерация презентации — не подходит

Стоит признать, что для питча инвесторам, стратегической сессии или публичного доклада с данными — логичнее держать контроль над каждым слайдом. Вот тут ИИ-презентация выступает как черновик.

Итак, что мы делаем. Открываете ChatGPT или любую LLM и составляете структуру через промпт. «Разработай структуру питча SaaS-продукта для b2b, 12 слайдов, аудитория — венчурные инвесторы. Для каждого слайда — заголовок и три конкретных тезиса с местом для данных.» Получаете скелет, редактируете под себя. Вставляете свои цифры, убираете нерелевантное.

Дальше — Beautiful.ai или Canva. Beautiful.ai строит макет слайда под количество добавленного контента автоматически. Добавили четвертый пункт — макет перестроился, ничего не съехало. Canva — шире по шаблонам, проще в использовании, есть бесплатный план с достаточным функционалом.

А как собрать самому? Три пути и что для каждого потребуется

Если хочется развернуть собственный генератор, а не зависеть от чужого сервиса — варианта у нас три. API стороннего провайдера, локальная модель на своем железе, или Google Colab как бесплатный промежуточный вариант. Разберем каждый конкретно.

Путь 1: API + python-pptx

Самый быстрый старт — никакого железа, только Python и ключ API. Отправляете тему в LLM, получаете структуру презентации в формате JSON, передаете в python-pptx, которая собирает PPTX-файл. Все. Рай для вайбкодера.

Из доступных API на апрель 2026 года: OpenAI GPT-5.4 — $2.50 за 1M входных токенов, $15 за 1M выходных (это топ для сложных задач). Для большинства задач дешевле взять GPT-5.4 mini — $0.75/1M вход, $4.50/1M выход, или GPT-5.4 nano — $0.20/$1.25 для простых структурных задач. Anthropic Claude Opus 4х — топ линейки, есть и Haiku 4.5 для быстрых/дешевых задач. Google Gemini 3.1 Pro (Preview) — мощная модель через Google API, для рабочих задач — даже Gemini 2.5 Flash вполне такой стабильный вариант. Все принимают оплату картой — без российской карты идете через крипту или агрегаторы.

Сразу важный технический момент — структурированный вывод. Без этого LLM будет возвращать текст в произвольном формате, который придется парсить. OpenAI и Anthropic поддерживают JSON.  Передаете схему ответа, модель гарантированно возвращает JSON нужной структуры. Промпт при этом значительно проще, а парсинг — надежнее.

Для изображений самый актуальный вариант на 2026 — Gemini 3.1 Flash Image (она же — Nano Banano🍌, она же gemini-3.1-flash-image-preview). Нативная генерация изображений прямо через Gemini API, цена привязана к тарифу Flash. Поддерживается более дешевая и стабильная — Gemini 2.5 Flash Image (gemini-2.5-flash-image). Imagen 4 — отдельная модель для изображений от Google. Есть еще и DALL-E 3 ($0.04 за 1024×1024). Остается рабочим если уже на OpenAI. Изображения кодируете в base64 и вставляете в слайды через python-pptx напрямую.

Считаем экономику. Презентация на 10-12 слайдов с изображениями обходится в $0.15-0.50 за генерацию в зависимости от модели и количества картинок. Код — 150-200 строк Python. Дизайн ограничен заготовленным PPTX-шаблоном, который python-pptx использует как основу. Программировать такого уровня историю — можно запросто с помощью нейросети.

Путь 2: локальная модель

Самый дорогой по итогу вариант. Для работы оффлайн или без привязки к внешним API — ставим нейросеть локально на своем железе. Здесь главное — правильно соотнести класс модели с доступным железом. Разберем по уровням актуальных на 2026 год моделей.

~9B параметров (Qwen3.5 9B, Qwen3.6 MoE с ~3B активными параметрами). Qwen3.5 9B в Q4 — 5-6 GB VRAM, запускается на RTX 4060 (8 GB), Apple M1/M2 с 16 GB. Qwen3.6-35B-A3B — MoE-модель: 35B суммарно, но активных в инференсе ~3B, по памяти поведение как у 3B-модели (~2-3 GB VRAM в Q4) при качестве 35B. Через Ollama: ollama run qwen3.5:9b. Обе модели поддерживают думающий режим.

27-32B параметров (Qwen3.6 27B dense, Qwen3.5 27B). В Q4 — 14-18 GB VRAM, нужна RTX 3090/4090 (24 GB) или M2 Max (32+ GB унифицированной). Это практичный потолок для одной карты при хорошем качестве.

Llama 4 Scout — MoE от Meta апрель 2025. 109B суммарно, 17B активных. В Q4 помещается в 24-32 GB VRAM — RTX 4090 или два 3090. Качество при тех же требованиях к памяти заметно выше, чем у dense 27B. Maverick (400B суммарно) — уже уровень A100/H100.

70B+ (Qwen3.5 72B, dense). В Q4 — 40-45 GB. Два RTX 4090 с tensor parallelism через llama.cpp или vLLM. 

Для изображений локально: Stable Diffusion XL через ComfyUI — 8 GB VRAM минимум при батче 1. FLUX.1 schnell (2024-2025) — качественная альтернатива SDXL, 12 GB VRAM для быстрой версии. ComfyUI удобнее Automatic1111 для интеграции через API — поднимается локальный сервер, принимает JSON-workflow, возвращает изображение.

Путь 3: Google Colab

Бесплатный вариант для тех, у кого нет нужного железа. Google выдает T4 GPU с 16 GB VRAM бесплатно, но с ограничениями.

На бесплатном T4 запускается: Qwen3.5 9B в Q4 (~5 GB), Qwen3.6-35B-A3B в Q4 (~2-3 GB активной памяти — MoE-архитектура помогает), SDXL/FLUX.1 schnell для изображений. Qwen3.6 27B dense (~14-18 GB) на T4 не влезает — нужен A100 (40 GB), доступный только на платных тарифах.

Ограничения бесплатного тарифа, естественно, есть. GPU не гарантирован — у Google типы GPU и доступность меняются без уведомления, в пиковые часы можно получить только CPU. Максимальное время сессии — 12 часов. По нашей практике — сессия обрывается через 30-90 минут простоя, но рассчитывать на конкретную цифру не стоит. Данные в файловой системе сессии не сохраняются между запусками — только через Google Drive.

В отличие от локального Ollama, где модель скачивается один раз и кешируется, в Colab хранилище временное. Каждую сессию скачиваете веса с HuggingFace Hub — 3-5 минут для 9B модели. Дальше запускаете через llama.cpp или transformers напрямую без Ollama. Скрипт генерирует структуру, python-pptx собирает PPTX, сохраняете в Drive. При следующей сессии — скачиваете снова. Неудобно, но бесплатно.

Тарифы: Colab Pro ($9.99/мес) — больше возможностей, приоритет на более мощные GPU. Colab Pro+ ($49.99/мес) — до 24 часов непрерывного выполнения, фоновое выполнение без открытой вкладки. Гарантированного железа нет ни на одном тарифе — для этого нужен GCP Marketplace или Colab Enterprise уже на другом уровне затрат.


Итак. Быстро получить готовую презентацию от нейросети — можно. Все четыре (на самом деле — их гораздо больше, но функционалу они схожи с описанными выше) сервиса с этим справляются. Но следует понимать, что, по своей сути — это всегда будет шаблон. И если ваша задача — максимально точно передать материал конкретной аудитории, с живыми данными и выверенной аргументацией, то такой автогенератор даёт черновик. А вот финал — мы собираем уже руками.

Лично автору данной статьи — ближе формат Google Slides. Кому важна скорость без лишних шагов — Кэмп. Кому нужен дизайн и гибкость (и есть желание заморочиться с зарубежным сервисом) — Gamma. Кому нравится разобраться как устроено изнутри и развернуть своё — три пути выше в помощь.

Рынок движется быстро. Сервисы, которые год назад выдавали откровенно слабый результат, сегодня уже рабочие. Через год картина снова изменится. Пока что (и к большой радости) инструменты ускоряют, но голову не заменяют.

ссылка на оригинал статьи https://habr.com/ru/articles/1027066/