LLM.txt – нужен или нет? Польза или вред? Разбор на реальных данных

Ноль. Именно столько раз GPTBot, ClaudeBot и PerplexityBot обратились к файлу llms.txt на тысяче доменов за месяц. Не «мало». Не «редко». Ноль. Эти цифры – не из теоретической статьи, а из аудита CDN-логов, который провёл Флавио Лонгато, LLM Optimization / SEO Strategist в Adobe. И они рушат красивую историю о «новом стандарте для AI-SEO».

Я Пётр Гришечкин, эксперт в области SEO. Последние 15 лет я проектирую системы кратного роста трафика для крупнейших сайтов. И последнее время пишу всякие околоSEO статьи – заходите в мой канал.

Сегодня разберём, стоит ли тратить время на llms.txt, что реально показывают серверные логи и куда направить усилия, чтобы AI-системы действительно видели ваш контент.

Что такое llms.txt и откуда он взялся

llms.txt – это предлагаемый (подчеркну: именно предлагаемый, а не принятый) стандарт. Файл в формате Markdown, который размещается в корне сайта по аналогии с robots.txt. Внутри – список важных страниц с кратким описанием каждой.

Идея проста: дать нейросетям «чистый» контент без HTML-мусора. Вместо того чтобы парсить сложную вёрстку с навигацией, сайдбарами, попапами и рекламой, LLM-бот получает аккуратный Markdown с указанием, что на сайте важно, а что – нет.

Автор концепции – Джереми Ховард из Answer.AI.

Вот как выглядит типичный llms.txt:

# Example Corp> Краткое описание компании и сайта## Docs- [API Reference](https://example.com/docs/api): Полная документация REST API- [Getting Started](https://example.com/docs/start): Руководство для новых пользователей## Blog- [Release Notes v3.0](https://example.com/blog/v3): Основные изменения в новой версии

Выглядит логично и аккуратно. Проблема только одна: никто из тех, для кого этот файл создан, его не читает.

Данные вместо гипотез: аудит 1000 доменов

Теория – это одно. Серверные логи – другое. Флавио Лонгато провёл аудит CDN-логов за 30 дней на 1000 доменах Adobe Experience Manager. Результаты, его же словами, – брутальные.

Сводная таблица обращений к llms.txt

Бот	Обращения к llms.txt	Комментарий
GPTBot	0	Полное отсутствие
ClaudeBot	0	Полное отсутствие
PerplexityBot	0	Полное отсутствие
Google Desktop Crawler	~95% всех хитов	Google проверяет всё подряд, это не «поддержка»
BingBot	7 запросов	Только на одном домене из тысячи
OpenAIBotSearch	10 запросов	Минимальная активность
SEO-инструменты (Semrush и др.)	Значительная доля	Не имеют отношения к LLM

Разберём эти цифры детально, потому что дьявол – в интерпретации.

Google Desktop Crawler – 95% хитов

На первый взгляд может показаться: «Ого, Google активно использует llms.txt!» Нет. Google Desktop Crawler обходит всё, что находит на сайте. Каждый новый файл, каждый путь, каждый URL. Если вы положите в корень файл banana.txt, Googlebot его тоже скачает. Это не поддержка стандарта – это стандартное поведение краулера.

SEO-инструменты – заметная доля

Semrush, Ahrefs и аналогичные сервисы добавили проверку наличия llms.txt в свои аудиты. Логика понятна: если клиенты спрашивают – нужно показать галочку. Но это создаёт ложное впечатление, что файл «работает», хотя его проверяют не AI-системы, а инструменты для вебмастеров.

LLM-боты – ноль

Тысяча доменов. Тридцать дней. Ноль обращений от нейросетей. GPTBot – ноль. ClaudeBot – ноль. PerplexityBot – ноль.

Этого достаточно, чтобы перейти от хайпа к фактам.

Почему LLM-боты игнорируют llms.txt

Здесь важно понять техническую сторону. LLM-системы работают не так, как поисковые краулеры.

Как получают данные поисковые краулеры

Googlebot, BingBot и подобные обходят сайт по ссылкам, скачивают HTML, индексируют контент. Они уважают robots.txt, следуют sitemap.xml, проверяют новые файлы в корне. Это их работа – находить и каталогизировать всё.

Как получают данные LLM-системы

Большие языковые модели обучаются на массивных датасетах, собранных заранее. Common Crawl, лицензированные базы данных, партнёрские соглашения с издателями. Когда ChatGPT или Claude отвечают на вопрос, они не ходят в реальном времени на ваш сайт проверять llms.txt.

Есть исключения: Perplexity и поисковые режимы ChatGPT действительно обращаются к сайтам в момент генерации ответа. Но даже они используют стандартный HTML-парсинг, а не специализированный Markdown-файл.

Ни один крупный игрок не подтвердил поддержку

Ни OpenAI, ни Google, ни Anthropic, ни Яндекс не заявляли о поддержке llms.txt. Нет документации. Нет анонсов. Нет даже намёков в официальных гайдлайнах для вебмастеров.

Инженер Google в публичном обсуждении сравнил llms.txt с мета-тегом keywordsтехнологией, которая когда-то казалась важной, но уже много лет полностью игнорируется поисковыми системами.

Польза или вред? Честная оценка

Раз мы заявили этот вопрос в заголовке давайте ответим прямо.

Что llms.txt НЕ даёт

Не улучшает позиции в AI-ответах. Ни одна AI-система не использует этот файл для ранжирования.
Не заменяет Schema.org. Структурированные данные (микроразметка в формате JSON-LD) это проверенный инструмент. llms.txt нет.
Не ускоряет индексацию. LLM-ботам он не нужен, а для поисковых краулеров есть sitemap.xml.
Не решает проблему «грязного» HTML. Если ваш HTML плохой, лучше исправить HTML, а не создать параллельный файл.

Что llms.txt может дать (теоретически)

Минимальный вред. Файл не ломает ничего. Он просто лежит в корне. Если у вас есть CI/CD-пайплайн, генерирующий его автоматически, то накладные расходы близки к нулю.
Страховка на будущее. Возможно (только возможно), какие-то AI-системы начнут его поддерживать. Но строить стратегию на «возможно» это сомнительный ход.
Документация для себя. Иногда полезно иметь Markdown-карту ключевых страниц. Но для этого не нужен «стандарт».

Вердикт

llms.txt не вреден сам по себе. Он просто бесполезен. Время, потраченное на его создание и поддержку, лучше инвестировать в то, что реально работает.

Что реально влияет на AI-видимость сайта

Вместо очередного Markdown-файла в корне, есть конкретные задачи, которые напрямую влияют на то, как AI-системы воспринимают ваш контент.

Чистый семантический HTML

Это основа основ, но удивительно много сайтов до сих пор грешат div-супом.

Плохо:

<div class="article-wrapper">  <div class="title-block">    <div class="heading">Как настроить сервер</div>  </div>  <div class="content-block">    <div class="paragraph">Текст статьи...</div>  </div></div>

Хорошо:

<article>  <h1>Как настроить сервер</h1>  <p>Текст статьи...</p></article>

AI-системы (и поисковые, и генеративные) парсят HTML. Чем чище структура тем точнее интерпретация. Используйте <article>, <section>, <nav>, <aside>, <header>, <footer>. Это не красота ради красоты – это семантическая разметка, которую машины понимают.

Schema.org и JSON-LD

Структурированные данные – это то, что реально поддерживается Google, Bing и AI-системами, которые строят ответы на базе поисковых индексов.

Пример JSON-LD для технической статьи:

Ключевые типы Schema.org:

TechArticle – для технических гайдов и туториалов
HowTo – для пошаговых инструкций
FAQPage – для FAQ-блоков (Google активно использует для featured snippets и AI Overviews)
SoftwareApplication – для страниц продуктов
APIReference – для документации API

Мета-данные, которые AI-системы читают

Вот что стоит проверить на каждой странице:

<head>  <title>Точный, конкретный заголовок до 60 символов</title>  <meta name="description" content="Конкретное описание содержимого страницы, 140-180 символов">  <meta name="robots" content="index, follow">  <link rel="canonical" href="https://example.com/current-page"></head>

Для работы с AI-ботами конкретно можно использовать robots meta-теги:

<!-- Разрешить или запретить использование контента для обучения AI --><meta name="robots" content="noai, noimageai">

Это реально поддерживается – Google задокументировал директивы для управления использованием контента AI-системами.

Работа с визуальным контентом – настоящее «слепое пятно»

Вот где действительно не хватает инструментов и стандартов. Картинки без alt-текстов, видео без описаний и транскриптов – это настоящий пробел для AI-систем.

Реальные задачи, которые ждут решения:

Семантические описания изображений. Не просто alt="фото", а полноценное описание: alt="Схема архитектуры микросервисов: API Gateway, три сервиса, Redis-кеш и PostgreSQL".
Транскрипция видео с временными метками. AI не смотрит видео. Если рядом с плеером нет текстовой версии контента – для нейросети этого контента не существует.
Связка визуального и текстового контента. Используйте <figure> и <figcaption>:

<figure>  <img src="architecture.svg"       alt="Схема архитектуры: запрос проходит через Nginx, попадает в Node.js-сервер, далее в Redis и PostgreSQL">  <figcaption>    Архитектура обработки запросов. Nginx выступает reverse proxy,    Node.js обрабатывает бизнес-логику, Redis кеширует частые запросы.  </figcaption></figure>

Это было бы по-настоящему полезно для AI-видимости. Не ещё один файл в корне сайта, а качественная работа с контентом, который уже есть.

Альтернативы llms.txt, о которых не говорят

Помимо базовых вещей (чистый HTML, Schema.org, alt-тексты) есть несколько подходов, которые обсуждаются значительно реже, чем модный llms.txt.

.well-known/llm.txt

Существует конвенция Well-Known URIs стандартизированные пути вида /.well-known/ для размещения машиночитаемых файлов. Если уж и делать файл для LLM – логичнее было бы разместить его по пути /.well-known/llm.txt, как это сделано для security.txt (/.well-known/security.txt). Но пока это тоже лишь обсуждение.

Кастомные HTTP-заголовки

Идея: передавать метаинформацию о странице прямо в HTTP-ответе через заголовки. Например:

X-Content-Summary: Руководство по настройке PostgreSQL для высоких нагрузокX-Content-Type: tutorialX-Content-Language: ru

Преимущество: не нужно парсить HTML, информация доступна сразу при первом запросе. Недостаток: ни один AI-бот это не поддерживает, и неясно, будет ли.

robots.txt + специфичные директивы для AI-ботов

Это уже работает. Вы можете управлять доступом AI-краулеров через robots.txt:

User-agent: GPTBotAllow: /docs/Disallow: /private/User-agent: ClaudeBotAllow: /Disallow: /admin/User-agent: PerplexityBotAllow: /blog/Disallow: /drafts/

OpenAI, Anthropic и Perplexity официально документируют своих ботов и заявляют, что уважают robots.txt.

Sitemap.xml – уже готовый инструмент

Sitemap.xml делает ровно то, что обещает llms.txt: даёт машине список важных страниц с метаданными. При этом sitemap.xml это признанный стандарт, который поддерживают все поисковые системы и многие AI-краулеры.

<url>  <loc>https://example.com/docs/api</loc>  <lastmod>2025-06-01</lastmod>  <changefreq>weekly</changefreq>  <priority>0.9</priority></url>

Если вы хотите направить AI-ботов на важные страницы – начните с качественного sitemap.xml.

Почему все пишут про llms.txt, если он бесполезен

Этот вопрос стоит задать открыто. Вот три причины.

Первая: кликабельный заголовок. «Новый стандарт для AI-SEO» – это гарантированные просмотры. Тема на пике хайпа. GEO-продвижению (Generative Engine Optimization – оптимизация для генеративных поисковых систем) нет и года, а оно уже обросло домыслами.

Вторая: проще пересказать, чем проверить. Написать статью «Как создать llms.txt для вашего сайта» можно за час. Проанализировать CDN-логи на тысяче доменов – это недели работы. Большинство авторов выбирает первый вариант.

Третья: SEO-инструменты подливают масла в огонь. Когда Semrush или Screaming Frog добавляют проверку llms.txt в аудит, владельцы сайтов видят предупреждение «файл отсутствует» и бегут его создавать. Замкнутый круг: инструменты проверяют, потому что спрашивают → спрашивают, потому что инструменты проверяют.

Чеклист для разработчика

Вместо создания llms.txt, пройдитесь по этому списку. Каждый пункт имеет подтверждённое влияние на то, как AI-системы обрабатывают ваш контент.

Базовый уровень

[ ] HTML использует семантические теги: <article>, <section>, <nav>, <main>, <aside>
[ ] Заголовки выстроены иерархически: один <h1>, логичная вложенность <h2> → <h3>
[ ] У всех изображений есть осмысленные alt-тексты (не «image1.jpg», а описание содержимого)
[ ] На каждой странице есть уникальный <title> и <meta description>
[ ] Установлен canonical URL на каждой странице
[ ] sitemap.xml актуален и включает все важные страницы

Продвинутый уровень

[ ] JSON-LD разметка для ключевых типов контента (Article, TechArticle, HowTo, FAQPage)
[ ] Видео сопровождается текстовым транскриптом на странице
[ ] robots.txt содержит правила для AI-ботов (GPTBot, ClaudeBot, PerplexityBot)
[ ] Скорость загрузки страницы в пределах «хорошо» по Core Web Vitals (быстрый сайт краулится чаще и полнее)
[ ] Хлебные крошки размечены через BreadcrumbList в JSON-LD
[ ] Internal linking (внутренняя перелинковка). Ключевые страницы доступны не дальше 3 кликов от главной

Уровень «опережая рынок»

[ ] Контент отвечает на конкретные вопросы (AI-системы предпочитают прямые ответы)
[ ] Используются структурированные списки и таблицы – их проще парсить, чем абзацы текста
[ ] Страница содержит авторскую информацию (имя, должность, ссылки на профили) – это работает на E-E-A-T
[ ] Мета-тег noai / noimageai выставлен на страницах, которые вы не хотите видеть в AI-ответах

По опыту, прохождение базового уровня уже даёт заметный прирост в том, как AI-системы цитируют и представляют ваш контент. Продвинутый и «опережающий» уровни – это то, что отличает сайт, попадающий в AI-ответы, от сайта, который остаётся едва видимым.

Стоит ли всё-таки создать llms.txt?

Короткий ответ: если вам нечем заняться – создавайте. Вреда не будет.

Длинный ответ: из-за волны хайпа есть ненулевая вероятность, что кто-то из крупных AI-провайдеров начнёт поддерживать этот файл. Подготовить его несложно это 15–30 минут для типичного сайта. Но ставить на это стратегию AI-продвижения ошибка.

Если вы решили создать файл «на всякий случай», вот минимально разумный подход:

Генерируйте его автоматически из sitemap.xml или CMS
Не поддерживайте вручную – это первое, что устареет и забудется
Не тратьте на это больше часа
Не включайте в KPI и не отчитывайтесь перед руководством как за «AI-оптимизацию»

Вывод

llms.txt – идея, не подтверждённая данными. Аудит CDN-логов на тысяче доменов за 30 дней показал ноль обращений от LLM-ботов. Ни OpenAI, ни Google, ни Anthropic не заявляли о поддержке. Инженер Google прямо сравнил файл с мета-тегом keywords.

Файл не вреден, но и не полезен. Время, которое вы потратите на его создание и продвижение идеи внутри команды, лучше вложить в конкретные вещи:

Чистый семантический HTML
Schema.org через JSON-LD
Качественные alt-тексты и транскрипции
robots.txt с правилами для AI-ботов
Контент, отвечающий на конкретные вопросы

Больше разборов на стыке SEO и разработки – в моём канале.

FAQ

Может ли llms.txt навредить сайту, если его создать?

Нет. Файл полностью безопасен. Это обычный Markdown в корне сайта. Он не влияет на индексацию поисковыми системами, не конфликтует с robots.txt и не создаёт дублирования контента. Единственный «вред» – потраченное время, если вы занимаетесь им вместо реально полезных задач.

Как проверить, какие AI-боты заходят на мой сайт?

Проще всего – через серверные логи (access.log в Nginx или Apache). Ищите user-agent строки: GPTBot, ClaudeBot, PerplexityBot, ChatGPT-User, Bytespider, CCBot. Если у вас CDN (Cloudflare, Fastly, CloudFront) – аналитика ботов часто доступна в панели управления. Некоторые WAF-системы тоже умеют фильтровать и считать запросы по типу бота.

Если AI-продвижение (GEO) только появляется, не рано ли его игнорировать?

Игнорировать GEO не нужно. Нужно фокусироваться на том, что работает. Чистый HTML, качественная Schema.org-разметка, контент в формате «вопрос – прямой ответ» (Как faq в конце статьи) – всё это улучшает ваши шансы попасть в AI-ответы. Просто не путайте настоящую AI-оптимизацию с расхайпленным фуфлом.

Есть ли аналог llms.txt. но рабочий?

Ближайший аналог – это комбинация robots.txt (для управления AI-ботами) + sitemap.xml (для указания важных страниц) + JSON-LD (для передачи структурированных данных). Эта тройка покрывает все задачи, которые llms.txt пытается решить, и при этом имеет подтверждённую поддержку.

ссылка на оригинал статьи https://habr.com/ru/articles/1027740/