Ноль. Именно столько раз GPTBot, ClaudeBot и PerplexityBot обратились к файлу llms.txt на тысяче доменов за месяц. Не «мало». Не «редко». Ноль. Эти цифры – не из теоретической статьи, а из аудита CDN-логов, который провёл Флавио Лонгато, LLM Optimization / SEO Strategist в Adobe. И они рушат красивую историю о «новом стандарте для AI-SEO».
Я Пётр Гришечкин, эксперт в области SEO. Последние 15 лет я проектирую системы кратного роста трафика для крупнейших сайтов. И последнее время пишу всякие околоSEO статьи – заходите в мой канал.
Сегодня разберём, стоит ли тратить время на llms.txt, что реально показывают серверные логи и куда направить усилия, чтобы AI-системы действительно видели ваш контент.
Что такое llms.txt и откуда он взялся
llms.txt – это предлагаемый (подчеркну: именно предлагаемый, а не принятый) стандарт. Файл в формате Markdown, который размещается в корне сайта по аналогии с robots.txt. Внутри – список важных страниц с кратким описанием каждой.
Идея проста: дать нейросетям «чистый» контент без HTML-мусора. Вместо того чтобы парсить сложную вёрстку с навигацией, сайдбарами, попапами и рекламой, LLM-бот получает аккуратный Markdown с указанием, что на сайте важно, а что – нет.
Автор концепции – Джереми Ховард из Answer.AI.
Вот как выглядит типичный llms.txt:
# Example Corp> Краткое описание компании и сайта## Docs- [API Reference](https://example.com/docs/api): Полная документация REST API- [Getting Started](https://example.com/docs/start): Руководство для новых пользователей## Blog- [Release Notes v3.0](https://example.com/blog/v3): Основные изменения в новой версии
Выглядит логично и аккуратно. Проблема только одна: никто из тех, для кого этот файл создан, его не читает.
Данные вместо гипотез: аудит 1000 доменов
Теория – это одно. Серверные логи – другое. Флавио Лонгато провёл аудит CDN-логов за 30 дней на 1000 доменах Adobe Experience Manager. Результаты, его же словами, – брутальные.
Сводная таблица обращений к llms.txt
|
Бот |
Обращения к llms.txt |
Комментарий |
|---|---|---|
|
GPTBot |
0 |
Полное отсутствие |
|
ClaudeBot |
0 |
Полное отсутствие |
|
PerplexityBot |
0 |
Полное отсутствие |
|
Google Desktop Crawler |
~95% всех хитов |
Google проверяет всё подряд, это не «поддержка» |
|
BingBot |
7 запросов |
Только на одном домене из тысячи |
|
OpenAIBotSearch |
10 запросов |
Минимальная активность |
|
SEO-инструменты (Semrush и др.) |
Значительная доля |
Не имеют отношения к LLM |
Разберём эти цифры детально, потому что дьявол – в интерпретации.
Google Desktop Crawler – 95% хитов
На первый взгляд может показаться: «Ого, Google активно использует llms.txt!» Нет. Google Desktop Crawler обходит всё, что находит на сайте. Каждый новый файл, каждый путь, каждый URL. Если вы положите в корень файл banana.txt, Googlebot его тоже скачает. Это не поддержка стандарта – это стандартное поведение краулера.
SEO-инструменты – заметная доля
Semrush, Ahrefs и аналогичные сервисы добавили проверку наличия llms.txt в свои аудиты. Логика понятна: если клиенты спрашивают – нужно показать галочку. Но это создаёт ложное впечатление, что файл «работает», хотя его проверяют не AI-системы, а инструменты для вебмастеров.
LLM-боты – ноль
Тысяча доменов. Тридцать дней. Ноль обращений от нейросетей. GPTBot – ноль. ClaudeBot – ноль. PerplexityBot – ноль.
Этого достаточно, чтобы перейти от хайпа к фактам.
Почему LLM-боты игнорируют llms.txt
Здесь важно понять техническую сторону. LLM-системы работают не так, как поисковые краулеры.
Как получают данные поисковые краулеры
Googlebot, BingBot и подобные обходят сайт по ссылкам, скачивают HTML, индексируют контент. Они уважают robots.txt, следуют sitemap.xml, проверяют новые файлы в корне. Это их работа – находить и каталогизировать всё.
Как получают данные LLM-системы
Большие языковые модели обучаются на массивных датасетах, собранных заранее. Common Crawl, лицензированные базы данных, партнёрские соглашения с издателями. Когда ChatGPT или Claude отвечают на вопрос, они не ходят в реальном времени на ваш сайт проверять llms.txt.
Есть исключения: Perplexity и поисковые режимы ChatGPT действительно обращаются к сайтам в момент генерации ответа. Но даже они используют стандартный HTML-парсинг, а не специализированный Markdown-файл.
Ни один крупный игрок не подтвердил поддержку
Ни OpenAI, ни Google, ни Anthropic, ни Яндекс не заявляли о поддержке llms.txt. Нет документации. Нет анонсов. Нет даже намёков в официальных гайдлайнах для вебмастеров.
Инженер Google в публичном обсуждении сравнил llms.txt с мета-тегом keywordsтехнологией, которая когда-то казалась важной, но уже много лет полностью игнорируется поисковыми системами.
Польза или вред? Честная оценка
Раз мы заявили этот вопрос в заголовке давайте ответим прямо.
Что llms.txt НЕ даёт
-
Не улучшает позиции в AI-ответах. Ни одна AI-система не использует этот файл для ранжирования.
-
Не заменяет Schema.org. Структурированные данные (микроразметка в формате JSON-LD) это проверенный инструмент. llms.txt нет.
-
Не ускоряет индексацию. LLM-ботам он не нужен, а для поисковых краулеров есть sitemap.xml.
-
Не решает проблему «грязного» HTML. Если ваш HTML плохой, лучше исправить HTML, а не создать параллельный файл.
Что llms.txt может дать (теоретически)
-
Минимальный вред. Файл не ломает ничего. Он просто лежит в корне. Если у вас есть CI/CD-пайплайн, генерирующий его автоматически, то накладные расходы близки к нулю.
-
Страховка на будущее. Возможно (только возможно), какие-то AI-системы начнут его поддерживать. Но строить стратегию на «возможно» это сомнительный ход.
-
Документация для себя. Иногда полезно иметь Markdown-карту ключевых страниц. Но для этого не нужен «стандарт».
Вердикт
llms.txt не вреден сам по себе. Он просто бесполезен. Время, потраченное на его создание и поддержку, лучше инвестировать в то, что реально работает.
Что реально влияет на AI-видимость сайта
Вместо очередного Markdown-файла в корне, есть конкретные задачи, которые напрямую влияют на то, как AI-системы воспринимают ваш контент.
Чистый семантический HTML
Это основа основ, но удивительно много сайтов до сих пор грешат div-супом.
Плохо:
<div class="article-wrapper"> <div class="title-block"> <div class="heading">Как настроить сервер</div> </div> <div class="content-block"> <div class="paragraph">Текст статьи...</div> </div></div>
Хорошо:
<article> <h1>Как настроить сервер</h1> <p>Текст статьи...</p></article>
AI-системы (и поисковые, и генеративные) парсят HTML. Чем чище структура тем точнее интерпретация. Используйте <article>, <section>, <nav>, <aside>, <header>, <footer>. Это не красота ради красоты – это семантическая разметка, которую машины понимают.
Schema.org и JSON-LD
Структурированные данные – это то, что реально поддерживается Google, Bing и AI-системами, которые строят ответы на базе поисковых индексов.
Пример JSON-LD для технической статьи:
Ключевые типы Schema.org:
-
TechArticle – для технических гайдов и туториалов
-
HowTo – для пошаговых инструкций
-
FAQPage – для FAQ-блоков (Google активно использует для featured snippets и AI Overviews)
-
SoftwareApplication – для страниц продуктов
-
APIReference – для документации API
Мета-данные, которые AI-системы читают
Вот что стоит проверить на каждой странице:
<head> <title>Точный, конкретный заголовок до 60 символов</title> <meta name="description" content="Конкретное описание содержимого страницы, 140-180 символов"> <meta name="robots" content="index, follow"> <link rel="canonical" href="https://example.com/current-page"></head>
Для работы с AI-ботами конкретно можно использовать robots meta-теги:
<!-- Разрешить или запретить использование контента для обучения AI --><meta name="robots" content="noai, noimageai">
Это реально поддерживается – Google задокументировал директивы для управления использованием контента AI-системами.
Работа с визуальным контентом – настоящее «слепое пятно»
Вот где действительно не хватает инструментов и стандартов. Картинки без alt-текстов, видео без описаний и транскриптов – это настоящий пробел для AI-систем.
Реальные задачи, которые ждут решения:
-
Семантические описания изображений. Не просто
alt="фото", а полноценное описание:alt="Схема архитектуры микросервисов: API Gateway, три сервиса, Redis-кеш и PostgreSQL". -
Транскрипция видео с временными метками. AI не смотрит видео. Если рядом с плеером нет текстовой версии контента – для нейросети этого контента не существует.
-
Связка визуального и текстового контента. Используйте
<figure>и<figcaption>:
<figure> <img src="architecture.svg" alt="Схема архитектуры: запрос проходит через Nginx, попадает в Node.js-сервер, далее в Redis и PostgreSQL"> <figcaption> Архитектура обработки запросов. Nginx выступает reverse proxy, Node.js обрабатывает бизнес-логику, Redis кеширует частые запросы. </figcaption></figure>
Это было бы по-настоящему полезно для AI-видимости. Не ещё один файл в корне сайта, а качественная работа с контентом, который уже есть.
Альтернативы llms.txt, о которых не говорят
Помимо базовых вещей (чистый HTML, Schema.org, alt-тексты) есть несколько подходов, которые обсуждаются значительно реже, чем модный llms.txt.
.well-known/llm.txt
Существует конвенция Well-Known URIs стандартизированные пути вида /.well-known/ для размещения машиночитаемых файлов. Если уж и делать файл для LLM – логичнее было бы разместить его по пути /.well-known/llm.txt, как это сделано для security.txt (/.well-known/security.txt). Но пока это тоже лишь обсуждение.
Кастомные HTTP-заголовки
Идея: передавать метаинформацию о странице прямо в HTTP-ответе через заголовки. Например:
X-Content-Summary: Руководство по настройке PostgreSQL для высоких нагрузокX-Content-Type: tutorialX-Content-Language: ru
Преимущество: не нужно парсить HTML, информация доступна сразу при первом запросе. Недостаток: ни один AI-бот это не поддерживает, и неясно, будет ли.
robots.txt + специфичные директивы для AI-ботов
Это уже работает. Вы можете управлять доступом AI-краулеров через robots.txt:
User-agent: GPTBotAllow: /docs/Disallow: /private/User-agent: ClaudeBotAllow: /Disallow: /admin/User-agent: PerplexityBotAllow: /blog/Disallow: /drafts/
OpenAI, Anthropic и Perplexity официально документируют своих ботов и заявляют, что уважают robots.txt.
Sitemap.xml – уже готовый инструмент
Sitemap.xml делает ровно то, что обещает llms.txt: даёт машине список важных страниц с метаданными. При этом sitemap.xml это признанный стандарт, который поддерживают все поисковые системы и многие AI-краулеры.
<url> <loc>https://example.com/docs/api</loc> <lastmod>2025-06-01</lastmod> <changefreq>weekly</changefreq> <priority>0.9</priority></url>
Если вы хотите направить AI-ботов на важные страницы – начните с качественного sitemap.xml.
Почему все пишут про llms.txt, если он бесполезен
Этот вопрос стоит задать открыто. Вот три причины.
Первая: кликабельный заголовок. «Новый стандарт для AI-SEO» – это гарантированные просмотры. Тема на пике хайпа. GEO-продвижению (Generative Engine Optimization – оптимизация для генеративных поисковых систем) нет и года, а оно уже обросло домыслами.
Вторая: проще пересказать, чем проверить. Написать статью «Как создать llms.txt для вашего сайта» можно за час. Проанализировать CDN-логи на тысяче доменов – это недели работы. Большинство авторов выбирает первый вариант.
Третья: SEO-инструменты подливают масла в огонь. Когда Semrush или Screaming Frog добавляют проверку llms.txt в аудит, владельцы сайтов видят предупреждение «файл отсутствует» и бегут его создавать. Замкнутый круг: инструменты проверяют, потому что спрашивают → спрашивают, потому что инструменты проверяют.
Чеклист для разработчика
Вместо создания llms.txt, пройдитесь по этому списку. Каждый пункт имеет подтверждённое влияние на то, как AI-системы обрабатывают ваш контент.
Базовый уровень
-
[ ] HTML использует семантические теги:
<article>,<section>,<nav>,<main>,<aside> -
[ ] Заголовки выстроены иерархически: один
<h1>, логичная вложенность<h2>→<h3> -
[ ] У всех изображений есть осмысленные
alt-тексты (не «image1.jpg», а описание содержимого) -
[ ] На каждой странице есть уникальный
<title>и<meta description> -
[ ] Установлен canonical URL на каждой странице
-
[ ] sitemap.xml актуален и включает все важные страницы
Продвинутый уровень
-
[ ] JSON-LD разметка для ключевых типов контента (Article, TechArticle, HowTo, FAQPage)
-
[ ] Видео сопровождается текстовым транскриптом на странице
-
[ ] robots.txt содержит правила для AI-ботов (GPTBot, ClaudeBot, PerplexityBot)
-
[ ] Скорость загрузки страницы в пределах «хорошо» по Core Web Vitals (быстрый сайт краулится чаще и полнее)
-
[ ] Хлебные крошки размечены через BreadcrumbList в JSON-LD
-
[ ] Internal linking (внутренняя перелинковка). Ключевые страницы доступны не дальше 3 кликов от главной
Уровень «опережая рынок»
-
[ ] Контент отвечает на конкретные вопросы (AI-системы предпочитают прямые ответы)
-
[ ] Используются структурированные списки и таблицы – их проще парсить, чем абзацы текста
-
[ ] Страница содержит авторскую информацию (имя, должность, ссылки на профили) – это работает на E-E-A-T
-
[ ] Мета-тег
noai/noimageaiвыставлен на страницах, которые вы не хотите видеть в AI-ответах
По опыту, прохождение базового уровня уже даёт заметный прирост в том, как AI-системы цитируют и представляют ваш контент. Продвинутый и «опережающий» уровни – это то, что отличает сайт, попадающий в AI-ответы, от сайта, который остаётся едва видимым.
Стоит ли всё-таки создать llms.txt?
Короткий ответ: если вам нечем заняться – создавайте. Вреда не будет.
Длинный ответ: из-за волны хайпа есть ненулевая вероятность, что кто-то из крупных AI-провайдеров начнёт поддерживать этот файл. Подготовить его несложно это 15–30 минут для типичного сайта. Но ставить на это стратегию AI-продвижения ошибка.
Если вы решили создать файл «на всякий случай», вот минимально разумный подход:
-
Генерируйте его автоматически из sitemap.xml или CMS
-
Не поддерживайте вручную – это первое, что устареет и забудется
-
Не тратьте на это больше часа
-
Не включайте в KPI и не отчитывайтесь перед руководством как за «AI-оптимизацию»
Вывод
llms.txt – идея, не подтверждённая данными. Аудит CDN-логов на тысяче доменов за 30 дней показал ноль обращений от LLM-ботов. Ни OpenAI, ни Google, ни Anthropic не заявляли о поддержке. Инженер Google прямо сравнил файл с мета-тегом keywords.
Файл не вреден, но и не полезен. Время, которое вы потратите на его создание и продвижение идеи внутри команды, лучше вложить в конкретные вещи:
-
Чистый семантический HTML
-
Schema.org через JSON-LD
-
Качественные alt-тексты и транскрипции
-
robots.txt с правилами для AI-ботов
-
Контент, отвечающий на конкретные вопросы
Больше разборов на стыке SEO и разработки – в моём канале.
FAQ
Может ли llms.txt навредить сайту, если его создать?
Нет. Файл полностью безопасен. Это обычный Markdown в корне сайта. Он не влияет на индексацию поисковыми системами, не конфликтует с robots.txt и не создаёт дублирования контента. Единственный «вред» – потраченное время, если вы занимаетесь им вместо реально полезных задач.
Как проверить, какие AI-боты заходят на мой сайт?
Проще всего – через серверные логи (access.log в Nginx или Apache). Ищите user-agent строки: GPTBot, ClaudeBot, PerplexityBot, ChatGPT-User, Bytespider, CCBot. Если у вас CDN (Cloudflare, Fastly, CloudFront) – аналитика ботов часто доступна в панели управления. Некоторые WAF-системы тоже умеют фильтровать и считать запросы по типу бота.
Если AI-продвижение (GEO) только появляется, не рано ли его игнорировать?
Игнорировать GEO не нужно. Нужно фокусироваться на том, что работает. Чистый HTML, качественная Schema.org-разметка, контент в формате «вопрос – прямой ответ» (Как faq в конце статьи) – всё это улучшает ваши шансы попасть в AI-ответы. Просто не путайте настоящую AI-оптимизацию с расхайпленным фуфлом.
Есть ли аналог llms.txt. но рабочий?
Ближайший аналог – это комбинация robots.txt (для управления AI-ботами) + sitemap.xml (для указания важных страниц) + JSON-LD (для передачи структурированных данных). Эта тройка покрывает все задачи, которые llms.txt пытается решить, и при этом имеет подтверждённую поддержку.
ссылка на оригинал статьи https://habr.com/ru/articles/1027740/