LLM.txt – нужен или нет? Польза или вред? Разбор на реальных данных

от автора

LLM.txt. Нужен или нет? Польза или вред?

LLM.txt. Нужен или нет? Польза или вред?

Ноль. Именно столько раз GPTBot, ClaudeBot и PerplexityBot обратились к файлу llms.txt на тысяче доменов за месяц. Не «мало». Не «редко». Ноль. Эти цифры – не из теоретической статьи, а из аудита CDN-логов, который провёл Флавио Лонгато, LLM Optimization / SEO Strategist в Adobe. И они рушат красивую историю о «новом стандарте для AI-SEO».

Я Пётр Гришечкин, эксперт в области SEO. Последние 15 лет я проектирую системы кратного роста трафика для крупнейших сайтов. И последнее время пишу всякие околоSEO статьи – заходите в мой канал.

Сегодня разберём, стоит ли тратить время на llms.txt, что реально показывают серверные логи и куда направить усилия, чтобы AI-системы действительно видели ваш контент.

Что такое llms.txt и откуда он взялся

Что такое llms.txt и откуда он взялся

Что такое llms.txt и откуда он взялся

llms.txt – это предлагаемый (подчеркну: именно предлагаемый, а не принятый) стандарт. Файл в формате Markdown, который размещается в корне сайта по аналогии с robots.txt. Внутри – список важных страниц с кратким описанием каждой.

Идея проста: дать нейросетям «чистый» контент без HTML-мусора. Вместо того чтобы парсить сложную вёрстку с навигацией, сайдбарами, попапами и рекламой, LLM-бот получает аккуратный Markdown с указанием, что на сайте важно, а что – нет.

Автор концепции – Джереми Ховард из Answer.AI.

Вот как выглядит типичный llms.txt:

# Example Corp> Краткое описание компании и сайта## Docs- [API Reference](https://example.com/docs/api): Полная документация REST API- [Getting Started](https://example.com/docs/start): Руководство для новых пользователей## Blog- [Release Notes v3.0](https://example.com/blog/v3): Основные изменения в новой версии

Выглядит логично и аккуратно. Проблема только одна: никто из тех, для кого этот файл создан, его не читает.

Данные вместо гипотез: аудит 1000 доменов

Теория – это одно. Серверные логи – другое. Флавио Лонгато провёл аудит CDN-логов за 30 дней на 1000 доменах Adobe Experience Manager. Результаты, его же словами, – брутальные.

Сводная таблица обращений к llms.txt

Бот

Обращения к llms.txt

Комментарий

GPTBot

0

Полное отсутствие

ClaudeBot

0

Полное отсутствие

PerplexityBot

0

Полное отсутствие

Google Desktop Crawler

~95% всех хитов

Google проверяет всё подряд, это не «поддержка»

BingBot

7 запросов

Только на одном домене из тысячи

OpenAIBotSearch

10 запросов

Минимальная активность

SEO-инструменты (Semrush и др.)

Значительная доля

Не имеют отношения к LLM

Разберём эти цифры детально, потому что дьявол – в интерпретации.

Google Desktop Crawler – 95% хитов

На первый взгляд может показаться: «Ого, Google активно использует llms.txt!» Нет. Google Desktop Crawler обходит всё, что находит на сайте. Каждый новый файл, каждый путь, каждый URL. Если вы положите в корень файл banana.txt, Googlebot его тоже скачает. Это не поддержка стандарта – это стандартное поведение краулера.

SEO-инструменты – заметная доля

Semrush, Ahrefs и аналогичные сервисы добавили проверку наличия llms.txt в свои аудиты. Логика понятна: если клиенты спрашивают – нужно показать галочку. Но это создаёт ложное впечатление, что файл «работает», хотя его проверяют не AI-системы, а инструменты для вебмастеров.

LLM-боты – ноль

Тысяча доменов. Тридцать дней. Ноль обращений от нейросетей. GPTBot – ноль. ClaudeBot – ноль. PerplexityBot – ноль.

Этого достаточно, чтобы перейти от хайпа к фактам.

Почему LLM-боты игнорируют llms.txt

Почему LLM-боты игнорируют llms.txt

Почему LLM-боты игнорируют llms.txt

Здесь важно понять техническую сторону. LLM-системы работают не так, как поисковые краулеры.

Как получают данные поисковые краулеры

Googlebot, BingBot и подобные обходят сайт по ссылкам, скачивают HTML, индексируют контент. Они уважают robots.txt, следуют sitemap.xml, проверяют новые файлы в корне. Это их работа – находить и каталогизировать всё.

Как получают данные LLM-системы

Большие языковые модели обучаются на массивных датасетах, собранных заранее. Common Crawl, лицензированные базы данных, партнёрские соглашения с издателями. Когда ChatGPT или Claude отвечают на вопрос, они не ходят в реальном времени на ваш сайт проверять llms.txt.

Есть исключения: Perplexity и поисковые режимы ChatGPT действительно обращаются к сайтам в момент генерации ответа. Но даже они используют стандартный HTML-парсинг, а не специализированный Markdown-файл.

Ни один крупный игрок не подтвердил поддержку

Ни OpenAI, ни Google, ни Anthropic, ни Яндекс не заявляли о поддержке llms.txt. Нет документации. Нет анонсов. Нет даже намёков в официальных гайдлайнах для вебмастеров.

Инженер Google в публичном обсуждении сравнил llms.txt с мета-тегом keywordsтехнологией, которая когда-то казалась важной, но уже много лет полностью игнорируется поисковыми системами.

Польза или вред? Честная оценка

Раз мы заявили этот вопрос в заголовке давайте ответим прямо.

Что llms.txt НЕ даёт

  • Не улучшает позиции в AI-ответах. Ни одна AI-система не использует этот файл для ранжирования.

  • Не заменяет Schema.org. Структурированные данные (микроразметка в формате JSON-LD) это проверенный инструмент. llms.txt нет.

  • Не ускоряет индексацию. LLM-ботам он не нужен, а для поисковых краулеров есть sitemap.xml.

  • Не решает проблему «грязного» HTML. Если ваш HTML плохой, лучше исправить HTML, а не создать параллельный файл.

Что llms.txt может дать (теоретически)

  • Минимальный вред. Файл не ломает ничего. Он просто лежит в корне. Если у вас есть CI/CD-пайплайн, генерирующий его автоматически, то накладные расходы близки к нулю.

  • Страховка на будущее. Возможно (только возможно), какие-то AI-системы начнут его поддерживать. Но строить стратегию на «возможно» это сомнительный ход.

  • Документация для себя. Иногда полезно иметь Markdown-карту ключевых страниц. Но для этого не нужен «стандарт».

Вердикт

llms.txt не вреден сам по себе. Он просто бесполезен. Время, потраченное на его создание и поддержку, лучше инвестировать в то, что реально работает.

Что реально влияет на AI-видимость сайта

Что реально влияет на AI-видимость сайта

Что реально влияет на AI-видимость сайта

Вместо очередного Markdown-файла в корне, есть конкретные задачи, которые напрямую влияют на то, как AI-системы воспринимают ваш контент.

Чистый семантический HTML

Это основа основ, но удивительно много сайтов до сих пор грешат div-супом.

Плохо:

<div class="article-wrapper">  <div class="title-block">    <div class="heading">Как настроить сервер</div>  </div>  <div class="content-block">    <div class="paragraph">Текст статьи...</div>  </div></div>

Хорошо:

<article>  <h1>Как настроить сервер</h1>  <p>Текст статьи...</p></article>

AI-системы (и поисковые, и генеративные) парсят HTML. Чем чище структура тем точнее интерпретация. Используйте <article>, <section>, <nav>, <aside>, <header>, <footer>. Это не красота ради красоты – это семантическая разметка, которую машины понимают.

Schema.org и JSON-LD

Структурированные данные – это то, что реально поддерживается Google, Bing и AI-системами, которые строят ответы на базе поисковых индексов.

Пример JSON-LD для технической статьи:

Ключевые типы Schema.org:

  • TechArticle – для технических гайдов и туториалов

  • HowTo – для пошаговых инструкций

  • FAQPage – для FAQ-блоков (Google активно использует для featured snippets и AI Overviews)

  • SoftwareApplication – для страниц продуктов

  • APIReference – для документации API

Мета-данные, которые AI-системы читают

Вот что стоит проверить на каждой странице:

<head>  <title>Точный, конкретный заголовок до 60 символов</title>  <meta name="description" content="Конкретное описание содержимого страницы, 140-180 символов">  <meta name="robots" content="index, follow">  <link rel="canonical" href="https://example.com/current-page"></head>

Для работы с AI-ботами конкретно можно использовать robots meta-теги:

<!-- Разрешить или запретить использование контента для обучения AI --><meta name="robots" content="noai, noimageai">

Это реально поддерживается – Google задокументировал директивы для управления использованием контента AI-системами.

Работа с визуальным контентом – настоящее «слепое пятно»

Вот где действительно не хватает инструментов и стандартов. Картинки без alt-текстов, видео без описаний и транскриптов – это настоящий пробел для AI-систем.

Реальные задачи, которые ждут решения:

  1. Семантические описания изображений. Не просто alt="фото", а полноценное описание: alt="Схема архитектуры микросервисов: API Gateway, три сервиса, Redis-кеш и PostgreSQL".

  2. Транскрипция видео с временными метками. AI не смотрит видео. Если рядом с плеером нет текстовой версии контента – для нейросети этого контента не существует.

  3. Связка визуального и текстового контента. Используйте <figure> и <figcaption>:

<figure>  <img src="architecture.svg"       alt="Схема архитектуры: запрос проходит через Nginx, попадает в Node.js-сервер, далее в Redis и PostgreSQL">  <figcaption>    Архитектура обработки запросов. Nginx выступает reverse proxy,    Node.js обрабатывает бизнес-логику, Redis кеширует частые запросы.  </figcaption></figure>

Это было бы по-настоящему полезно для AI-видимости. Не ещё один файл в корне сайта, а качественная работа с контентом, который уже есть.

Альтернативы llms.txt, о которых не говорят

Помимо базовых вещей (чистый HTML, Schema.org, alt-тексты) есть несколько подходов, которые обсуждаются значительно реже, чем модный llms.txt.

.well-known/llm.txt

Существует конвенция Well-Known URIs стандартизированные пути вида /.well-known/ для размещения машиночитаемых файлов. Если уж и делать файл для LLM – логичнее было бы разместить его по пути /.well-known/llm.txt, как это сделано для security.txt (/.well-known/security.txt). Но пока это тоже лишь обсуждение.

Кастомные HTTP-заголовки

Идея: передавать метаинформацию о странице прямо в HTTP-ответе через заголовки. Например:

X-Content-Summary: Руководство по настройке PostgreSQL для высоких нагрузокX-Content-Type: tutorialX-Content-Language: ru

Преимущество: не нужно парсить HTML, информация доступна сразу при первом запросе. Недостаток: ни один AI-бот это не поддерживает, и неясно, будет ли.

robots.txt + специфичные директивы для AI-ботов

Это уже работает. Вы можете управлять доступом AI-краулеров через robots.txt:

User-agent: GPTBotAllow: /docs/Disallow: /private/User-agent: ClaudeBotAllow: /Disallow: /admin/User-agent: PerplexityBotAllow: /blog/Disallow: /drafts/

OpenAI, Anthropic и Perplexity официально документируют своих ботов и заявляют, что уважают robots.txt.

Sitemap.xml – уже готовый инструмент

Sitemap.xml делает ровно то, что обещает llms.txt: даёт машине список важных страниц с метаданными. При этом sitemap.xml это признанный стандарт, который поддерживают все поисковые системы и многие AI-краулеры.

<url>  <loc>https://example.com/docs/api</loc>  <lastmod>2025-06-01</lastmod>  <changefreq>weekly</changefreq>  <priority>0.9</priority></url>

Если вы хотите направить AI-ботов на важные страницы – начните с качественного sitemap.xml.

Почему все пишут про llms.txt, если он бесполезен

Почему все пишут про llms.txt, если он бесполезен

Почему все пишут про llms.txt, если он бесполезен

Этот вопрос стоит задать открыто. Вот три причины.

Первая: кликабельный заголовок. «Новый стандарт для AI-SEO» – это гарантированные просмотры. Тема на пике хайпа. GEO-продвижению (Generative Engine Optimization – оптимизация для генеративных поисковых систем) нет и года, а оно уже обросло домыслами.

Вторая: проще пересказать, чем проверить. Написать статью «Как создать llms.txt для вашего сайта» можно за час. Проанализировать CDN-логи на тысяче доменов – это недели работы. Большинство авторов выбирает первый вариант.

Третья: SEO-инструменты подливают масла в огонь. Когда Semrush или Screaming Frog добавляют проверку llms.txt в аудит, владельцы сайтов видят предупреждение «файл отсутствует» и бегут его создавать. Замкнутый круг: инструменты проверяют, потому что спрашивают → спрашивают, потому что инструменты проверяют.

Чеклист для разработчика

Вместо создания llms.txt, пройдитесь по этому списку. Каждый пункт имеет подтверждённое влияние на то, как AI-системы обрабатывают ваш контент.

Базовый уровень

  • [ ] HTML использует семантические теги: <article>, <section>, <nav>, <main>, <aside>

  • [ ] Заголовки выстроены иерархически: один <h1>, логичная вложенность <h2><h3>

  • [ ] У всех изображений есть осмысленные alt-тексты (не «image1.jpg», а описание содержимого)

  • [ ] На каждой странице есть уникальный <title> и <meta description>

  • [ ] Установлен canonical URL на каждой странице

  • [ ] sitemap.xml актуален и включает все важные страницы

Продвинутый уровень

  • [ ] JSON-LD разметка для ключевых типов контента (Article, TechArticle, HowTo, FAQPage)

  • [ ] Видео сопровождается текстовым транскриптом на странице

  • [ ] robots.txt содержит правила для AI-ботов (GPTBot, ClaudeBot, PerplexityBot)

  • [ ] Скорость загрузки страницы в пределах «хорошо» по Core Web Vitals (быстрый сайт краулится чаще и полнее)

  • [ ] Хлебные крошки размечены через BreadcrumbList в JSON-LD

  • [ ] Internal linking (внутренняя перелинковка). Ключевые страницы доступны не дальше 3 кликов от главной

Уровень «опережая рынок»

  • [ ] Контент отвечает на конкретные вопросы (AI-системы предпочитают прямые ответы)

  • [ ] Используются структурированные списки и таблицы – их проще парсить, чем абзацы текста

  • [ ] Страница содержит авторскую информацию (имя, должность, ссылки на профили) – это работает на E-E-A-T

  • [ ] Мета-тег noai / noimageai выставлен на страницах, которые вы не хотите видеть в AI-ответах

По опыту, прохождение базового уровня уже даёт заметный прирост в том, как AI-системы цитируют и представляют ваш контент. Продвинутый и «опережающий» уровни – это то, что отличает сайт, попадающий в AI-ответы, от сайта, который остаётся едва видимым.

Стоит ли всё-таки создать llms.txt?

Стоит ли всё-таки создать llms.txt?

Стоит ли всё-таки создать llms.txt?

Короткий ответ: если вам нечем заняться – создавайте. Вреда не будет.

Длинный ответ: из-за волны хайпа есть ненулевая вероятность, что кто-то из крупных AI-провайдеров начнёт поддерживать этот файл. Подготовить его несложно это 15–30 минут для типичного сайта. Но ставить на это стратегию AI-продвижения ошибка.

Если вы решили создать файл «на всякий случай», вот минимально разумный подход:

  1. Генерируйте его автоматически из sitemap.xml или CMS

  2. Не поддерживайте вручную – это первое, что устареет и забудется

  3. Не тратьте на это больше часа

  4. Не включайте в KPI и не отчитывайтесь перед руководством как за «AI-оптимизацию»

Вывод

llms.txt – идея, не подтверждённая данными. Аудит CDN-логов на тысяче доменов за 30 дней показал ноль обращений от LLM-ботов. Ни OpenAI, ни Google, ни Anthropic не заявляли о поддержке. Инженер Google прямо сравнил файл с мета-тегом keywords.

Файл не вреден, но и не полезен. Время, которое вы потратите на его создание и продвижение идеи внутри команды, лучше вложить в конкретные вещи:

  • Чистый семантический HTML

  • Schema.org через JSON-LD

  • Качественные alt-тексты и транскрипции

  • robots.txt с правилами для AI-ботов

  • Контент, отвечающий на конкретные вопросы

Больше разборов на стыке SEO и разработки – в моём канале.

FAQ

Может ли llms.txt навредить сайту, если его создать?

Нет. Файл полностью безопасен. Это обычный Markdown в корне сайта. Он не влияет на индексацию поисковыми системами, не конфликтует с robots.txt и не создаёт дублирования контента. Единственный «вред» – потраченное время, если вы занимаетесь им вместо реально полезных задач.

Как проверить, какие AI-боты заходят на мой сайт?

Проще всего – через серверные логи (access.log в Nginx или Apache). Ищите user-agent строки: GPTBot, ClaudeBot, PerplexityBot, ChatGPT-User, Bytespider, CCBot. Если у вас CDN (Cloudflare, Fastly, CloudFront) – аналитика ботов часто доступна в панели управления. Некоторые WAF-системы тоже умеют фильтровать и считать запросы по типу бота.

Если AI-продвижение (GEO) только появляется, не рано ли его игнорировать?

Игнорировать GEO не нужно. Нужно фокусироваться на том, что работает. Чистый HTML, качественная Schema.org-разметка, контент в формате «вопрос – прямой ответ» (Как faq в конце статьи) – всё это улучшает ваши шансы попасть в AI-ответы. Просто не путайте настоящую AI-оптимизацию с расхайпленным фуфлом.

Есть ли аналог llms.txt. но рабочий?

Ближайший аналог – это комбинация robots.txt (для управления AI-ботами) + sitemap.xml (для указания важных страниц) + JSON-LD (для передачи структурированных данных). Эта тройка покрывает все задачи, которые llms.txt пытается решить, и при этом имеет подтверждённую поддержку.

ссылка на оригинал статьи https://habr.com/ru/articles/1027740/