llms.txt и AI-краулеры: управление доступом нейросетей

Сайты теперь читают не только Яндекс и Google, но и боты нейросетей — ChatGPT, Perplexity, Claude и другие. Они берут с сайтов информацию для ответов и обучения. Появились два новых инструмента, чтобы этим управлять: llms.txt (рассказать ИИ о сайте) и блокировка AI-краулеров через robots.txt (решить, кого пускать). Разберём оба.

llms.txt помогает ИИ понять сайт, robots.txt — управляет доступом ботов.

Что такое llms.txt

llms.txt — простой markdown-файл в корне сайта (/llms.txt), который даёт нейросетям чистую «выжимку»: название, описание и список главных страниц без меню, рекламы и скриптов. У ИИ-моделей ограничен контекст, и такой файл помогает им быстрее и точнее понять, о чём ресурс. Это часть нового направления — оптимизации под нейросети (GEO). Формат простой:

# Название сайта
> Краткое описание в одну-две строки.

## Основные страницы
- [Заголовок](https://сайт.ру/page): о чём страница
- [Блог](https://сайт.ру/blog/): статьи и гайды

🤖

Соберите файл в пару кликов: генератор llms.txt — заполните поля и скопируйте готовый файл в корень сайта.

Основные AI-краулеры

У каждой ИИ-компании свои боты, и у них разное назначение — обучение моделей, ответы в реальном времени, поисковый индекс. Главные:

Бот	Кто и зачем
GPTBot	OpenAI — сбор данных для обучения моделей
OAI-SearchBot	OpenAI — поиск и ссылки в ChatGPT
ChatGPT-User	OpenAI — переход по запросу пользователя
ClaudeBot	Anthropic — обучение и ответы Claude
PerplexityBot	Perplexity — поисковый ИИ-ответчик
Google-Extended	Google — обучение Gemini (отдельно от поиска)
Applebot-Extended	Apple — обучение ИИ Apple
Bytespider	ByteDance (TikTok) — сбор данных

Как разрешить или закрыть ИИ-ботов

Доступом управляет robots.txt. Чтобы закрыть конкретного бота, добавьте блок с его именем и Disallow: /. Например, закрыть обучающих, но оставить поисковых ИИ (чтобы сайт цитировался в ответах):

User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: PerplexityBot
Allow: /

Важно: Google-Extended отвечает только за обучение Gemini и не влияет на обычный поиск Google — блокировка не уронит позиции. А вот закрывать поисковых ИИ-ботов (OAI-SearchBot, PerplexityBot) стоит осознанно: так вы исчезаете из ответов нейропоиска.

Соберите llms.txt для своего сайта

Подскажите нейросетям, о чём ваш сайт — бесплатно, за пару минут.

Генератор llms.txt →

Блокировать или пускать?

Однозначного ответа нет — это компромисс. Пускать поисковых ИИ выгодно для видимости: сайт цитируется в ответах ChatGPT и Perplexity, приходит трафик и упоминания бренда. Закрывать обучающих ботов разумно, если не хотите, чтобы контент уходил в обучение моделей без отдачи. Частый разумный баланс: разрешить поисковых ИИ (для трафика), ограничить чисто обучающих. Но учтите — соблюдение robots.txt у ИИ-ботов добровольное, гарантии нет.

Коротко: llms.txt рассказывает нейросетям о сайте и его главных страницах, а через robots.txt вы пускаете или закрываете ИИ-ботов (GPTBot, ClaudeBot, PerplexityBot, Google-Extended и др.). Google-Extended не влияет на обычный поиск, а блокировка поисковых ИИ убирает сайт из их ответов — решайте по целям. Как в целом готовить сайт под нейросети — в статье GEO: оптимизация под нейросети.

Частые вопросы

Что такое llms.txt?

Это markdown-файл в корне сайта (/llms.txt), который простым языком рассказывает ИИ-моделям, о чём сайт и какие страницы главные — без меню, рекламы и скриптов. Помогает нейросетям (ChatGPT, Perplexity, Claude) быстрее и точнее понять ресурс. Это часть оптимизации под нейросети (GEO).

Какие есть AI-краулеры?

Основные: GPTBot и OAI-SearchBot (OpenAI), ChatGPT-User, ClaudeBot (Anthropic), PerplexityBot (Perplexity), Google-Extended (обучение Gemini), Applebot-Extended (Apple), Bytespider (ByteDance). Одни собирают данные для обучения, другие — для ответов в реальном времени.

Как закрыть сайт от нейросетей?

Через robots.txt: добавьте блок с именем бота и Disallow: /. Например, User-agent: GPTBot \n Disallow: /. Можно закрыть обучающих ботов, но оставить поисковых ИИ, чтобы сайт цитировался в их ответах. Учтите: соблюдение robots.txt у ИИ-ботов добровольное.

Блокировка Google-Extended вредит позициям в Google?

Нет. Google-Extended отвечает только за обучение модели Gemini и не влияет на обычный поиск Google. Можно закрыть его, не опасаясь за позиции в выдаче.

Стоит ли пускать ИИ-краулеров?

Это компромисс. Пускать поисковых ИИ выгодно для видимости — сайт цитируется в ответах ChatGPT и Perplexity, идёт трафик. Закрывать обучающих ботов разумно, если не хотите отдавать контент в обучение. Частый баланс: разрешить поисковых ИИ, ограничить чисто обучающих.