llms.txt и AI-краулеры: управление доступом нейросетей
Сайты теперь читают не только Яндекс и Google, но и боты нейросетей — ChatGPT, Perplexity, Claude и другие. Они берут с сайтов информацию для ответов и обучения. Появились два новых инструмента, чтобы этим управлять: llms.txt (рассказать ИИ о сайте) и блокировка AI-краулеров через robots.txt (решить, кого пускать). Разберём оба.
Что такое llms.txt
llms.txt — простой markdown-файл в корне сайта (/llms.txt), который даёт нейросетям чистую «выжимку»: название, описание и список главных страниц без меню, рекламы и скриптов. У ИИ-моделей ограничен контекст, и такой файл помогает им быстрее и точнее понять, о чём ресурс. Это часть нового направления — оптимизации под нейросети (GEO). Формат простой:
# Название сайта > Краткое описание в одну-две строки. ## Основные страницы - [Заголовок](https://сайт.ру/page): о чём страница - [Блог](https://сайт.ру/blog/): статьи и гайды
Основные AI-краулеры
У каждой ИИ-компании свои боты, и у них разное назначение — обучение моделей, ответы в реальном времени, поисковый индекс. Главные:
| Бот | Кто и зачем |
|---|---|
| GPTBot | OpenAI — сбор данных для обучения моделей |
| OAI-SearchBot | OpenAI — поиск и ссылки в ChatGPT |
| ChatGPT-User | OpenAI — переход по запросу пользователя |
| ClaudeBot | Anthropic — обучение и ответы Claude |
| PerplexityBot | Perplexity — поисковый ИИ-ответчик |
| Google-Extended | Google — обучение Gemini (отдельно от поиска) |
| Applebot-Extended | Apple — обучение ИИ Apple |
| Bytespider | ByteDance (TikTok) — сбор данных |
Как разрешить или закрыть ИИ-ботов
Доступом управляет robots.txt. Чтобы закрыть конкретного бота, добавьте блок с его именем и Disallow: /. Например, закрыть обучающих, но оставить поисковых ИИ (чтобы сайт цитировался в ответах):
User-agent: GPTBot Disallow: / User-agent: Google-Extended Disallow: / User-agent: CCBot Disallow: / User-agent: PerplexityBot Allow: /
Важно: Google-Extended отвечает только за обучение Gemini и не влияет на обычный поиск Google — блокировка не уронит позиции. А вот закрывать поисковых ИИ-ботов (OAI-SearchBot, PerplexityBot) стоит осознанно: так вы исчезаете из ответов нейропоиска.
Соберите llms.txt для своего сайта
Подскажите нейросетям, о чём ваш сайт — бесплатно, за пару минут.
Генератор llms.txt →Блокировать или пускать?
Однозначного ответа нет — это компромисс. Пускать поисковых ИИ выгодно для видимости: сайт цитируется в ответах ChatGPT и Perplexity, приходит трафик и упоминания бренда. Закрывать обучающих ботов разумно, если не хотите, чтобы контент уходил в обучение моделей без отдачи. Частый разумный баланс: разрешить поисковых ИИ (для трафика), ограничить чисто обучающих. Но учтите — соблюдение robots.txt у ИИ-ботов добровольное, гарантии нет.
Коротко: llms.txt рассказывает нейросетям о сайте и его главных страницах, а через robots.txt вы пускаете или закрываете ИИ-ботов (GPTBot, ClaudeBot, PerplexityBot, Google-Extended и др.). Google-Extended не влияет на обычный поиск, а блокировка поисковых ИИ убирает сайт из их ответов — решайте по целям. Как в целом готовить сайт под нейросети — в статье GEO: оптимизация под нейросети.