Главная Статьи Оптимизация

Sitemap для больших сайтов: индекс карт и лимиты

Когда на сайте сотни тысяч страниц, одной карты сайта уже мало: у sitemap.xml есть жёсткие лимиты, а поисковику нужно помочь обойти всё и понять, что обновилось. Решение — индекс карт сайта (sitemap index) с разбивкой и корректным lastmod. Разберём, как правильно организовать карты для крупного интернет-магазина или портала, чтобы все страницы попадали в индекс.

Лимиты одной карты сайта

У файла sitemap.xml есть стандартные ограничения, которые нельзя превышать:

50 000
URL максимум в одном файле sitemap.xml
50 МБ
максимальный размер файла (без сжатия)

Если страниц больше — нужно несколько файлов карт, объединённых в индекс. Сам индекс тоже ограничен 50 000 ссылок на карты, то есть теоретически вмещает до 2,5 млрд URL. На практике карты разбивают логически — по типам страниц.

Что такое индекс карт сайта

Sitemap index — это «карта карт»: один файл, который ссылается не на страницы, а на другие sitemap-файлы. Поисковик заходит в индекс, видит список карт и обходит каждую. Именно адрес индекса указывают в robots.txt и Вебмастере.

sitemap-index.xml products-1.xml categories.xml articles.xml ≤ 50 000 URL≤ 50 000 URL≤ 50 000 URL Индекс ссылается на карты, карты — на страницы. В robots.txt указываем адрес индекса.
Индекс карт: один файл-оглавление ссылается на тематические карты, каждая до 50 000 URL.
<sitemapindex xmlns="...sitemap/0.9"> <sitemap> <loc>https://site.ru/products-1.xml</loc> <lastmod>2026-06-28</lastmod> </sitemap> <sitemap> <loc>https://site.ru/categories.xml</loc> </sitemap> </sitemapindex>

Разбивайте карты логически

Не делите карты механически по 50 000 — разбивайте по типам страниц: товары, категории, бренды, статьи, теги. Так удобнее следить за индексацией каждого раздела: в Вебмастере видно, сколько URL из карты товаров попало в индекс, а сколько — из статей. Если проседает конкретный тип — сразу понятно, где проблема.

🛠
Проверить карту и индексацию помогут генератор/проверка sitemap, проверка индексации и массовая проверка индексации по списку URL.

lastmod — самый важный тег для крупных сайтов

Тег <lastmod> (дата последнего изменения страницы) для больших сайтов важнее всего: по нему поисковик понимает, что переобходить в первую очередь, и экономит ваш краулинговый бюджет. Но lastmod должен быть честным — реальная дата изменения контента, а не «сегодня» у всех страниц сразу. Если проставить всем текущую дату, поисковик перестанет ему доверять и будет игнорировать.

А вот теги <priority> и <changefreq> поисковики почти не учитывают — на них можно не тратить силы.

Про экономию обхода — статья краулинговый бюджет, про быстрый переобход новых страниц — IndexNow.

Технические моменты

Чек-лист карты для большого сайта

Коротко

Для большого сайта одной карты мало: лимит — 50 000 URL и 50 МБ на файл. Объедините несколько карт в индекс (sitemap index), разбивая их логически по типам страниц, проставляйте честный lastmod (он экономит краулинговый бюджет), кладите в карты только индексируемые URL и генерируйте всё автоматически. Адрес индекса укажите в robots.txt и Вебмастере — тогда поисковик обойдёт даже сайт с миллионами страниц.

Частые вопросы

Сколько URL можно положить в один sitemap.xml?
Не более 50 000 URL и не более 50 МБ в одном файле (размер считается до gzip-сжатия). Если страниц больше, нужно несколько файлов карт, объединённых в индекс карт сайта (sitemap index).
Что такое индекс карт сайта (sitemap index)?
Это «карта карт» — файл, который ссылается не на страницы, а на другие sitemap-файлы. Поисковик заходит в индекс, видит список карт и обходит каждую. Именно адрес индекса указывают в robots.txt и панелях вебмастера. Индекс тоже ограничен 50 000 ссылок на карты.
Как лучше разбивать карты большого сайта?
Логически по типам страниц — товары, категории, бренды, статьи, теги, — а не механически по 50 000. Так в Вебмастере видно индексацию каждого раздела отдельно: если проседает конкретный тип, сразу понятно, где проблема.
Нужен ли тег lastmod в карте сайта?
Для больших сайтов lastmod важнее всего: по дате последнего изменения поисковик понимает, что переобходить в первую очередь, и экономит краулинговый бюджет. Но дата должна быть честной — реальная дата изменения контента. Если проставить всем «сегодня», поисковик перестанет доверять тегу. Priority и changefreq почти не учитываются.
Что нельзя включать в карту сайта?
Страницы с редиректами, ошибкой 404, закрытые в robots.txt или мета-тегом noindex, а также неосновные зеркала (http вместо https, с www вместо без). В карте должны быть только URL, отдающие код 200 и открытые к индексации.