robots.txt и sitemap.xml — два файла, с которых начинается знакомство поискового робота с сайтом. От их правильной настройки зависит, какие страницы попадут в индекс, а какие останутся незамеченными.
Что такое robots.txt
robots.txt — текстовый файл в корне сайта (site.ru/robots.txt), который управляет сканированием. Он работает как указатель для робота: «сюда можно заходить, сюда — нельзя».
Основные директивы
- User-agent — для какого поискового робота действуют правила
- Disallow — какие URL запрещены для сканирования
- Allow — исключение из Disallow
- Host — зеркало сайта (директива Яндекса)
- Sitemap — ссылка на карту сайта
- Clean-param — игнорирование GET-параметров (директива Яндекса)
- Crawl-delay — задержка между запросами робота
Типовой robots.txt
User-agent: *
Disallow: /admin/
Disallow: /search/
Disallow: /personal/
Disallow: /cart/
Host: https://site.ru
Sitemap: https://site.ru/sitemap.xml
Частые ошибки
- Disallow: / — закрывает весь сайт от индексации
- Отсутствие Host для Яндекса — могут возникнуть дубли с www/без www
- Запрет на CSS и JS — Google может хуже видеть страницу (хотя с 2020 года это менее критично)
- Пробелы и пустые строки — Яндекс строже читает robots.txt, чем Google
Что такое sitemap.xml
sitemap.xml — карта сайта для поисковых роботов. Она содержит URL всех значимых страниц, даты последнего обновления и приоритеты.
Типовой sitemap.xml
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://site.ru/</loc>
<lastmod>2026-05-28</lastmod>
<priority>1.0</priority>
</url>
<url>
<loc>https://site.ru/services/</loc>
<lastmod>2026-05-25</lastmod>
<priority>0.9</priority>
</url>
</urlset>
Как создать
- Вручную — для маленьких сайтов
- Через CMS-плагин (Yoast SEO, Rank Math для WordPress)
- Динамически — через скрипт или генератор статики
- Средствами фреймворка — Hugo, Jekyll и другие генерируют автоматически
Индекса sitemap
- Одна карта — до 50 000 URL или 50 МБ
- Если больше — разбейте на несколько и создайте индексный файл sitemap_index.xml
Как проверить файлы
- Яндекс Вебмастер → Индексирование → Проверка robots.txt
- Google Search Console → Индексация → Карта сайта
- Прямой доступ: откройте site.ru/robots.txt и site.ru/sitemap.xml в браузере
Коротко о главном
- robots.txt не гарантирует защиту от индексации — для конфиденциальных страниц используйте noindex
- sitemap.xml ускоряет обнаружение новых и обновлённых страниц
- Добавьте карту сайта в Яндекс Вебмастер и Google Search Console
- Проверяйте robots.txt и sitemap после каждого изменения структуры сайта
- Не закрывайте CSS и JS от сканирования — это ухудшает понимание страницы роботом
Проверить корректность robots.txt и sitemap можно в рамках технического SEO аудита — мы проанализируем все файлы и исправим ошибки.
Нужен технический аудит сайта? Оставьте заявку через форму обратной связи — проверим индексацию, robots.txt, sitemap и другие критичные параметры.