- Что такое robots.txt и зачем он нужен вашему сайту?
- Как работает robots.txt: принципы и важные ограничения
- Принцип работы
- Основные ограничения
- Синтаксис и директивы: язык общения с роботами
- Обязательные директивы: User-agent, Disallow, Allow
- Дополнительные директивы: Sitemap, Crawl-delay
- Устаревшие и редко используемые директивы (Host, Clean-param)
- Пошаговая инструкция: создание и настройка robots.txt
- Создание файла вручную и проверка синтаксиса
- Использование онлайн-генераторов: плюсы и минусы
- Где разместить файл? Требования к расположению и имени
- Проверка и валидация: как убедиться, что всё работает
- Инструменты для проверки (Google Search Console, Яндекс.Вебмастер)
- Частые ошибки валидации и их исправление
- Готовые решения и шаблоны для популярных CMS
- Универсальный шаблон для большинства сайтов
- Специфика для WordPress, 1С-Битрикс, Joomla, OpenCart
- Что нужно закрывать от индексации в первую очередь?
- Влияние robots.txt на SEO и краулинговый бюджет
- Частые ошибки в robots.txt и как их исправить
- Критические ошибки, блокирующие индексацию всего сайта
- Тактические ошибки, ведущие к потере трафика
- Синтаксические ошибки и опечатки
- Часто задаваемые вопросы (FAQ)
- Заключение и ключевые выводы
Что такое robots.txt и зачем он нужен вашему сайту?
Robots.txt — это текстовый файл, который выступает в роли дорожных знаков для поисковых роботов. Он указывает, какие разделы вашего сайта можно сканировать, а какие следует обходить стороной. Представьте, что ваш сайт — это большой торговый центр, а robots.txt — это схема, которая помогает посетителям быстрее находить нужные отделы, не заглядывая в служебные помещения.
Основные функции robots.txt:
-
Управление доступом поисковых роботов к контенту
-
Защита служебных разделов сайта от индексации
-
Указание расположения карты сайта (sitemap)
-
Оптимизация краулингового бюджета
Без правильно настроенного robots.txt поисковые системы могут начать индексировать дублирующийся контент, служебные страницы и другой маловажный материал, что негативно скажется на общем SEO.
Как работает robots.txt: принципы и важные ограничения
Принцип работы
Когда поисковый робот (например, от Google или Яндекс) заходит на ваш сайт, первым делом он ищет файл robots.txt по адресу: вашсайт.ru/robots.txt. Найдя его, робот изучает инструкции и следует им при дальнейшем обходе страниц.
Важное различие: robots.txt управляет именно сканированием (может ли робот зайти на страницу), но не индексацией (будет ли страница показана в результатах поиска). Если вы хотите полностью запретить индексацию страницы, нужно использовать другие методы — meta-тег noindex или заголовок X-Robots-Tag.
Основные ограничения
-
Robots.txt не гарантирует 100% защиту контента — его директивы носят рекомендательный характер
-
Файл не подходит для скрытия конфиденциальной информации
-
Не все поисковые роботы соблюдают правила, прописанные в файле
-
Запрет через robots.txt не удаляет уже проиндексированные страницы из поиска

Синтаксис и директивы: язык общения с роботами
Обязательные директивы: User-agent, Disallow, Allow
User-agent — определяет, для какого именно робота предназначены правила. Символ * означает всех роботов.
Пример:
text
User-agent: *
User-agent: Googlebot
User-agent: Yandex
Disallow — указывает пути и разделы, которые нужно исключить из сканирования.
Пример:
text
Disallow: /admin/
Disallow: /tmp/
Disallow: /private-file.html
Allow — разрешает сканирование конкретного пути, даже если он находится в заблокированном разделе.
Пример:
text
Disallow: /catalog/
Allow: /catalog/new-products/
Дополнительные директивы: Sitemap, Crawl-delay
Sitemap — указывает расположение карты сайта. Рекомендуется всегда добавлять эту директиву.
Пример:
Пример:
Устаревшие и редко используемые директивы (Host, Clean-param)
Host — ранее использовалась Яндексом для указания главного зеркала сайта. Сейчас эта функция реализована в Яндекс.Вебмастере.
Clean-param — помогает бороться с дублирующимся контентом, вызванным параметрами URL. Сложна в настройке и требует точного понимания структуры сайта.
Пошаговая инструкция: создание и настройка robots.txt
Создание файла вручную и проверка синтаксиса
-
Откройте текстовый редактор (Блокнот, Notepad++, VS Code)
-
Начните с определения пользователей:
-
Добавьте основные правила:
-
Укажите карту сайта:
-
Сохраните файл с именем
robots.txt(обратите внимание на расширение) -
Проверьте синтаксис — убедитесь, что нет лишних пробелов, все директивы написаны правильно
Использование онлайн-генераторов: плюсы и минусы
Плюсы:
Быстрое создание без знания синтаксиса
Автоматическая проверка на ошибки
Готовые шаблоны для популярных CMS
Минусы:
Ограниченная гибкость настройки
Возможность получения неоптимальных результатов
Зависимость от стороннего сервиса
Где разместить файл? Требования к расположению и имени
-
Точное расположение: корневая директория сайта (
https://вашсайт.ru/robots.txt) -
Имя файла: только
robots.txt(чувствительность к регистру зависит от сервера) -
Кодировка: UTF-8 рекомендуется для поддержки кириллицы
-
Размер: не более 500 КБ

Проверка и валидация: как убедиться, что всё работает
Инструменты для проверки (Google Search Console, Яндекс.Вебмастер)
Google Search Console:
-
Перейдите в раздел «Особенности файлов robots.txt»
-
Введите URL для тестирования
-
Проверьте, как робот Googlebot интерпретирует ваши правила
Яндекс.Вебмастер:
-
Откройте раздел «Инструменты» → «Анализ robots.txt»
-
Загрузите содержимое файла или укажите URL
-
Проанализируйте отчет на наличие ошибок и предупреждений
Частые ошибки валидации и их исправление
-
Опечатки в директивах → Проверьте правильность написания
-
Отсутствие двоеточия после директивы → Добавьте
: -
Использование абсолютных путей вместо относительных → Уберите домен из путей
-
Неверный порядок директив → Сначала User-agent, затем правила
-
Конфликтующие правила Allow и Disallow → Проверьте приоритеты
Готовые решения и шаблоны для популярных CMS
Универсальный шаблон для большинства сайтов
Типовой файл robots.txt для WordPress
text
User-agent: * Disallow: /bitrix/ Disallow: /local/ Disallow: /personal/ Disallow: /auth/ Disallow: /search/ Disallow: /cgi-bin/ Disallow: /*index.php$ Disallow: *bitrix_*= Disallow: *backurl=* Disallow: *back_url=* Disallow: *utm_*= Disallow: *utm=* Disallow: *openstat=* Disallow: *from=* Disallow: *gclid=* Disallow: *yclid=* Disallow: *?filter_ Disallow: *?arrFilter_ Disallow: *?set_filter= Disallow: *?sort= Disallow: *?order= Disallow: *?print= Disallow: *?register= Disallow: *?forgot_password= Disallow: *?change_password= Disallow: *?login= Disallow: *?logout= Disallow: *?action= Allow: /bitrix/*.css Allow: /bitrix/*.js Allow: /bitrix/*.png Allow: /bitrix/*.jpg Allow: /bitrix/*.gif Allow: /bitrix/*.svg Allow: /local/*.css Allow: /local/*.js Allow: /local/*.png Allow: /local/*.jpg Allow: /local/*.gif Allow: /local/*.svg Allow: */upload/ Host: https://www.your-site.ru Sitemap: https://your-site.ru/sitemap.xml
Типовой файл robots.txt для 1С-Битрикс
text
User-agent: * Disallow: /bitrix/ Disallow: /local/ Disallow: /personal/ Disallow: /auth/ Disallow: /search/ Disallow: /cgi-bin/ Disallow: /*index.php$ Disallow: *bitrix_*= Disallow: *backurl=* Disallow: *back_url=* Disallow: *utm_*= Disallow: *utm=* Disallow: *openstat=* Disallow: *from=* Disallow: *gclid=* Disallow: *yclid=* Disallow: *?filter_ Disallow: *?arrFilter_ Disallow: *?set_filter= Disallow: *?sort= Disallow: *?order= Disallow: *?print= Disallow: *?register= Disallow: *?forgot_password= Disallow: *?change_password= Disallow: *?login= Disallow: *?logout= Disallow: *?action= Allow: /bitrix/*.css Allow: /bitrix/*.js Allow: /bitrix/*.png Allow: /bitrix/*.jpg Allow: /bitrix/*.gif Allow: /bitrix/*.svg Allow: /local/*.css Allow: /local/*.js Allow: /local/*.png Allow: /local/*.jpg Allow: /local/*.gif Allow: /local/*.svg Allow: */upload/ Host: https://www.your-site.ru Sitemap: https://your-site.ru/sitemap.xml
Типовой файл robots.txt для OpenCart
Что нужно закрывать от индексации в первую очередь?
-
Административные разделы (
/admin/,/wp-admin/) -
Системные папки (
/includes/,/bitrix/) -
Служебные параметры (фильтры, сортировки)
-
Дубли страниц (печатные версии, версии для мобильных)
-
Конфиденциальные данные (формы оплаты, личные кабинеты)
Влияние robots.txt на SEO и краулинговый бюджет
Краулинговый бюджет — это количество страниц, которые поисковый робот может просканировать на вашем сайте за один визит. Правильная настройка robots.txt напрямую влияет на его эффективное использование.
Как оптимизировать краулинговый бюджет через robots.txt:
-
Закройте нерелевантные страницы — это направит робота к важному контенту
-
Исключите дублирующийся контент — параметры сортировки, фильтры
-
Заблокируйте служебные разделы — чтобы робот не тратил время на технические страницы
-
Используйте Crawl-delay для ресурсоемких сайтов
Результат правильной настройки — более быстрая и полная индексация полезного контента, что положительно сказывается на позициях в поисковой выдаче.
Частые ошибки в robots.txt и как их исправить
Критические ошибки, блокирующие индексацию всего сайта
Ошибка:
Disallow: /
Последствие: полный запрет сканирования сайта
Решение: заменить на конкретные пути или убрать директиву
Ошибка: Неправильное использование
Disallow:
Пример:Disallow: https://site.ru/admin/
Решение: использовать относительные пути —Disallow: /admin/
Тактические ошибки, ведущие к потере трафика
Ошибка: Случайный запрет на сканирование CSS и JS файлов
Последствие: ухудшение понимания структуры сайта роботом
Решение: разрешить доступ к статическим ресурсам
Ошибка: Запрет сканирования страниц с пагинацией
Последствие: неполная индексация разделов каталога
Решение: разрешить сканирование пагинации или использоватьrel="canonical"
Синтаксические ошибки и опечатки
-
User-agent: → User-agent:
-
Disalow → Disallow
-
Sitemap: → Sitemap:
-
Пропущенные двоеточия и пробелы
Часто задаваемые вопросы (FAQ)
Вопрос: Можно ли использовать robots.txt для защиты конфиденциальной информации?
Ответ: Нет, robots.txt не обеспечивает защиту данных. Для конфиденциальной информации используйте пароли, .htaccess или noindex.
Вопрос: Сколько времени нужно, чтобы изменения в robots.txt вступили в силу?
Ответ: Поисковые системы обнаруживают изменения при следующем визите робота — обычно от нескольких дней до нескольких недель.
Вопрос: Нужно ли отдельно настраивать robots.txt для Яндекс и Google?
Ответ: Можно создать общие правила для всех роботов (
User-agent: *) или специфичные для конкретных систем.
Вопрос: Что важнее — robots.txt или sitemap.xml?
Ответ: Оба файла важны и дополняют друг друга. Robots.txt управляет доступом, sitemap.xml помогает найти важный контент.
Вопрос: Можно ли восстановить позиции после ошибочной настройки robots.txt?
Ответ: Да, после исправления ошибок и переобхода страниц роботом позиции обычно восстанавливаются.
Заключение и ключевые выводы
Robots.txt — это мощный инструмент технической SEO-оптимизации, который при правильном использовании значительно улучшает индексацию сайта. Ключевые моменты для запоминания:
-
Robots.txt управляет сканированием, а не индексацией
-
Файл должен находиться в корне сайта с именем robots.txt
-
Всегда проверяйте настройки через инструменты вебмастеров
-
Избегайте запрета сканирования всего сайта (
Disallow: /) -
Регулярно обновляйте файл при изменениях структуры сайта
-
Используйте специфичные шаблоны для вашей CMS
Правильно настроенный robots.txt — это не просто техническая формальность, а стратегический инструмент управления вниманием поисковых роботов и оптимизации краулингового бюджета вашего сайта.
Узнать больше про техническую оптимизацию сайта вы можете из статьи — если Вам необходима провести SEO аудит сайта или комплексное SEO продвижение пишите мне в телеграмм @raiseskills








