Введение
Файл robots.txt – это текстовая инструкция для поисковых роботов, определяющая, какие разделы сайта можно сканировать и индексироватьcalltouch.rucalltouch.ru. В каждой CMS (система управления сайтом) роль robots.txt одинакова – оптимизировать процесс краулинга и защитить сайт от нежелательной индексации служебных страниц. Правильно настроенный robots.txt помогает поисковикам быстрее обойти сайт и сосредоточиться на важном контенте, исключая дубли и технические разделыcalltouch.rucalltouch.ru. При этом нужно учитывать нюансы разных платформ и требования поисковых систем Яндекса и Google на текущий момент (июнь 2025 года).
Ниже мы рассмотрим примеры рабочих файлов robots.txt для популярных CMS – от WordPress и 1C-Битрикс до Tilda, Joomla, Drupal, OpenCart, Netcat, MODX и Shopify. Каждый пример сопровождается пояснениями: какие директивы используются, как учитывается файл карты сайта (sitemap.xml), как обрабатывать мультиязычные разделы, какие правила ставить для исключения параметров и дублей. Также приведём рекомендации с учётом актуальных требований Яндекса и Google, а в конце – советы экспертов: чего избегать при настройке robots.txt.
WordPress: пример файла robots.txt
WordPress не создаёт
robots.txt автоматически, поэтому вебмастеру нужно добавить его вручную в корень сайта (на уровне папки wp-admin
)wpcourses.ru.
Хороший robots.txt для WordPress закрывает от индексирования технические разделы движка и дубль-страницы, но
позволяет роботам загружать важные файлы стилей, скриптов и изображенияwpcourses.ru.
Ниже приведён пример базового robots.txt для WordPress-сайта:
textUser-agent: * Disallow: /wp- # запрет всех папок WP (wp-admin, wp-includes, wp-content и пр.) Disallow: /tag/ # запрет страниц тегов Disallow: */trackback # запрет устаревших trackback-URL Disallow: */page # запрет пагинации (/page/2 и т.д.) Disallow: /author/* # запрет архивов авторов Disallow: /template.html # запрет служебного шаблона (если есть) Disallow: /readme.html # запрет стандартного readme WordPress Disallow: *?replytocom # запрет дублей комментариев с параметром replytocom Allow: */uploads # разрешить обход папки загрузок (медиафайлы) Allow: *.js # разрешить JS-скрипты Allow: *.css # разрешить CSS-стили Allow: *.png Allow: *.gif Allow: *.jpg Sitemap: https://ваш-домен/sitemap.xml
Как видно из примераwpcourses.ruwpcourses.ru,
Disallow закрывает все технические URL WordPress (папки,
начинающиеся на wp-
), страницы тегов, архивы авторов, пагинацию и
прочие дублирующиеся страницы. В то же время блок Allow явно
разрешает поисковикам загружать статические ресурсы – изображения, JavaScript и CSSwpcourses.ru.
Это важно: если не разрешить их, Google и Яндекс не смогут корректно отрисовать страницу, что ухудшит оценку её
удобства. В конце обязательно указываем путь к карте сайта (Sitemap:
) – поисковики найдут все URL в sitemap.xml и проиндексируют их быстрееwpcourses.ru.
WooCommerce (интернет-магазин на WordPress): Для сайта на WordPress с плагином WooCommerce стоит дополнительно закрыть от индексирования страницы корзины и оформления заказа, а также типовые URL добавления товаров. Например:
text# Фрагмент для WooCommerce Disallow: /cart/ Disallow: /checkout/ Disallow: /*add-to-cart=* Disallow: /my-account/
Эти правила (как рекомендовано сообществом WooCommerce) предотвращают попадание в индекс пустых корзин, личных кабинетов и технических URL добавления товара в корзинуwpcourses.ru. В остальном robots.txt для WooCommerce аналогичен обычному WordPress: включаем все вышеперечисленные директивы WordPress и добавляем блок WooCommerce.
Практические фишки: При
настройке WordPress-роботса избегайте генераторов случайных инструкций – лучше составить файл вручную под
структуру своего сайтаwpcourses.ru.
Полезно закрыть страницы результатов поиска WordPress (*?s=
или
/search
), если они не приносят ценного контента, а также
отключить индексацию архивов дат, меток и авторов, чтобы не плодить дубли. Вместе с robots.txt применяйте и
другие методы борьбы с дублями (например, тег rel=canonical
и
отключение лишних архиваций в настройках SEO-плагинов).
1C-Битрикс: пример файла robots.txt
1С-Битрикс – популярная
коммерческая CMS, требующая особенно тщательной настройки robots.txt. Битрикс генерирует множество служебных URL
и параметров (фильтры, сортировки, сессии), которые следует закрыть от индексацииaprioricorp.ruaprioricorp.ru.
Кроме того, в Битриксе часто используются многосайтовость и
ЧПУ (человеко-понятные URL), о чём тоже нужно помнить. Каждый сайт (домен) в рамках одной установки Битрикс
должен иметь свой файл robots.txt с указанием главного зеркала (директива Host
) для Яндекса.
Ниже приведён усреднённый пример robots.txt для сайта на 1C-Битрикс (с комментариями):
textUser-agent: * Disallow: /bitrix/ # системная папка ядра Битрикс Disallow: /local/ # альтернативная папка для модулей и шаблонов Disallow: /personal/ # личный кабинет пользователей Disallow: /search/ # страница поиска (если не нужна в выдаче) Disallow: */index.php$ # дубли главной страницы с index.php Disallow: /*?sort= # параметры сортировки Disallow: /*?filter= # параметры фильтра каталога Disallow: /*&utm_* # UTM-метки от рекламных ссылок Disallow: /*PHPSESSID # сессионные идентификаторы Disallow: /*clear_cache # прочие служебные параметры Allow: /upload/* # открыть папку с пользовательскими файлами (изображения и др.) Allow: /bitrix/*.js # разрешить скрипты из системных папок Allow: /bitrix/*.css # разрешить стили из системных папок Allow: /local/*.js Allow: /local/*.css Sitemap: https://ваш-домен/sitemap.xml Host: ваш-домен.ru
В этом шаблоне мы закрываем от роботов все внутренности Битрикс (/bitrix/
и /local/
),
личные кабинеты (/personal/
), страницы поиска и явные дубли
(index.php
в URL)aprioricorp.ruaprioricorp.ru.
Далее перечисляем десятки параметров, вызывающих дублирование
страниц – например, сортировка (sort
), фильтрация
(filter
), добавление в сравнение, пагинация (PAGEN_
), UTM-метки, сессионные параметры и т.д.aprioricorp.ruaprioricorp.ru.
Такие URL не нужно индексировать, поэтому для каждого указан Disallow
.
Обратите внимание на директивы Allow: мы открываем для индексирования ключевые системные каталоги, содержащие
CSS, JS и медиафайлы шаблонов (папки templates
, js
, а также файлы .css
, .js
, .jpg
, .png
и
т.п.)aprioricorp.ruaprioricorp.ru.
Это необходимо, чтобы поисковики могли загрузить стили и скрипты сайта и не считали страницы «голыми». Для
ограничения нагрузки можно добавить Crawl-delay
, но Google эту
директиву игнорирует, а Яндекс обычно сам регулирует скорость обхода; в примере для всеядности указан Crawl-delay: 30
aprioricorp.ru.
В конце файла для Битрикс всегда указывайте Host
– главное зеркало сайта для
Яндексаseven-flares.ru.
Эта директива должна быть единственной и прописывается в robots.txt
домена, который вы считаете основным (например, с www
или без, с
HTTPS или HTTP) – Яндекс будет ориентироваться на неё при склеивании зеркал. Для Google же строка Host
безразлична (он её игнорирует)aprioricorp.ruseven-flares.ru,
но ничего страшного, она не мешает.
Многосайтовость Битрикс:
если одна установка Битрикс обслуживает несколько сайтов (доменов), то для каждого домена формируется свой
robots.txt (через административный интерфейс Битрикс или вручную)dev.1c-bitrix.rusearchengines.guru.
В каждом таком файле Host
будет указывать на соответствующий
домен. В остальном правила схожи: закрываются типовые каталоги /bitrix/
и /local/
(они общие для всех
сайтов в системе), а также разделы и параметры, специфичные для конкретного сайта.
Советы от
битрикс-разработчиков: Битрикс имеет встроенный “Стартовый набор robots.txt” – шаблон, который можно использовать как основуintervolga.ruaprioricorp.ru.
Однако его нужно дополнять под особенности проекта. Обязательно проверяйте через Яндекс.Вебмастер, не ругается
ли робот на дубли (Найдено в исключённых
) – возможно, придётся
добавить Clean-param
или дополнительные Disallow
для очистки дублей. Учтите новый параметр Яндекса ysclid
(и аналогичные) – его тоже желательно указать в Clean-param или Disallowaprioricorp.ru.
Clean-param – специфичная директива Яндекса для борьбы с дублями
через параметры; её можно добавить в конец robots.txt, указав ненужные параметры и каноничный URL без нихyandex.ru.
Хотя некоторые SEO-специалисты считают, что Clean-param теряет
актуальность и поисковики сами разберутсяwpcourses.ru,
в случае с крупными битрикс-магазинами это всё ещё полезный инструмент.
Tilda: особенности файла robots.txt
Tilda – это
SaaS-платформа-конструктор сайтов, которая автоматически генерирует robots.txt и sitemap.xml для каждого
опубликованного сайтаtilda.cc.
Пользователю не нужно вручную загружать файл – достаточно посмотреть его по адресу your-site.com/robots.txt
. По умолчанию тильдовский robots.txt содержит правила для
всех роботов (User-agent: *
) и уже закрывает ряд служебных
страниц, а также подключает карты сайта.
Особенности стандартного robots.txt на Tilda:
-
Прописывается Host с основным зеркалом сайта и перечисляются ссылки на sitemap.xml. Если у сайта включён каталог товаров или блог (модули «Каталог» и «Потоки»), то генерируются до трёх карт: основная, для товаров (
sitemap-store.xml
) и для постов блога (sitemap-feeds.xml
)seven-flares.ruseven-flares.ru. Пример фрагмента:textSitemap: https://mysite.com/sitemap.xml Sitemap: https://mysite.com/sitemap-store.xml Sitemap: https://mysite.com/sitemap-feeds.xml Host: mysite.com
-
Дисаллоу по умолчанию: Tilda сама закрывает от индексации некоторые технические URL. В частности, виртуальные страницы для целей аналитики (
/tilda/
...), старый фрагмент AJAX-краулинга (*_escaped_fragment_*
) и страницы личного кабинета (/members/
...)seven-flares.ru. Также Tilda автоматически не индексирует стандартные включаемые блоки – header и footer сайта, и страницу ошибки 404seven-flares.ruseven-flares.ru. Эти правила видны в разделеDisallow:
вашего robots.txt на Тильде. Например:textUser-agent: * Disallow: /tilda/ Disallow: /*_escaped_fragment_ Disallow: /members/ Disallow: # (пустая строка Disallow означает, что больше нет запретов) Sitemap: ... (перечислены карты сайта) Host: ... (ваш домен)
-
Если вы в настройках Tilda запрещаете индексировать конкретную страницу, то в самом robots.txt эта страница не появится отдельной строкой. Вместо этого Tilda добавляет на страницу мета-тег
robots
сnoindex
seven-flares.ruseven-flares.ru. Это означает, что даже при отсутствии запрета в robots.txt поисковик узнает из метатега, что страницу индексировать не надо. Аналогично, запрет индексации всего сайта в настройках Tilda (флажок «Запретить поисковикам индексировать этот сайт») автоматически допишет в robots.txt строкуDisallow: /
для всех User-agentseven-flares.ru.
Интернет-магазин на
Tilda: платформа не даёт возможности выборочно закрывать отдельные карточки товаров через
robots.txt (нет ручного редактирования файла). Однако можно отключить генерацию sitemap для каталога товаров,
либо пойти хитрым путём: закрыть от индексации саму страницу каталога – тогда поисковики не будут заходить и на
страницы товаров, URL которых содержат этот разделseven-flares.ru.
Например, если все товары выведены на странице /catalog
,
установите для неё «не индексировать» – Tilda добавит noindex
для всех страниц вида /catalog/…
. Но будьте осторожны:
убедитесь, что все реальные страницы имеют человеко-понятные URL, иначе можно случайно закрыть системные
страницы вида /pageXXXX.html
(их Tilda тоже закрывает, если вы
создали фиктивную страницу /page
и скрыли еёseven-flares.ru).
Совет: Проверьте файл
robots.txt вашего тильда-сайта после публикации. Обычно он уже оптимизирован, но если нужно добавить кастомные
правила (например, закрыть конкретный URL или добавить Clean-param для Яндекса), придётся использовать настройки
Tilda (раздел SEO) – прямой редакции файла нетseven-flares.ru.
В SEO-настройках Tilda можно задать параметры Clean-param, которые появятся отдельным блоком User-agent: Yandex
в файлеseven-flares.ruseven-flares.ru.
Таким образом, даже на Tilda можно учесть нежелательные параметры в URL через Clean-param (актуально, если сайт
на Tilda страдает от дублей из-за UTM или фильтров).
Robots.txt для других CMS
Теперь рассмотрим, как выглядят правильные robots.txt для других популярных CMS: Joomla, Drupal, OpenCart, NetCat, MODX и Shopify. Каждая из них имеет свою структуру папок и типичные “мусорные” страницы, которые нужно скрыть от поисковых роботов.
Joomla
Платформа Joomla традиционно поставляется с примером файла robots.txt, где сразу запрещены к индексации все служебные директории ядра. Правильный robots.txt для Joomla содержит примерно следующее:
textUser-agent: * Allow: /images # открыть папку с изображениями Disallow: /administrator/ Disallow: /cache/ Disallow: /components/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /*?start=* # запрет индексировать страницы пагинации Disallow: /xmlrpc/ Sitemap: http://site.ru/sitemap.xml Host: www.site.ru
В этом примере мы видим, что все
системные папки Joomla закрыты от индексации (админка, кэш, плагины, шаблоны и т.д.)altera-media.comaltera-media.com.
Исключение сделано для папки /images
, чтобы изображения (медиа)
сайта могли сканироваться и попадать в поиск картинокaltera-media.comaltera-media.com.
Также запрещены динамические URL пагинации (?start=
) и XML-RPC
интерфейс, который не нужен в выдачеaltera-media.comaltera-media.com.
В конце указываем Sitemap и Host (если основной домен с www, как в примере выше)altera-media.comaltera-media.com.
Примечание: В Google для
Joomla (как и для других CMS) желательно явно разрешить CSS и
JS. В приведённом варианте это не сделано, но можно добавить строки Allow: *.css
и Allow: *.js
под
блоком Googlebot, если вы разделяете правила по роботамaltera-media.comaltera-media.com.
Многие SEO-специалисты обновляют дефолтный robots.txt Joomla, чтобы не препятствовать рендерингу страниц
Google-ботом.
Drupal
Drupal известен обилием системных файлов и страниц, которые не должны попасть в индекс. Рекомендуемый robots.txt для Drupal закрывает практически все внутренние пути, оставляя открытыми только нужные разделы (например, публичный контент). Пример фрагмента robots.txt для Drupal-сайта:
textUser-agent: * Disallow: *comment* # запрет ссылок, содержащих "comment" Disallow: *login* # запрет страниц логина Disallow: *register* # и регистрации Disallow: /*?sort* # запрет сортировок через параметры Disallow: /*/edit # запрет режимов редактирования Disallow: /admin # запрет административной панели Disallow: /modules # системные папки и файлы: Disallow: /includes Disallow: /profiles Disallow: /sites/default/files/ # (пример: закрыть стандартную папку файлов, если там приватные файлы) Disallow: /core Disallow: /misc Disallow: /node/ Disallow: /search Disallow: /user Disallow: /cron.php Sitemap: https://site.ru/sitemap.xml
Комментарии к примеру: символ *
используется для запрета любых URL, содержащих определённые подстроки (например,
“comment” закроет все страницы комментариев)jeto.ru.
Drupal имеет множество служебных скриптов (cron.php, install.php и др.), папок с модулями, темами, профилями –
их все желательно Disallow, как показано вышеjeto.rujeto.ru.
Обратите внимание, что мы закрываем и страницы поиска
(/search
), и пользовательские профили/логины (/user
, /user/login
и т.д.), если они не предназначены для индексацииjeto.rujeto.ru.
По умолчанию Drupal генерирует свой базовый robots.txt при установке – его
можно взять за основу. Обычно там уже запрещены: все /core
,
/modules
, /profiles
, /scripts
, /themes
и др., а также файлы LICENSE.txt, INSTALL.txt и прочие,
которые идут в дистрибутивеjeto.rujeto.ru.
В 2025 году эти рекомендации остаются актуальными: максимально
закрыть техническое, оставить открытым только контент. Не забудьте включить Sitemap (многие
Drupal-модули генерируют sitemap.xml автоматически).
OpenCart
Для интернет-магазина на OpenCart важно закрыть от индексации страницы корзины, аккаунта, оформления заказа, а также всевозможные параметрические дубли (фильтры, сортировки, пагинация). Пример robots.txt для OpenCart:
textUser-agent: * Disallow: /*route=account # запрет личного кабинета (в URL есть route=account) Disallow: /*route=checkout # запрет оформления заказа Disallow: /*route=product/search Disallow: /*filter_name= # параметры фильтра товаров Disallow: /*filter_category= Disallow: /*sort= Disallow: /*order= Disallow: /*page= # пагинация через параметр Disallow: /admin/ # папка админки Disallow: /system/ # системные файлы Disallow: /storage/ # хранилище (в новых версиях OpenCart) Disallow: /catalog/ # исходные файлы движка (если присутствуют) Disallow: /index.php?route=common/home # главная страница через index.php (дубль) Allow: *.css # разрешить CSS и JS для Google Allow: *.js Sitemap: https://site.ru/sitemap.xml Host: site.ru
Объяснение: мы закрываем все URL, где route=
указывает на не нужные в поиске разделы (аккаунт, аффилиаты, чекаут и
пр.)altera-media.comaltera-media.com.
Также под запретом параметры пагинации и фильтрации (filter_name
, sort
, order
, page
и
т.д.)altera-media.comaltera-media.com
– это поможет избежать индексации дублей товаров с разными
сортировками или фильтрами. Закрыты стандартные директории движка: /admin
, /system
, /storage
, а также технические скрипты типа главной страницы index.php?route=common/home
altera-media.comjeto.ru.
Для Googlebot мы добавили Allow: *.css
и Allow: *.js
,
поскольку OpenCart часто загружает стили/скрипты из своих каталогов, и их нельзя блокироватьaltera-media.comaltera-media.com.
В конце – указание на Sitemap (обычно в OpenCart она одна общая) и Host (если сайт на русском домене, для
Яндекса можно прописать)altera-media.comaltera-media.com.
Примечание: У OpenCart
также нередко бывают SEO-фильтры, добавляющие в URL всякие комбинации типа ?tracking=...
или метки кампаний – их тоже стоит включить в Disallow при
необходимостиaltera-media.comaltera-media.com.
Следите за отчетами Яндекс.Вебмастера: если он показывает в «Исключённых» страницы вида /catalog/?something
, добавьте соответствующее правило.
NetCat
CMS NetCat менее распространена вне Рунета, но имеет свои нюансы. Вот пример рекомендованного robots.txt для NetCat:
textUser-agent: * Disallow: /*.swf # запрет индексировать Flash-файлы Disallow: /*? # запрет любых URL с параметрами (чтобы исключить дубли) Disallow: /eng # пример: если есть английская версия на /eng/, можно закрыть, если она не нужна в индексе Disallow: /install # папка установки системы Disallow: /js/ # скрипты (если не нужны роботам) Disallow: /netcat/ # системная папка NetCat Disallow: /netcat_cache/ Disallow: /netcat_dump/ Disallow: /netcat_files/ # служебные каталоги (кэш, дампы, файлы системы) Sitemap: http://site.ru/sitemap.xml Host: site.ru
Здесь ключевое: закрыты все внутренние директории NetCat (/netcat*
) и любые динамические URL с параметрами (*?
)jeto.ru.
Если ваш сайт на NetCat мультиязычный и, скажем, имеет отдельную папку /eng
для английской версии, вы можете либо открыть её для индексации, либо закрыть,
как показано (в примере мы предполагаем, что русская версия – основная, английскую решено не индексировать).
Разумеется, реальный выбор зависит от ваших задач: зачастую разные языковые разделы индексируются раздельно (см. раздел про мультиязычные сайты ниже).
Обратите внимание, что NetCat с версии 5.9 поддерживает макропеременные в robots.txt – например, %SCHEME
для указания протокола в Sitemap и Hostnetcat.ru.
Это удобно, если сайт может открываться по HTTP/HTTPS, но обычно для консистентности лучше явно прописать
корректные ссылки (как выше).
MODX
MODX – гибкий
фреймворк/CMS, где разработчики часто самостоятельно настраивают правила. Однако общие рекомендации такие:
запретить индексацию служебных разделов (/assets/
, /core/
, /manager/
и пр.) и параметрических дублирующих URL. Пример robots.txt для MODX:
textUser-agent: * Disallow: /*? # запрет всех запросов с параметрами Disallow: /assets/ # папка с ассетами (может включать изображения, смотрите сами) Disallow: /core/ # ядро MODX Disallow: /connectors/ # скрипты-коннекторы Disallow: /manager/ # админ-панель Disallow: /assets/components/ Disallow: /assets/cache/ Disallow: /assets/templates/ Disallow: /setup/ # папка установки (если осталась) Sitemap: https://site.ru/sitemap.xml Host: site.ru
Заметим, что мы закрыли всю папку /assets/
. В MODX там находятся и полезные файлы (например, картинки сайта), но
зачастую медиаконтент выносится в другую папку или на CDN. Если у вас все изображения хранятся в /assets/images/
, то вместо полного запрета /assets/
можно закрыть выборочно лишние подпапки (/assets/snippets/
, /assets/components/
и т.д.)jeto.rujeto.ru,
а /assets/images/
оставить открытой или явно разрешить.
Обязательному закрытию подлежат /core/
(ядро), /manager/
(админка)
– эти директории не должны быть видны поисковикуjeto.ru.
Также запрещаем любые URL с ?
(динамические запросы), если
логика сайта не предполагает полезных для SEO параметровjeto.ru.
Как всегда, не забываем про Sitemap и Host.
Shopify
Shopify – это
SaaS-платформа для интернет-магазинов. Здесь файл robots.txt генерируется автоматически и по умолчанию оптимально настроен под e-commerce. В 2021 году Shopify наконец
позволила редактировать robots.txt (через шаблон robots.txt.liquid
), но большинству пользователей хватит стандартных правилgofishdigital.comgofishdigital.com.
Что же блокирует Shopify по умолчанию? К примеру:
textUser-agent: * Disallow: /search # внутренний поиск магазина Disallow: /cart # корзина Disallow: /checkout # оформление заказа (многоступенчатый процесс) Disallow: /account # личный кабинет пользователя Disallow: /collections/*+* # комбинации фильтров в коллекциях (фасетная навигация) Sitemap: https://your-shopify-domain/sitemap.xml
Эти правила взяты из дефолтного robots.txt Shopifygofishdigital.com.
Видно, что Shopify заботится о дублированном контенте:
закрыты страницы поиска (не нужны в индексе), корзина и чек-аут (чтобы не индексировались незавершённые
покупки), личный кабинет, а также особый синтаксис /collections/*+*
– он блокирует многосоставные фильтры в категориях товаров (например, сочетание нескольких
тегов/фильтров, которое генерирует динамическую страницу).
Shopify автоматически подключает файл sitemap.xml
вашего магазина (в нем обычно сводная карта сайта с разделами для
продуктов, коллекций, блогов и страниц магазина)gofishdigital.com.
Директивы Allow
обычно не прописаны, так как Shopify по
умолчанию не запрещает CSS/JS – они лежат на открытых CDN-доменах или доступных путях. Если же нужна тонкая
настройка (например, закрыть какие-то специфичные страницы, или наоборот разрешить что-то из заблокированного),
вы можете внести правки в robots.txt.liquid. Shopify
позволяет добавлять/удалять правила и даже прописывать задержку обхода или блокировать лишних ботовhelp.shopify.comhelp.shopify.com.
Однако разработчики Shopify предупреждают: делать это нужно осторожно, чтобы не потерять трафик, и при
возможности лучше сохранить основные дефолтные правила, так как они выверены под SEO большинства магазиновhelp.shopify.comgofishdigital.com.
На заметку: В Shopify иногда возникает вопрос – почему в robots.txt присутствуют дисаллоу для некоторых страниц (например, политики /policies или дубли коллекций). Эти правила добавляются намеренно, чтобы предотвратить индексацию юридических страниц (условия, политика возврата) и избежать дублей контента. Если вы проверили свой robots.txt и увидели там неожиданные строки, обратитесь к документации Shopify – скорее всего, это часть стандартной конфигурации, которую не стоит менятьreddit.comgofishdigital.com.
Учёт карты сайта (Sitemap.xml) в robots.txt
Карта сайта (sitemap.xml) играет ключевую роль в быстром индексировании – она перечисляет все страницы, которые должны попасть в поиск. В файле robots.txt необходимо указать ссылку на sitemap.xml вашего сайтаaltera-media.com. Формат простой:
arduinoSitemap: https://ваш-домен/sitemap.xml
Эта строка информирует и Яндекс, и Google о расположении карты сайта, и обычно роботы читают её в первую очередь. Если карт несколько (например, отдельные для разделов или языков), перечислите каждую с новой строкиjeto.ru. Многие CMS генерируют индекс карт (sitemap_index.xml) – его тоже можно указать, хотя поисковики сами найдут дочерние карты по ссылкам внутри индекса.
Важно, чтобы URL в директиве Sitemap
указывал на актуальный домен и протокол. Если сайт доступен по HTTPS,
убедитесь, что и карта тоже на HTTPS. Для мультиязычных сайтов иногда делают раздельные карты (например, /en/sitemap.xml
для английской версии) – вы можете включить их
все. Лимит Google – 50000 URL в одной карте, поэтому большие сайты дробят карты по разделам (это нормально и
robots.txt поддерживает несколько Sitemap).
Учтите, что директива Sitemap необязательна, но крайне желательна. Без неё поисковики попробуют найти sitemap.xml по стандартному адресу, но лучше явно прописать. Кроме того, Яндекс.Вебмастер и Google Search Console позволяют указать Sitemap напрямую – это дополняет, но не заменяет строчку в robots.txt.
Мультиязычные сайты и robots.txt
Для многоязычных сайтов существуют разные архитектуры – субдомены (ru.site.com / en.site.com), подпапки (site.com/ru/ / site.com/en/) или отдельные домены (site.ru, site.com и т.п.). От этого зависит подход к robots.txt:
-
Разные домены или поддомены для языков: каждый сайт по сути самостоятельный, у него свой корневой каталог. Тут надо размещать отдельный robots.txt на каждом домене/поддомене. Например, для en.site.com – свой файл с
Host: en.site.com
(если это отдельный сайт) и своими Sitemap. Обычно содержимое правил похоже, ноHost
иSitemap
указываются на соответствующий адрес. Также можно указать директивуHost
на основной язык, если вы хотите, чтобы Яндекс считал главным, скажем, русскоязычный домен (но корректнее на каждом домене указывать свой же Host). Каждый язык ведёт себя как отдельный сайт с точки зрения robots.txt. -
Языковые разделы в подпапках одного домена: в этом случае robots.txt один для всех языков. Вы не можете выбрать разные Host, так как хост один. Но вы можете при необходимости закрыть от индексации какой-то языковой раздел, если, например, он ещё находится в разработке или является дублем контента. Делается это просто:
Disallow: /en/
(закроет весь раздел /en/ от сканирования). Однако обычно все языковые версии, опубликованные на сайте, должны индексироваться, а управление дублями и связью между ними выполняется через<link rel="alternate" hreflang="...">
на страницах, а не через robots.txt. Robots-файл же в мультиязычном сайте в подпапках, как правило, не различает языки: те же правила Disallow действуют для всех разделов. Исключение – ситуации, когда структуры разных языков сильно отличаются и требуют разных запретов (редко, но можно прописать, напр.Disallow: /en/admin/
отдельно, если админский раздел есть только на английской версии). -
Ограничение индексации для вторичных языков: иногда владельцы сайта хотят продвигать только основной язык, а остальные закрыть от индексации (например, сырой машинный перевод). Тогда в robots.txt можно запретить целиком разделы вторичных языков (
Disallow: /fr/
,/de/
и т.п.). Это быстро скроет эти страницы из поиска. Но учтите: лучше также поставить на них метатегnoindex, follow
– поскольку Яндекс может при запрете в robots всё равно учитывать ссылки. Google же при Disallow будет знать о странице, но не индексировать содержимое.
Host и язык: директива
Host
не имеет механизма указания языка. Она просто сообщает
Яндексу предпочтительный домен. Поэтому в контексте мультиязычности Host полезен только для выбора основного
зеркала между www/non-www или разными доменными зонами, но не для разделов. Например, если у вас site.ru (рус) и
site.com (англ) с одинаковым содержимым, можно на обоих указать Host: site.ru
чтобы Яндекс склеил дубль и выбрал русский домен главным. Однако при
различном контенте (полноценный перевод) не нужно склеивать
зеркала! – лучше явно указать разные Host (или не указывать вовсе, тогда Яндекс сам их не склеит,
если языки разные).
Пример: Сайт example.com
имеет версии на русском (/ru/
) и английском (/en/
). Мы хотим, чтобы обе индексировались. Robots.txt будет
один, и, скажем, закрывать админку: Disallow: /ru/admin/
и
Disallow: /en/admin/
(можно обобщённо Disallow: */admin/
). В Sitemap можно включить URL обоих языков или сделать две
строки Sitemap (например, .../sitemap_ru.xml
и .../sitemap_en.xml
). На каждой странице настроим hreflang-ссылки,
а robots.txt больше ничего специального не требует.
Рекомендации по Allow/Disallow и исключению параметров
Грамотно составленные директивы Allow и Disallow – сердце эффективного robots.txt. Вот ключевые рекомендации:
-
Разрешайте важные ресурсы: Убедитесь, что не запрещены CSS, JS, изображения и другие ресурсы, критичные для отображения страниц. Google и Яндекс хотят видеть страницу полностью, поэтому блокировать папки вроде
/wp-content/themes/
или/bitrix/templates/
без Allow – плохая практикаaltera-media.comaltera-media.com. Лучший подход – запретить всю папку, но сразу разрешить в ней нужные типы файлов, как мы делали выше (например,Disallow: /wp-content/
+Allow: *.css
иAllow: *.js
внутри неё). Или прописать Allow для конкретных путей (например, для/wp-content/uploads/
). Ошибка №4 по версии SEO-экспертов – полностью блокировать скрипты и стили в robots.txtkokoc.com. -
Закрывайте служебные разделы и дубли: Всегда Disallow для административных разделов (
/wp-admin/
,/administrator/
,/bitrix/
и т.п.), страниц входа, регистрации, личных кабинетов и т.д. Пользователи их в поиске не ищут, а вот злоумышленники могут использовать. К тому же, индексация таких страниц бесполезна и даже вредна (например, выдача может показывать ссылку «Войти» вместо ваших товаров). Также закрывайте стандартные дубли контента: в блогах – страницы тегов и архивов, в интернет-магазинах – страницы сортировки, фильтрации, пагинации (обычно в URL они содержатpage=
,sort=
или вплоть до специальных параметров типаPAGEN_1
в Битриксе). На Битриксе и OpenCart мы перечислили десятки таких параметров – берите пример и адаптируйте под свой сайтaprioricorp.ruaprioricorp.ru. -
Исключайте параметры отслеживания: Все UTM-метки (
utm_source
,utm_medium
и т.д.), кликовые идентификаторы (например,yclid
Яндекса,gclid
Google) желательно указывать в Disallow или Clean-param. Если этого не сделать, Яндекс и Google будут видеть версии страниц с параметрами как отдельные URL. Например,example.com/page?utm_source=...
может попасть в индекс как дубльexample.com/page
. Проще всего запретить шаблоном:Disallow: /*utm_*
и аналогично для*yclid*
,*gclid*
aprioricorp.ruaprioricorp.ru. Яндекс-вебмастер может показывать предупреждение о «дублирующемся контенте с разными параметрами» – Clean-param позволяет указать, что, например,utm_source
не влияет на содержимое страницы и можно индексировать URL без негоyandex.ru. -
Правильное использование
Allow
: Эта директива нужна только чтобы разрешить более узкий путь внутри запрещённого шире. Например, мы запрещаем/wp-content/plugins/
, но хотим разрешить один скрипт внутри – тогда прописываемAllow:
для него. Если же раздел не запрещён,Allow
писать не нужно (по умолчанию всё открыто). Следите за порядком: поисковые системы учитывают самый специфичный (длинный) путь. Например,Disallow: /wp-content/
иAllow: /wp-content/uploads/
вместе означают, что/wp-content/uploads/
открыт (Google понимает по более точному совпадению)wpcourses.ru. Также помните, что Allow работает не во всех роботах – например, некоторым малоизвестным ботам он неизвестен, но Googlebot и Yandexbot поддерживают (они следуют официальной спецификации robots.txt). -
Регулярные шаблоны (
*
и$
): В robots.txt можно использовать символ*
(любой набор символов) и$
(конец строки) для гибкой настройкиaltera-media.comaltera-media.com. Правильно применяйте их:Disallow: */?
– одно из самых частых правил, запрещающее все URL с вопросительным знаком (любые GET-параметры на сайте). Символ$
пригодится, чтобы различать, например, папку и страницу:Disallow: /folder$
запретит только точное соответствие/folder
, но не запретит/folder/page.html
altera-media.comaltera-media.com. ОднакоDisallow: /folder
(без$
) запретит и сам/folder
и всё внутри. Многие ошибки связаны с неверным использованием этих символовkokoc.com – внимательно проверяйте логику. Если вы видите правилоDisallow: /*.php$
, то оно запрещает любые URL, оканчивающиеся на «.php» – часто используется, чтобы закрыть все PHP-скрипты кроме точки входа. -
Размер файла и технические ограничения: Проверьте, чтобы robots.txt не превышал лимиты. На 2025 год Google читает первые 500 КБ файлаcalltouch.ru, а Яндекс вообще считает, что если файл больше 32 КБ, то он сломан и всё будет считаться разрешённым (так было по состоянию на 2023)calltouch.ru. Так что не разрастайтесь сверх меры. Если правила не помещаются, можно сократить шаблоны (например, один шаблон
*filter*
вместо десятка конкретных параметров фильтра). Либо распределить на несколько файлов… но поисковики читают только/robots.txt
. Поэтому иногда большие сайты делают редирект с/robots.txt
на скрипт, который динамически генерирует содержимое (но это скорее экзотика). Большинству сайтов хватит и 5-15 КБ для всех правил.
Требования и нюансы Яндекса и Google (на 2025 год)
Google и Яндекс в целом придерживаются стандартной спецификации robots.txt, но у них есть свои нюансы и расширения:
-
Директивы Host, Clean-param: Это нестандартные расширения, которые поддерживает Яндекс (и некоторые другие русскоязычные поисковики), но Google их игнорируетstackoverflow.comyandex.ru.
Host
мы уже разобрали – её имеет смысл использовать для указания главного домена на Яндексе, особенно если сайт доступен по разным адресам. В одном файле может быть только одна директива Hostseven-flares.ru.Clean-param
позволяет перечислить параметры, которые можно удалять из URL, и указать основную страницу без них – этим пользуется Яндекс.Вебмастер для устранения дублей. Формат такой:pgsqlClean-param: param1¶m2 /path/to/page
Например:
Clean-param: referer,sessionid /catalog.html
– означает “убирай параметр referer и sessionid, страница без них – /catalog.html”. В 2025-м Яндекс по-прежнему поддерживает Clean-param, хотя считается, что его алгоритмы многое определяют сами. Google таких директив не понимает вовсе, и встретив их, просто пропустит как комментарий. -
Crawl-delay: Это задержка между запросами робота. Google не поддерживает
Crawl-delay
– настройка скорости обхода Googlebot делается в Search Console вручную. А Яндекс поддерживает, и в robots.txt можно указатьCrawl-delay: N
(секунд). Мы видели пример сCrawl-delay: 30
aprioricorp.ru. Однако Яндекс тоже умеет сам подстраиваться под ваш сервер. Слишком большой Crawl-delay может замедлить индексацию, так что обычно ставят 1-10 секунд при острой необходимости. В 2025 Яндекс рекомендует не злоупотреблять – лучше оставить поле пустым, если не испытываете проблем с нагрузкой. -
Noindex в robots.txt: Важно помнить – Google не поддерживает директиву
Noindex
в файле robots.txt с 2019 годаkokoc.com. Раньше она не была официальной, но Яндекс поддерживал синтаксис типаUser-agent: *
+Noindex: /path
. Сейчас же правильный способ закрыть страницу от индексации содержимого – либо Disallow (чтобы не сканировать вообще), либо мета-тег<meta name="robots" content="noindex">
на странице, либо заголовокX-Robots-Tag
kokoc.com. Яндекс исторически понималNoindex
в robots.txt, но в документации 2023+ этого нет, и стоит считать директиву устаревшей. Антипаттерн: некоторые ресурсы до сих пор копипастят старые файлы сNoindex:
– не делайте так, эти строки бесполезныkokoc.com. -
Разделение правил по ботам: И Яндекс, и Google поддерживают указание разных правил для разных User-agent. Например, можно сначала написать
User-agent: Yandex
и набор Disallow специально для него (включая Host и Clean-param), затем блокUser-agent: Googlebot
с особыми Allow/Disallow, затемUser-agent: *
для остальныхaltera-media.comaltera-media.com. Если различий немного, можно упростить и написать все правила под*
(все роботы). Googlebot всё равно прочтёт блок*
если не найдёт своего, а Яндекс – аналогично. Но приоритет: если есть специфический блок дляGooglebot
, то Google будет следовать ему вместо блока*
. Поэтому если вы хотите для Google открыть CSS, а для остальных это не прописывать, можно это сделать (как в примерах выше для Joomla, OpenCart). В 2025 году поисковые системы советуют: если различия несущественны, лучше дать единый набор правил для всех, чтобы избежать путаницыaltera-media.comaltera-media.com. Но в ряде случаев отдельно указать правила для Googlebot (Allow на ресурсы) и Yandex (Host, Clean-param) – грамотный ход. -
Размер и доступность файла: Мы уже упоминали лимиты: не превышайте 500 КБ (Google) и 32 КБ (Яндекс)calltouch.ru. Если робот не может прочитать файл (например, сервер отдает 404 или 503, либо файл пустой), то по стандарту считается, что нет ограничений – бот может индексировать всёaltera-media.comaltera-media.com. Это значит, что отсутствие или недоступность robots.txt не останавливает сканирование (для Яндекса и Google). Поэтому проверьте, что ваш robots.txt отдаёт код 200 и содержимое корректно. Google также не раз напоминал: если в robots.txt синтаксическая ошибка, он может проигнорировать всё последующее содержимое. Яндекс.Вебмастер имеет инструмент проверки, который укажет на ошибки синтаксиса и даже подсветит незнакомые директивыaltera-media.comaltera-media.com. На июнь 2025 оба поисковика требуют, чтобы файл был в кодировке UTF-8 без BOM и находился ровно по адресу
https://домен/robots.txt
kokoc.comkokoc.com.
Советы и ошибки: чего избегать в файле robots.txt
Наконец, соберём несколько популярных ошибок и “антипаттернов” при работе с robots.txt – и как их избежать:
-
Файл не в корне сайта: Ошибка №1 – разместить robots.txt не по адресу
site.ru/robots.txt
, а в поддиректории (или назвать иначе). Поисковые системы ищут файл только в корне доменаkokoc.com. Убедитесь, что на всех зеркалах (с www и без, http и https) либо стоят редиректы на основной сайт, либо везде лежит корректный robots.txt, особенно если зеркала открыты. -
Противоречивые правила: Бывает, вебмастер сперва пишет
Allow: /
(разрешить всё), а нижеDisallow: /private/
– технически это не противоречие (разрешение общее, запрет конкретный, последний победит). Но избыточные или конфликтующие директивы затрудняют понимание. Всегда делайте правила от общего к частному или наоборот, но ясно. Если нужно что-то сначала запретить, а внутри разрешить – используйте комбинацию Disallow + Allow как задумано. Не пишите две строки Disallow для одного и того же пути в разных местах файла. -
Неправильное использование
*
и других шаблонов: Ошибка №2 по частоте – некорректные шаблоны в правилахkokoc.com. Например,Disallow: /*.php
(без$
) запретит и/page.php
и/page.php?param=...
и даже/page.php.html
– возможно, не то, что вы имели в виду. Другой пример:Disallow: /folder*
фактически равносильноDisallow: /folder
(так как*
в конце не нужен, он и так подразумевается)altera-media.comaltera-media.com. Лишние или неправильно поставленные шаблоны могут либо недостаточно закрыть (что-то проскользнет), либо, наоборот, закрыть лишнее. -
Использование Noindex в файле: Как уже сказано, директива
Noindex
в robots.txt не работает для Google, да и для Яндекса больше не рекомендуетсяkokoc.com. Вместо неё используйте<meta name="robots" content="noindex,nofollow">
в HTML, если нужно закрыть индексацию контента, но не сканирование. Или просто Disallow, если хотите даже не заходить на страницу. Некоторые ставятNoindex
в паре с Disallow в надежде, что так страница совсем исчезнет – для Google это пустое место, он увидит только Disallow и не проиндексирует содержимое, но URL может показать как обнаруженный (без описания). Вывод: не пишите Noindex, полагайтесь на другие методы. -
Полный запрет всего сайта без необходимости:
Disallow: /
для всех роботов – иногда его ставят на стадии разработки и забывают убрать. Это критическая ошибка, ведущая к исчезновению сайта из поисковика. Если сайт уже в индексе, а вы внезапно открываете robots.txt сDisallow: /
, поисковик пометит все страницы как заблокированные. Google Search Console выдаст предупреждение “Indexed, though blocked by robots.txt”. Поэтому всегда проверяйте, что на боевом сайте нет глобального запрета, кроме случаев, когда он вам действительно нужен (например, проект заморожен). Обратная сторона – не закрытые тестовые страницы. Если у вас были черновые разделы (стадия “под разработкой”), и вы их не закрыли, они могут попасть в индекс, что нежелательноkokoc.com. Решение: либо ставьте пароль на dev-разделы, либо пропишите Disallow на них (/dev/
,/test/
и т.п.). -
Отсутствие указания на sitemap.xml: Не то чтобы ошибка, но упущение. Как мы говорили, лучше явно прописать
Sitemap:
в robots.txt, чтобы и Яндекс, и Google точно узнали о карте сайтаkokoc.com. Особенно это важно, если у вас несколько карт или нестандартный путь до них. -
Блокировка важных страниц или разделов: Иногда по незнанию блокируют что-то, что нужно индексировать. Например, путём слишком общего правила. Типичный случай:
Disallow: /content
– владелец имел в виду закрыть раздел “Контент-сервисы”, а на сайте все статьи лежат в/content/articles/...
. В итоге выпали все статьи из выдачи. Всегда проверяйте, что именно матчат ваши правила. Яндекс.Вебмастер имеет удобный инструмент: вводите URL – он покажет, каким правилом он запрещён или разрешён. Если обнаружили ошибку – сразу исправляйте файл. -
Ошибки формата и опечатки: Robots.txt чувствителен к синтаксису директив (но не к регистру их названий). Правильно:
User-agent: Yandex
(с дефисом, двоеточием и пробелом). Неправильно:User agent Yandex
илиUserAgent:Yandex
– такое робот не поймётaltera-media.com. Также после двоеточия нужен хотя бы один пробел. Проверяйте, чтобы не было “Disalow” (пропущена буква) – такое правило будет просто проигнорировано, и вы не сразу поймёте, почему страница индексируется. Комментарии начинаются с#
и не должны стоять вначале строки с директивой (коммент можно либо на отдельной строке, либо после значения, как мы делали в примерах). Пустая строка считается концом блока User-agentaltera-media.com, имейте это в виду, когда группируете правила. -
Не актуализированный robots.txt: Со временем сайт меняется – появляются новые секции, страницы, параметры. Пересматривайте robots.txt регулярно. Возможно, вы закрыли
/blog/
когда он был пуст, а теперь там контент – пора открыть. Или наоборот, завели новый фильтр товаров?color=
– стоит его добавить в Disallow. А может, переехали на HTTPS – тогда и Sitemap, и Host нужно обновить наhttps://
. Поисковики умны, но неточно указанный robots может вызывать нежелательные эффекты (например, Яндекс будет считать http:// и https:// разными зеркалами без Host). Поэтому после крупных изменений всегда проверяйте файл.
Вывод: файл robots.txt – простой по структуре, но крайне важный инструмент SEO. Он требует человеческого подхода: не слепого копирования, а осмысленной настройки под свой сайт. Как заметил один из специалистов, “не пользуйтесь генераторами – пошевелите руками”wpcourses.ru. Понимая каждую директиву и её эффект, вы создадите живой, рабочий robots.txt, который улучшит индексирование вашего ресурса поисковыми системами, не оставляя шансов ни техническим дублям, ни лишней нагрузке на сервер.
ользуйтесь проверками в инструментах вебмастеров от Яндекса и Googlealtera-media.comaltera-media.com, чтобы убедиться в отсутствии ошибок. И тогда ваш robots.txt станет надёжным помощником в продвижении сайта. Успехов в оптимизации!