123 | SiteVisor.cloud

Введение

Файл robots.txt – это текстовая инструкция для поисковых роботов, определяющая, какие разделы сайта можно сканировать и индексироватьcalltouch.rucalltouch.ru. В каждой CMS (система управления сайтом) роль robots.txt одинакова – оптимизировать процесс краулинга и защитить сайт от нежелательной индексации служебных страниц. Правильно настроенный robots.txt помогает поисковикам быстрее обойти сайт и сосредоточиться на важном контенте, исключая дубли и технические разделыcalltouch.rucalltouch.ru. При этом нужно учитывать нюансы разных платформ и требования поисковых систем Яндекса и Google на текущий момент (июнь 2025 года).

Ниже мы рассмотрим примеры рабочих файлов robots.txt для популярных CMS – от WordPress и 1C-Битрикс до Tilda, Joomla, Drupal, OpenCart, Netcat, MODX и Shopify. Каждый пример сопровождается пояснениями: какие директивы используются, как учитывается файл карты сайта (sitemap.xml), как обрабатывать мультиязычные разделы, какие правила ставить для исключения параметров и дублей. Также приведём рекомендации с учётом актуальных требований Яндекса и Google, а в конце – советы экспертов: чего избегать при настройке robots.txt.

WordPress: пример файла robots.txt

WordPress не создаёт robots.txt автоматически, поэтому вебмастеру нужно добавить его вручную в корень сайта (на уровне папки wp-admin)wpcourses.ru. Хороший robots.txt для WordPress закрывает от индексирования технические разделы движка и дубль-страницы, но позволяет роботам загружать важные файлы стилей, скриптов и изображенияwpcourses.ru. Ниже приведён пример базового robots.txt для WordPress-сайта:

text
User-agent: *
Disallow: /wp-           # запрет всех папок WP (wp-admin, wp-includes, wp-content и пр.)
Disallow: /tag/          # запрет страниц тегов
Disallow: */trackback    # запрет устаревших trackback-URL
Disallow: */page         # запрет пагинации (/page/2 и т.д.)
Disallow: /author/*      # запрет архивов авторов
Disallow: /template.html # запрет служебного шаблона (если есть)
Disallow: /readme.html   # запрет стандартного readme WordPress
Disallow: *?replytocom   # запрет дублей комментариев с параметром replytocom
Allow: */uploads         # разрешить обход папки загрузок (медиафайлы)
Allow: *.js              # разрешить JS-скрипты
Allow: *.css             # разрешить CSS-стили
Allow: *.png
Allow: *.gif
Allow: *.jpg
Sitemap: https://ваш-домен/sitemap.xml

Как видно из примераwpcourses.ruwpcourses.ru, Disallow закрывает все технические URL WordPress (папки, начинающиеся на wp-), страницы тегов, архивы авторов, пагинацию и прочие дублирующиеся страницы. В то же время блок Allow явно разрешает поисковикам загружать статические ресурсы – изображения, JavaScript и CSSwpcourses.ru. Это важно: если не разрешить их, Google и Яндекс не смогут корректно отрисовать страницу, что ухудшит оценку её удобства. В конце обязательно указываем путь к карте сайта (Sitemap:) – поисковики найдут все URL в sitemap.xml и проиндексируют их быстрееwpcourses.ru.

WooCommerce (интернет-магазин на WordPress): Для сайта на WordPress с плагином WooCommerce стоит дополнительно закрыть от индексирования страницы корзины и оформления заказа, а также типовые URL добавления товаров. Например:

text
# Фрагмент для WooCommerce
Disallow: /cart/
Disallow: /checkout/
Disallow: /*add-to-cart=*
Disallow: /my-account/

Эти правила (как рекомендовано сообществом WooCommerce) предотвращают попадание в индекс пустых корзин, личных кабинетов и технических URL добавления товара в корзинуwpcourses.ru. В остальном robots.txt для WooCommerce аналогичен обычному WordPress: включаем все вышеперечисленные директивы WordPress и добавляем блок WooCommerce.

Практические фишки: При настройке WordPress-роботса избегайте генераторов случайных инструкций – лучше составить файл вручную под структуру своего сайтаwpcourses.ru. Полезно закрыть страницы результатов поиска WordPress (*?s= или /search), если они не приносят ценного контента, а также отключить индексацию архивов дат, меток и авторов, чтобы не плодить дубли. Вместе с robots.txt применяйте и другие методы борьбы с дублями (например, тег rel=canonical и отключение лишних архиваций в настройках SEO-плагинов).

1C-Битрикс: пример файла robots.txt

1С-Битрикс – популярная коммерческая CMS, требующая особенно тщательной настройки robots.txt. Битрикс генерирует множество служебных URL и параметров (фильтры, сортировки, сессии), которые следует закрыть от индексацииaprioricorp.ruaprioricorp.ru. Кроме того, в Битриксе часто используются многосайтовость и ЧПУ (человеко-понятные URL), о чём тоже нужно помнить. Каждый сайт (домен) в рамках одной установки Битрикс должен иметь свой файл robots.txt с указанием главного зеркала (директива Host) для Яндекса.

Ниже приведён усреднённый пример robots.txt для сайта на 1C-Битрикс (с комментариями):

text
User-agent: *
Disallow: /bitrix/       # системная папка ядра Битрикс
Disallow: /local/        # альтернативная папка для модулей и шаблонов
Disallow: /personal/     # личный кабинет пользователей
Disallow: /search/       # страница поиска (если не нужна в выдаче)
Disallow: */index.php$   # дубли главной страницы с index.php
Disallow: /*?sort=       # параметры сортировки
Disallow: /*?filter=     # параметры фильтра каталога
Disallow: /*&utm_*       # UTM-метки от рекламных ссылок
Disallow: /*PHPSESSID    # сессионные идентификаторы
Disallow: /*clear_cache  # прочие служебные параметры
Allow: /upload/*         # открыть папку с пользовательскими файлами (изображения и др.)
Allow: /bitrix/*.js      # разрешить скрипты из системных папок
Allow: /bitrix/*.css     # разрешить стили из системных папок
Allow: /local/*.js
Allow: /local/*.css
Sitemap: https://ваш-домен/sitemap.xml
Host: ваш-домен.ru

В этом шаблоне мы закрываем от роботов все внутренности Битрикс (/bitrix/ и /local/), личные кабинеты (/personal/), страницы поиска и явные дубли (index.php в URL)aprioricorp.ruaprioricorp.ru. Далее перечисляем десятки параметров, вызывающих дублирование страниц – например, сортировка (sort), фильтрация (filter), добавление в сравнение, пагинация (PAGEN_), UTM-метки, сессионные параметры и т.д.aprioricorp.ruaprioricorp.ru. Такие URL не нужно индексировать, поэтому для каждого указан Disallow.

Обратите внимание на директивы Allow: мы открываем для индексирования ключевые системные каталоги, содержащие CSS, JS и медиафайлы шаблонов (папки templates, js, а также файлы .css, .js, .jpg, .png и т.п.)aprioricorp.ruaprioricorp.ru. Это необходимо, чтобы поисковики могли загрузить стили и скрипты сайта и не считали страницы «голыми». Для ограничения нагрузки можно добавить Crawl-delay, но Google эту директиву игнорирует, а Яндекс обычно сам регулирует скорость обхода; в примере для всеядности указан Crawl-delay: 30aprioricorp.ru.

В конце файла для Битрикс всегда указывайте Host – главное зеркало сайта для Яндексаseven-flares.ru. Эта директива должна быть единственной и прописывается в robots.txt домена, который вы считаете основным (например, с www или без, с HTTPS или HTTP) – Яндекс будет ориентироваться на неё при склеивании зеркал. Для Google же строка Host безразлична (он её игнорирует)aprioricorp.ruseven-flares.ru, но ничего страшного, она не мешает.

Многосайтовость Битрикс: если одна установка Битрикс обслуживает несколько сайтов (доменов), то для каждого домена формируется свой robots.txt (через административный интерфейс Битрикс или вручную)dev.1c-bitrix.rusearchengines.guru. В каждом таком файле Host будет указывать на соответствующий домен. В остальном правила схожи: закрываются типовые каталоги /bitrix/ и /local/ (они общие для всех сайтов в системе), а также разделы и параметры, специфичные для конкретного сайта.

Советы от битрикс-разработчиков: Битрикс имеет встроенный “Стартовый набор robots.txt” – шаблон, который можно использовать как основуintervolga.ruaprioricorp.ru. Однако его нужно дополнять под особенности проекта. Обязательно проверяйте через Яндекс.Вебмастер, не ругается ли робот на дубли (Найдено в исключённых) – возможно, придётся добавить Clean-param или дополнительные Disallow для очистки дублей. Учтите новый параметр Яндекса ysclid (и аналогичные) – его тоже желательно указать в Clean-param или Disallowaprioricorp.ru. Clean-param – специфичная директива Яндекса для борьбы с дублями через параметры; её можно добавить в конец robots.txt, указав ненужные параметры и каноничный URL без нихyandex.ru. Хотя некоторые SEO-специалисты считают, что Clean-param теряет актуальность и поисковики сами разберутсяwpcourses.ru, в случае с крупными битрикс-магазинами это всё ещё полезный инструмент.

Tilda: особенности файла robots.txt

Tilda – это SaaS-платформа-конструктор сайтов, которая автоматически генерирует robots.txt и sitemap.xml для каждого опубликованного сайтаtilda.cc. Пользователю не нужно вручную загружать файл – достаточно посмотреть его по адресу your-site.com/robots.txt. По умолчанию тильдовский robots.txt содержит правила для всех роботов (User-agent: *) и уже закрывает ряд служебных страниц, а также подключает карты сайта.

Особенности стандартного robots.txt на Tilda:

Прописывается Host с основным зеркалом сайта и перечисляются ссылки на sitemap.xml. Если у сайта включён каталог товаров или блог (модули «Каталог» и «Потоки»), то генерируются до трёх карт: основная, для товаров (sitemap-store.xml) и для постов блога (sitemap-feeds.xml)seven-flares.ruseven-flares.ru. Пример фрагмента:
```
text
Sitemap: https://mysite.com/sitemap.xml
Sitemap: https://mysite.com/sitemap-store.xml
Sitemap: https://mysite.com/sitemap-feeds.xml
Host: mysite.com
```
Дисаллоу по умолчанию: Tilda сама закрывает от индексации некоторые технические URL. В частности, виртуальные страницы для целей аналитики (/tilda/...), старый фрагмент AJAX-краулинга (*_escaped_fragment_*) и страницы личного кабинета (/members/...)seven-flares.ru. Также Tilda автоматически не индексирует стандартные включаемые блоки – header и footer сайта, и страницу ошибки 404seven-flares.ruseven-flares.ru. Эти правила видны в разделе Disallow: вашего robots.txt на Тильде. Например:
```
text
User-agent: *
Disallow: /tilda/
Disallow: /*_escaped_fragment_
Disallow: /members/
Disallow:    # (пустая строка Disallow означает, что больше нет запретов)
Sitemap: ... (перечислены карты сайта)
Host: ... (ваш домен)
```
Если вы в настройках Tilda запрещаете индексировать конкретную страницу, то в самом robots.txt эта страница не появится отдельной строкой. Вместо этого Tilda добавляет на страницу мета-тег robots с noindexseven-flares.ruseven-flares.ru. Это означает, что даже при отсутствии запрета в robots.txt поисковик узнает из метатега, что страницу индексировать не надо. Аналогично, запрет индексации всего сайта в настройках Tilda (флажок «Запретить поисковикам индексировать этот сайт») автоматически допишет в robots.txt строку Disallow: / для всех User-agentseven-flares.ru.

Интернет-магазин на Tilda: платформа не даёт возможности выборочно закрывать отдельные карточки товаров через robots.txt (нет ручного редактирования файла). Однако можно отключить генерацию sitemap для каталога товаров, либо пойти хитрым путём: закрыть от индексации саму страницу каталога – тогда поисковики не будут заходить и на страницы товаров, URL которых содержат этот разделseven-flares.ru. Например, если все товары выведены на странице /catalog, установите для неё «не индексировать» – Tilda добавит noindex для всех страниц вида /catalog/…. Но будьте осторожны: убедитесь, что все реальные страницы имеют человеко-понятные URL, иначе можно случайно закрыть системные страницы вида /pageXXXX.html (их Tilda тоже закрывает, если вы создали фиктивную страницу /page и скрыли еёseven-flares.ru).

Совет: Проверьте файл robots.txt вашего тильда-сайта после публикации. Обычно он уже оптимизирован, но если нужно добавить кастомные правила (например, закрыть конкретный URL или добавить Clean-param для Яндекса), придётся использовать настройки Tilda (раздел SEO) – прямой редакции файла нетseven-flares.ru. В SEO-настройках Tilda можно задать параметры Clean-param, которые появятся отдельным блоком User-agent: Yandex в файлеseven-flares.ruseven-flares.ru. Таким образом, даже на Tilda можно учесть нежелательные параметры в URL через Clean-param (актуально, если сайт на Tilda страдает от дублей из-за UTM или фильтров).

Robots.txt для других CMS

Теперь рассмотрим, как выглядят правильные robots.txt для других популярных CMS: Joomla, Drupal, OpenCart, NetCat, MODX и Shopify. Каждая из них имеет свою структуру папок и типичные “мусорные” страницы, которые нужно скрыть от поисковых роботов.

Joomla

Платформа Joomla традиционно поставляется с примером файла robots.txt, где сразу запрещены к индексации все служебные директории ядра. Правильный robots.txt для Joomla содержит примерно следующее:

text
User-agent: *
Allow: /images                    # открыть папку с изображениями
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /*?start=*              # запрет индексировать страницы пагинации
Disallow: /xmlrpc/
Sitemap: http://site.ru/sitemap.xml
Host: www.site.ru

В этом примере мы видим, что все системные папки Joomla закрыты от индексации (админка, кэш, плагины, шаблоны и т.д.)altera-media.comaltera-media.com. Исключение сделано для папки /images, чтобы изображения (медиа) сайта могли сканироваться и попадать в поиск картинокaltera-media.comaltera-media.com. Также запрещены динамические URL пагинации (?start=) и XML-RPC интерфейс, который не нужен в выдачеaltera-media.comaltera-media.com. В конце указываем Sitemap и Host (если основной домен с www, как в примере выше)altera-media.comaltera-media.com.

Примечание: В Google для Joomla (как и для других CMS) желательно явно разрешить CSS и JS. В приведённом варианте это не сделано, но можно добавить строки Allow: *.css и Allow: *.js под блоком Googlebot, если вы разделяете правила по роботамaltera-media.comaltera-media.com. Многие SEO-специалисты обновляют дефолтный robots.txt Joomla, чтобы не препятствовать рендерингу страниц Google-ботом.

Drupal

Drupal известен обилием системных файлов и страниц, которые не должны попасть в индекс. Рекомендуемый robots.txt для Drupal закрывает практически все внутренние пути, оставляя открытыми только нужные разделы (например, публичный контент). Пример фрагмента robots.txt для Drupal-сайта:

text
User-agent: *
Disallow: *comment*          # запрет ссылок, содержащих "comment"
Disallow: *login*            # запрет страниц логина
Disallow: *register*         # и регистрации
Disallow: /*?sort*           # запрет сортировок через параметры
Disallow: /*/edit            # запрет режимов редактирования
Disallow: /admin             # запрет административной панели
Disallow: /modules           # системные папки и файлы:
Disallow: /includes
Disallow: /profiles
Disallow: /sites/default/files/    # (пример: закрыть стандартную папку файлов, если там приватные файлы)
Disallow: /core
Disallow: /misc
Disallow: /node/
Disallow: /search
Disallow: /user
Disallow: /cron.php
Sitemap: https://site.ru/sitemap.xml

Комментарии к примеру: символ * используется для запрета любых URL, содержащих определённые подстроки (например, “comment” закроет все страницы комментариев)jeto.ru. Drupal имеет множество служебных скриптов (cron.php, install.php и др.), папок с модулями, темами, профилями – их все желательно Disallow, как показано вышеjeto.rujeto.ru. Обратите внимание, что мы закрываем и страницы поиска (/search), и пользовательские профили/логины (/user, /user/login и т.д.), если они не предназначены для индексацииjeto.rujeto.ru.

По умолчанию Drupal генерирует свой базовый robots.txt при установке – его можно взять за основу. Обычно там уже запрещены: все /core, /modules, /profiles, /scripts, /themes и др., а также файлы LICENSE.txt, INSTALL.txt и прочие, которые идут в дистрибутивеjeto.rujeto.ru. В 2025 году эти рекомендации остаются актуальными: максимально закрыть техническое, оставить открытым только контент. Не забудьте включить Sitemap (многие Drupal-модули генерируют sitemap.xml автоматически).

OpenCart

Для интернет-магазина на OpenCart важно закрыть от индексации страницы корзины, аккаунта, оформления заказа, а также всевозможные параметрические дубли (фильтры, сортировки, пагинация). Пример robots.txt для OpenCart:

text
User-agent: *
Disallow: /*route=account       # запрет личного кабинета (в URL есть route=account)
Disallow: /*route=checkout      # запрет оформления заказа
Disallow: /*route=product/search
Disallow: /*filter_name=        # параметры фильтра товаров
Disallow: /*filter_category=
Disallow: /*sort=
Disallow: /*order=
Disallow: /*page=               # пагинация через параметр
Disallow: /admin/               # папка админки
Disallow: /system/              # системные файлы
Disallow: /storage/             # хранилище (в новых версиях OpenCart)
Disallow: /catalog/             # исходные файлы движка (если присутствуют)
Disallow: /index.php?route=common/home   # главная страница через index.php (дубль)
Allow: *.css                    # разрешить CSS и JS для Google
Allow: *.js
Sitemap: https://site.ru/sitemap.xml
Host: site.ru

Объяснение: мы закрываем все URL, где route= указывает на не нужные в поиске разделы (аккаунт, аффилиаты, чекаут и пр.)altera-media.comaltera-media.com. Также под запретом параметры пагинации и фильтрации (filter_name, sort, order, page и т.д.)altera-media.comaltera-media.com – это поможет избежать индексации дублей товаров с разными сортировками или фильтрами. Закрыты стандартные директории движка: /admin, /system, /storage, а также технические скрипты типа главной страницы index.php?route=common/homealtera-media.comjeto.ru.

Для Googlebot мы добавили Allow: *.css и Allow: *.js, поскольку OpenCart часто загружает стили/скрипты из своих каталогов, и их нельзя блокироватьaltera-media.comaltera-media.com. В конце – указание на Sitemap (обычно в OpenCart она одна общая) и Host (если сайт на русском домене, для Яндекса можно прописать)altera-media.comaltera-media.com.

Примечание: У OpenCart также нередко бывают SEO-фильтры, добавляющие в URL всякие комбинации типа ?tracking=... или метки кампаний – их тоже стоит включить в Disallow при необходимостиaltera-media.comaltera-media.com. Следите за отчетами Яндекс.Вебмастера: если он показывает в «Исключённых» страницы вида /catalog/?something, добавьте соответствующее правило.

NetCat

CMS NetCat менее распространена вне Рунета, но имеет свои нюансы. Вот пример рекомендованного robots.txt для NetCat:

text
User-agent: *
Disallow: /*.swf          # запрет индексировать Flash-файлы
Disallow: /*?             # запрет любых URL с параметрами (чтобы исключить дубли)
Disallow: /eng            # пример: если есть английская версия на /eng/, можно закрыть, если она не нужна в индексе
Disallow: /install        # папка установки системы
Disallow: /js/            # скрипты (если не нужны роботам)
Disallow: /netcat/        # системная папка NetCat
Disallow: /netcat_cache/  
Disallow: /netcat_dump/   
Disallow: /netcat_files/  # служебные каталоги (кэш, дампы, файлы системы)
Sitemap: http://site.ru/sitemap.xml
Host: site.ru

Здесь ключевое: закрыты все внутренние директории NetCat (/netcat*) и любые динамические URL с параметрами (*?)jeto.ru. Если ваш сайт на NetCat мультиязычный и, скажем, имеет отдельную папку /eng для английской версии, вы можете либо открыть её для индексации, либо закрыть, как показано (в примере мы предполагаем, что русская версия – основная, английскую решено не индексировать). Разумеется, реальный выбор зависит от ваших задач: зачастую разные языковые разделы индексируются раздельно (см. раздел про мультиязычные сайты ниже).

Обратите внимание, что NetCat с версии 5.9 поддерживает макропеременные в robots.txt – например, %SCHEME для указания протокола в Sitemap и Hostnetcat.ru. Это удобно, если сайт может открываться по HTTP/HTTPS, но обычно для консистентности лучше явно прописать корректные ссылки (как выше).

MODX

MODX – гибкий фреймворк/CMS, где разработчики часто самостоятельно настраивают правила. Однако общие рекомендации такие: запретить индексацию служебных разделов (/assets/, /core/, /manager/ и пр.) и параметрических дублирующих URL. Пример robots.txt для MODX:

text
User-agent: *
Disallow: /*?              # запрет всех запросов с параметрами
Disallow: /assets/         # папка с ассетами (может включать изображения, смотрите сами)
Disallow: /core/           # ядро MODX
Disallow: /connectors/     # скрипты-коннекторы
Disallow: /manager/        # админ-панель
Disallow: /assets/components/
Disallow: /assets/cache/
Disallow: /assets/templates/
Disallow: /setup/          # папка установки (если осталась)
Sitemap: https://site.ru/sitemap.xml
Host: site.ru

Заметим, что мы закрыли всю папку /assets/. В MODX там находятся и полезные файлы (например, картинки сайта), но зачастую медиаконтент выносится в другую папку или на CDN. Если у вас все изображения хранятся в /assets/images/, то вместо полного запрета /assets/ можно закрыть выборочно лишние подпапки (/assets/snippets/, /assets/components/ и т.д.)jeto.rujeto.ru, а /assets/images/ оставить открытой или явно разрешить.

Обязательному закрытию подлежат /core/ (ядро), /manager/ (админка) – эти директории не должны быть видны поисковикуjeto.ru. Также запрещаем любые URL с ? (динамические запросы), если логика сайта не предполагает полезных для SEO параметровjeto.ru. Как всегда, не забываем про Sitemap и Host.

Shopify

Shopify – это SaaS-платформа для интернет-магазинов. Здесь файл robots.txt генерируется автоматически и по умолчанию оптимально настроен под e-commerce. В 2021 году Shopify наконец позволила редактировать robots.txt (через шаблон robots.txt.liquid), но большинству пользователей хватит стандартных правилgofishdigital.comgofishdigital.com. Что же блокирует Shopify по умолчанию? К примеру:

text
User-agent: *
Disallow: /search       # внутренний поиск магазина
Disallow: /cart         # корзина
Disallow: /checkout     # оформление заказа (многоступенчатый процесс)
Disallow: /account      # личный кабинет пользователя
Disallow: /collections/*+*   # комбинации фильтров в коллекциях (фасетная навигация)
Sitemap: https://your-shopify-domain/sitemap.xml

Эти правила взяты из дефолтного robots.txt Shopifygofishdigital.com. Видно, что Shopify заботится о дублированном контенте: закрыты страницы поиска (не нужны в индексе), корзина и чек-аут (чтобы не индексировались незавершённые покупки), личный кабинет, а также особый синтаксис /collections/*+* – он блокирует многосоставные фильтры в категориях товаров (например, сочетание нескольких тегов/фильтров, которое генерирует динамическую страницу).

Shopify автоматически подключает файл sitemap.xml вашего магазина (в нем обычно сводная карта сайта с разделами для продуктов, коллекций, блогов и страниц магазина)gofishdigital.com. Директивы Allow обычно не прописаны, так как Shopify по умолчанию не запрещает CSS/JS – они лежат на открытых CDN-доменах или доступных путях. Если же нужна тонкая настройка (например, закрыть какие-то специфичные страницы, или наоборот разрешить что-то из заблокированного), вы можете внести правки в robots.txt.liquid. Shopify позволяет добавлять/удалять правила и даже прописывать задержку обхода или блокировать лишних ботовhelp.shopify.comhelp.shopify.com. Однако разработчики Shopify предупреждают: делать это нужно осторожно, чтобы не потерять трафик, и при возможности лучше сохранить основные дефолтные правила, так как они выверены под SEO большинства магазиновhelp.shopify.comgofishdigital.com.

На заметку: В Shopify иногда возникает вопрос – почему в robots.txt присутствуют дисаллоу для некоторых страниц (например, политики /policies или дубли коллекций). Эти правила добавляются намеренно, чтобы предотвратить индексацию юридических страниц (условия, политика возврата) и избежать дублей контента. Если вы проверили свой robots.txt и увидели там неожиданные строки, обратитесь к документации Shopify – скорее всего, это часть стандартной конфигурации, которую не стоит менятьreddit.comgofishdigital.com.

Учёт карты сайта (Sitemap.xml) в robots.txt

Карта сайта (sitemap.xml) играет ключевую роль в быстром индексировании – она перечисляет все страницы, которые должны попасть в поиск. В файле robots.txt необходимо указать ссылку на sitemap.xml вашего сайтаaltera-media.com. Формат простой:

arduino
Sitemap: https://ваш-домен/sitemap.xml

Эта строка информирует и Яндекс, и Google о расположении карты сайта, и обычно роботы читают её в первую очередь. Если карт несколько (например, отдельные для разделов или языков), перечислите каждую с новой строкиjeto.ru. Многие CMS генерируют индекс карт (sitemap_index.xml) – его тоже можно указать, хотя поисковики сами найдут дочерние карты по ссылкам внутри индекса.

Важно, чтобы URL в директиве Sitemap указывал на актуальный домен и протокол. Если сайт доступен по HTTPS, убедитесь, что и карта тоже на HTTPS. Для мультиязычных сайтов иногда делают раздельные карты (например, /en/sitemap.xml для английской версии) – вы можете включить их все. Лимит Google – 50000 URL в одной карте, поэтому большие сайты дробят карты по разделам (это нормально и robots.txt поддерживает несколько Sitemap).

Учтите, что директива Sitemap необязательна, но крайне желательна. Без неё поисковики попробуют найти sitemap.xml по стандартному адресу, но лучше явно прописать. Кроме того, Яндекс.Вебмастер и Google Search Console позволяют указать Sitemap напрямую – это дополняет, но не заменяет строчку в robots.txt.

Мультиязычные сайты и robots.txt

Для многоязычных сайтов существуют разные архитектуры – субдомены (ru.site.com / en.site.com), подпапки (site.com/ru/ / site.com/en/) или отдельные домены (site.ru, site.com и т.п.). От этого зависит подход к robots.txt:

Разные домены или поддомены для языков: каждый сайт по сути самостоятельный, у него свой корневой каталог. Тут надо размещать отдельный robots.txt на каждом домене/поддомене. Например, для en.site.com – свой файл с Host: en.site.com (если это отдельный сайт) и своими Sitemap. Обычно содержимое правил похоже, но Host и Sitemap указываются на соответствующий адрес. Также можно указать директиву Host на основной язык, если вы хотите, чтобы Яндекс считал главным, скажем, русскоязычный домен (но корректнее на каждом домене указывать свой же Host). Каждый язык ведёт себя как отдельный сайт с точки зрения robots.txt.
Языковые разделы в подпапках одного домена: в этом случае robots.txt один для всех языков. Вы не можете выбрать разные Host, так как хост один. Но вы можете при необходимости закрыть от индексации какой-то языковой раздел, если, например, он ещё находится в разработке или является дублем контента. Делается это просто: Disallow: /en/ (закроет весь раздел /en/ от сканирования). Однако обычно все языковые версии, опубликованные на сайте, должны индексироваться, а управление дублями и связью между ними выполняется через <link rel="alternate" hreflang="..."> на страницах, а не через robots.txt. Robots-файл же в мультиязычном сайте в подпапках, как правило, не различает языки: те же правила Disallow действуют для всех разделов. Исключение – ситуации, когда структуры разных языков сильно отличаются и требуют разных запретов (редко, но можно прописать, напр. Disallow: /en/admin/ отдельно, если админский раздел есть только на английской версии).
Ограничение индексации для вторичных языков: иногда владельцы сайта хотят продвигать только основной язык, а остальные закрыть от индексации (например, сырой машинный перевод). Тогда в robots.txt можно запретить целиком разделы вторичных языков (Disallow: /fr/, /de/ и т.п.). Это быстро скроет эти страницы из поиска. Но учтите: лучше также поставить на них метатег noindex, follow – поскольку Яндекс может при запрете в robots всё равно учитывать ссылки. Google же при Disallow будет знать о странице, но не индексировать содержимое.

Host и язык: директива Host не имеет механизма указания языка. Она просто сообщает Яндексу предпочтительный домен. Поэтому в контексте мультиязычности Host полезен только для выбора основного зеркала между www/non-www или разными доменными зонами, но не для разделов. Например, если у вас site.ru (рус) и site.com (англ) с одинаковым содержимым, можно на обоих указать Host: site.ru чтобы Яндекс склеил дубль и выбрал русский домен главным. Однако при различном контенте (полноценный перевод) не нужно склеивать зеркала! – лучше явно указать разные Host (или не указывать вовсе, тогда Яндекс сам их не склеит, если языки разные).

Пример: Сайт example.com имеет версии на русском (/ru/) и английском (/en/). Мы хотим, чтобы обе индексировались. Robots.txt будет один, и, скажем, закрывать админку: Disallow: /ru/admin/ и Disallow: /en/admin/ (можно обобщённо Disallow: */admin/). В Sitemap можно включить URL обоих языков или сделать две строки Sitemap (например, .../sitemap_ru.xml и .../sitemap_en.xml). На каждой странице настроим hreflang-ссылки, а robots.txt больше ничего специального не требует.

Требования и нюансы Яндекса и Google (на 2025 год)

Google и Яндекс в целом придерживаются стандартной спецификации robots.txt, но у них есть свои нюансы и расширения:

Директивы Host, Clean-param: Это нестандартные расширения, которые поддерживает Яндекс (и некоторые другие русскоязычные поисковики), но Google их игнорируетstackoverflow.comyandex.ru. Host мы уже разобрали – её имеет смысл использовать для указания главного домена на Яндексе, особенно если сайт доступен по разным адресам. В одном файле может быть только одна директива Hostseven-flares.ru. Clean-param позволяет перечислить параметры, которые можно удалять из URL, и указать основную страницу без них – этим пользуется Яндекс.Вебмастер для устранения дублей. Формат такой:
```
pgsql
Clean-param: param1&param2 /path/to/page
```
Например: Clean-param: referer,sessionid /catalog.html – означает “убирай параметр referer и sessionid, страница без них – /catalog.html”. В 2025-м Яндекс по-прежнему поддерживает Clean-param, хотя считается, что его алгоритмы многое определяют сами. Google таких директив не понимает вовсе, и встретив их, просто пропустит как комментарий.
Crawl-delay: Это задержка между запросами робота. Google не поддерживает Crawl-delay – настройка скорости обхода Googlebot делается в Search Console вручную. А Яндекс поддерживает, и в robots.txt можно указать Crawl-delay: N (секунд). Мы видели пример с Crawl-delay: 30aprioricorp.ru. Однако Яндекс тоже умеет сам подстраиваться под ваш сервер. Слишком большой Crawl-delay может замедлить индексацию, так что обычно ставят 1-10 секунд при острой необходимости. В 2025 Яндекс рекомендует не злоупотреблять – лучше оставить поле пустым, если не испытываете проблем с нагрузкой.
Noindex в robots.txt: Важно помнить – Google не поддерживает директиву Noindex в файле robots.txt с 2019 годаkokoc.com. Раньше она не была официальной, но Яндекс поддерживал синтаксис типа User-agent: * + Noindex: /path. Сейчас же правильный способ закрыть страницу от индексации содержимого – либо Disallow (чтобы не сканировать вообще), либо мета-тег <meta name="robots" content="noindex"> на странице, либо заголовок X-Robots-Tagkokoc.com. Яндекс исторически понимал Noindex в robots.txt, но в документации 2023+ этого нет, и стоит считать директиву устаревшей. Антипаттерн: некоторые ресурсы до сих пор копипастят старые файлы с Noindex: – не делайте так, эти строки бесполезныkokoc.com.
Разделение правил по ботам: И Яндекс, и Google поддерживают указание разных правил для разных User-agent. Например, можно сначала написать User-agent: Yandex и набор Disallow специально для него (включая Host и Clean-param), затем блок User-agent: Googlebot с особыми Allow/Disallow, затем User-agent: * для остальныхaltera-media.comaltera-media.com. Если различий немного, можно упростить и написать все правила под * (все роботы). Googlebot всё равно прочтёт блок * если не найдёт своего, а Яндекс – аналогично. Но приоритет: если есть специфический блок для Googlebot, то Google будет следовать ему вместо блока *. Поэтому если вы хотите для Google открыть CSS, а для остальных это не прописывать, можно это сделать (как в примерах выше для Joomla, OpenCart). В 2025 году поисковые системы советуют: если различия несущественны, лучше дать единый набор правил для всех, чтобы избежать путаницыaltera-media.comaltera-media.com. Но в ряде случаев отдельно указать правила для Googlebot (Allow на ресурсы) и Yandex (Host, Clean-param) – грамотный ход.
Размер и доступность файла: Мы уже упоминали лимиты: не превышайте 500 КБ (Google) и 32 КБ (Яндекс)calltouch.ru. Если робот не может прочитать файл (например, сервер отдает 404 или 503, либо файл пустой), то по стандарту считается, что нет ограничений – бот может индексировать всёaltera-media.comaltera-media.com. Это значит, что отсутствие или недоступность robots.txt не останавливает сканирование (для Яндекса и Google). Поэтому проверьте, что ваш robots.txt отдаёт код 200 и содержимое корректно. Google также не раз напоминал: если в robots.txt синтаксическая ошибка, он может проигнорировать всё последующее содержимое. Яндекс.Вебмастер имеет инструмент проверки, который укажет на ошибки синтаксиса и даже подсветит незнакомые директивыaltera-media.comaltera-media.com. На июнь 2025 оба поисковика требуют, чтобы файл был в кодировке UTF-8 без BOM и находился ровно по адресу https://домен/robots.txtkokoc.comkokoc.com.

Советы и ошибки: чего избегать в файле robots.txt

Наконец, соберём несколько популярных ошибок и “антипаттернов” при работе с robots.txt – и как их избежать:

Файл не в корне сайта: Ошибка №1 – разместить robots.txt не по адресу site.ru/robots.txt, а в поддиректории (или назвать иначе). Поисковые системы ищут файл только в корне доменаkokoc.com. Убедитесь, что на всех зеркалах (с www и без, http и https) либо стоят редиректы на основной сайт, либо везде лежит корректный robots.txt, особенно если зеркала открыты.
Противоречивые правила: Бывает, вебмастер сперва пишет Allow: / (разрешить всё), а ниже Disallow: /private/ – технически это не противоречие (разрешение общее, запрет конкретный, последний победит). Но избыточные или конфликтующие директивы затрудняют понимание. Всегда делайте правила от общего к частному или наоборот, но ясно. Если нужно что-то сначала запретить, а внутри разрешить – используйте комбинацию Disallow + Allow как задумано. Не пишите две строки Disallow для одного и того же пути в разных местах файла.
Неправильное использование * и других шаблонов: Ошибка №2 по частоте – некорректные шаблоны в правилахkokoc.com. Например, Disallow: /*.php (без $) запретит и /page.php и /page.php?param=... и даже /page.php.html – возможно, не то, что вы имели в виду. Другой пример: Disallow: /folder* фактически равносильно Disallow: /folder (так как * в конце не нужен, он и так подразумевается)altera-media.comaltera-media.com. Лишние или неправильно поставленные шаблоны могут либо недостаточно закрыть (что-то проскользнет), либо, наоборот, закрыть лишнее.
Использование Noindex в файле: Как уже сказано, директива Noindex в robots.txt не работает для Google, да и для Яндекса больше не рекомендуетсяkokoc.com. Вместо неё используйте <meta name="robots" content="noindex,nofollow"> в HTML, если нужно закрыть индексацию контента, но не сканирование. Или просто Disallow, если хотите даже не заходить на страницу. Некоторые ставят Noindex в паре с Disallow в надежде, что так страница совсем исчезнет – для Google это пустое место, он увидит только Disallow и не проиндексирует содержимое, но URL может показать как обнаруженный (без описания). Вывод: не пишите Noindex, полагайтесь на другие методы.
Полный запрет всего сайта без необходимости: Disallow: / для всех роботов – иногда его ставят на стадии разработки и забывают убрать. Это критическая ошибка, ведущая к исчезновению сайта из поисковика. Если сайт уже в индексе, а вы внезапно открываете robots.txt с Disallow: /, поисковик пометит все страницы как заблокированные. Google Search Console выдаст предупреждение “Indexed, though blocked by robots.txt”. Поэтому всегда проверяйте, что на боевом сайте нет глобального запрета, кроме случаев, когда он вам действительно нужен (например, проект заморожен). Обратная сторона – не закрытые тестовые страницы. Если у вас были черновые разделы (стадия “под разработкой”), и вы их не закрыли, они могут попасть в индекс, что нежелательноkokoc.com. Решение: либо ставьте пароль на dev-разделы, либо пропишите Disallow на них (/dev/, /test/ и т.п.).
Отсутствие указания на sitemap.xml: Не то чтобы ошибка, но упущение. Как мы говорили, лучше явно прописать Sitemap: в robots.txt, чтобы и Яндекс, и Google точно узнали о карте сайтаkokoc.com. Особенно это важно, если у вас несколько карт или нестандартный путь до них.
Блокировка важных страниц или разделов: Иногда по незнанию блокируют что-то, что нужно индексировать. Например, путём слишком общего правила. Типичный случай: Disallow: /content – владелец имел в виду закрыть раздел “Контент-сервисы”, а на сайте все статьи лежат в /content/articles/.... В итоге выпали все статьи из выдачи. Всегда проверяйте, что именно матчат ваши правила. Яндекс.Вебмастер имеет удобный инструмент: вводите URL – он покажет, каким правилом он запрещён или разрешён. Если обнаружили ошибку – сразу исправляйте файл.
Ошибки формата и опечатки: Robots.txt чувствителен к синтаксису директив (но не к регистру их названий). Правильно: User-agent: Yandex (с дефисом, двоеточием и пробелом). Неправильно: User agent Yandex или UserAgent:Yandex – такое робот не поймётaltera-media.com. Также после двоеточия нужен хотя бы один пробел. Проверяйте, чтобы не было “Disalow” (пропущена буква) – такое правило будет просто проигнорировано, и вы не сразу поймёте, почему страница индексируется. Комментарии начинаются с # и не должны стоять вначале строки с директивой (коммент можно либо на отдельной строке, либо после значения, как мы делали в примерах). Пустая строка считается концом блока User-agentaltera-media.com, имейте это в виду, когда группируете правила.
Не актуализированный robots.txt: Со временем сайт меняется – появляются новые секции, страницы, параметры. Пересматривайте robots.txt регулярно. Возможно, вы закрыли /blog/ когда он был пуст, а теперь там контент – пора открыть. Или наоборот, завели новый фильтр товаров ?color= – стоит его добавить в Disallow. А может, переехали на HTTPS – тогда и Sitemap, и Host нужно обновить на https://. Поисковики умны, но неточно указанный robots может вызывать нежелательные эффекты (например, Яндекс будет считать http:// и https:// разными зеркалами без Host). Поэтому после крупных изменений всегда проверяйте файл.

Вывод: файл robots.txt – простой по структуре, но крайне важный инструмент SEO. Он требует человеческого подхода: не слепого копирования, а осмысленной настройки под свой сайт. Как заметил один из специалистов, “не пользуйтесь генераторами – пошевелите руками”wpcourses.ru. Понимая каждую директиву и её эффект, вы создадите живой, рабочий robots.txt, который улучшит индексирование вашего ресурса поисковыми системами, не оставляя шансов ни техническим дублям, ни лишней нагрузке на сервер.

ользуйтесь проверками в инструментах вебмастеров от Яндекса и Googlealtera-media.comaltera-media.com, чтобы убедиться в отсутствии ошибок. И тогда ваш robots.txt станет надёжным помощником в продвижении сайта. Успехов в оптимизации!

Примеры robots.txt для WordPress, Bitrix, Tilda и других CMS

Введение

WordPress: пример файла robots.txt

1C-Битрикс: пример файла robots.txt

Tilda: особенности файла robots.txt

Robots.txt для других CMS

Joomla

Drupal

OpenCart

NetCat

MODX

Shopify

Учёт карты сайта (Sitemap.xml) в robots.txt

Мультиязычные сайты и robots.txt

Рекомендации по Allow/Disallow и исключению параметров

Требования и нюансы Яндекса и Google (на 2025 год)

Советы и ошибки: чего избегать в файле robots.txt

Киселев Александр

Автор

Киселев Александр

Поделиться

Теги

Похожие статьи

Полное руководство о директивах Robots.txt

Что такое файл robots.txt и зачем он нужен?

Новые возможности