ТОП-5 SEO Рейтинг Рунета
логотип

5 место

Рейтинг SEO-компаний — лучшие компании по продвижению сайтов – 2024

«Рейтинг Рунета» проанализировал агентства по следующим критериям:
— количество клиентов на SEO-продвижении
— число крупнейших компаний России и мира на SEO-продвижении
— показатель полезности сайтов клиентов по мнению Яндекс
— выручка клиентов от услуг SEO
— возраст SEO-агентства.

Выбирая подрядчика из рейтинга SEO-компаний от «Рейтинг Рунета» вы можете быть уверены в успехе продвижения вашего сайта.

ТОП-4 SEO Рейтинг Рунета
логотип

4 место

Рейтинг SEO-компаний — лучшие компании по продвижению сайтов «под ключ» – 2024

«Рейтинг Рунета» проанализировал агентства по следующим критериям:
— количество клиентов на SEO-продвижении
— число крупнейших компаний России и мира на SEO-продвижении
— показатель полезности сайтов клиентов по мнению Яндекс
— выручка клиентов от услуг SEO
— возраст SEO-агентства.

Выбирая подрядчика из рейтинга SEO-компаний от «Рейтинг Рунета» вы можете быть уверены в успехе продвижения вашего сайта.

ТОП-2 Реклама CMS Magazine
логотип

2 место

Рейтинг агентств контекстной рекламы — 2024

CMSmagazine собрал все агентства, которые оказывают услуги по контекстной рекламе и имеют сертификаты Яндекс. Директ и/или Гугл Эдвордс. Рейтинг формировался на основе 4 ключевых факторов: количество сотрудников, возраст компании, количество клиентов, число отзывов. Чем выше эти показатели, тем выше место компании в рейтинге.

INTELSIB на рынке продвижения сайтов с 2005 года, наш опыт ведения контекстной рекламы — 17 лет. В нашей компании работает 136 сертифицированных специалистов.

ТОП-7 SEO CMS Magazine
логотип

7 место

Рейтинг SEO-компаний — 2024

CMSmagazine собрал все агентства, которые оказывают услуги по SEO-продвижению. Рейтинг формировался на основе 4 ключевых факторов: количество сотрудников, возраст компании, количество клиентов, число отзывов. Чем выше эти показатели, тем выше место компании в рейтинге.

INTELSIB на рынке продвижения сайтов с 2005 года, наш опыт SEO-продвижения — 17 лет. В нашей компании работает 115 опытных SEO-специалистов.

ТОП-3 SEO Рейтинг Рунета
логотип

3 место

Рейтинг SEO-компаний — лучшие компании по продвижению сайтов — 2022

«Рейтинг Рунета» проанализировал 834 агентства по следующим критериям:
— количество клиентов на SEO-продвижении
— число крупнейших компаний России и мира на SEO-продвижении
— показатель полезности сайтов клиентов по мнению Яндекс
— выручка клиентов от услуг SEO
— возраст SEO-агентства.

Выбирая подрядчика из рейтинга SEO-компаний от «Рейтинг Рунета» вы можете быть уверены в успехе продвижения вашего сайта.

ТОП-3 Реклама CMS Magazine
логотип

3 место

Рейтинг агентств контекстной рекламы — 2022

CMSmagazine собрал все агентства, которые оказывают услуги по контекстной рекламе и имеют сертификаты Яндекс. Директ и/или Гугл Эдвордс. Рейтинг формировался на основе 4 ключевых факторов: количество сотрудников, возраст компании, количество клиентов, число отзывов. Чем выше эти показатели, тем выше место компании в рейтинге.

INTELSIB на рынке продвижения сайтов с 2005 года, наш опыт ведения контекстной рекламы — 17 лет. В нашей компании работает 136 сертифицированных специалистов.

ТОП-3 Маркетинг Рейтинг Рунета
логотип

3 место

Рейтинг агентств интернет-маркетинга — 2022

«Рейтинг Рунета» собрал опытные и креативные студии с хорошей репутацией. Из 996 в финальный ТОП попали 200 подрядчиков, которым Рунет присвоил баллы по двум показателям: лучшие SEO компании и лучшие агентства контекстной рекламы.

Средний балл INTELSIB: 5,36 — это выше, чем у 99% компаний.

ТОП-3 SEO Рейтинг Рунета
логотип

3 место

Рейтинг SEO-компаний — лучшие компании по продвижению сайтов — 2022

«Рейтинг Рунета» проанализировал 834 агентства по следующим критериям:
— количество клиентов на SEO-продвижении
— число крупнейших компаний России и мира на SEO-продвижении
— показатель полезности сайтов клиентов по мнению Яндекс
— выручка клиентов от услуг SEO
— возраст SEO-агентства.

Выбирая подрядчика из рейтинга SEO-компаний от «Рейтинг Рунета» вы можете быть уверены в успехе продвижения вашего сайта.

ТОП-1 SEO Рейтинг Рунета
логотип

1 место

Рейтинг агентств интернет-маркетинга — 2022

«Рейтинг Рунета» собрал опытные и креативные студии с хорошей репутацией. Из 996 в финальный ТОП попали 200 подрядчиков, которым Рунет присвоил баллы по двум показателям: лучшие SEO компании и лучшие агентства контекстной рекламы.

Средний балл INTELSIB: 9,41 — это выше, чем у 100% компаний.

ТОП-6 Маркетинг Рейтинг Рунета
логотип

6 место

Рейтинг агентств комплексного продвижения в интернете 2023

«Рейтинг Рунета» собрал топ-фирмы, рекламные агентства и студии, умеющие оказывать комплексные услуги интернет-продвижения. Например, SEO-оптимизация плюс ведение контекстной рекламы. При создании рейтинга оценивалась выручка, число клиентов и средний срок работы с ними, опыт и специализация на маркетинге и продвижении.

ТОП-4 SEO RunetAwards
логотип

4 место

Рейтинг SEO-компаний — 2023

RunetAwards — независимый рейтинг digital-компаний России, построенный на основе анализа 47 параметров. Каждому агентству присуждена объективная оценка. Чем выше компания в рейтинге, тем лучше ее достижения, уровень экспертности и сервис.

Настройка ROBOTS.txt

20.05.2020

Содержание

Что такое robots.txt?

ROBOTS.TXT - Стандарт исключений для роботов - файл в текстовом формате.txt для ограничения доступа роботам к содержимому сайта. Файл должен находиться в корне сайта (по адресу /robots.txt). Использование стандарта необязательно, но поисковые системы следуют правилам, содержащимся в robots.txt. Сам файл состоит из набора записей вида

 <поле>:<необязательный пробел><значение><необязательный пробел>

где поле - название правила (User-Agent, Disallow, Allow и проч.)

Записи разделяются одной или более пустых строк (признак конца строки: символы CR, CR+LF, LF)

Как правильно настроить ROBOTS.TXT?

В данном пункте приведены основные требования по настройке файла, конкретные рекомендации по настройке здесь, примеры для популярных CMS здесь.

Таким образом минимальное содержание правильно настроенного файла robots.txt выглядит так:

~~~~
User-agent: \* #для всех агентов
Disallow: #запрещено ничего = разрешен доступ ко всем файлам
~~~~

Как создать ROBOTS.TXT?

Создать файл возможно с помощью любого текстового редактора (например, notepad++). Кодировка файла должна быть ASCII или UTF-8, а размер файла не должен превышать 32 КБ. Для создания, либо изменения файла robots.txt обычно требуется доступ к серверу по FTP/SSH, впрочем, многие CMS/CMF имеют встроенный интерфейс управления содержимым файла через панель администрирования (“админку”), например: Bitrix, ShopScript и другие. Файл доступен в браузере когда он создан и работает корректно.

Для чего нужен файл ROBOTS.TXT на сайте?

Как видно из определения, robots.txt позволяет управлять поведением роботов при посещении сайта, т.е. настроить индексирование сайта поисковыми системами - это делает данный файл важной частью SEO-оптимизации вашего сайта. Самая важная возможность robots.txt - запрет на индексацию страниц / файлов не содержащих полезную информацию. Либо вообще всего сайта, что может быть необходимо, например, для тестовых версий сайта.

Основные примеры того, что нужно закрывать от индексации будут рассмотрены ниже.

Что нужно закрывать от индексации?

Во-первых, всегда следует запрещать индексацию сайтов в процессе разработки, чтобы избежать попадания в индекс страниц, которых вообще не будет на готовой версии сайта и страниц с отсутствующим / дублированным / тестовым контентом до того как они будут заполнены.

Во-вторых, следует запретить индексировать копии сайта, созданные как тестовые площадки для разработки.

В-третьих, разберем какой контент непосредственно на сайте нужно запрещать индексировать.

  1. Административная часть сайта, служебные файлы.
  2. Страницы авторизации / регистрации пользователя, в большинстве случаев - персональные разделы пользователей (если не предусмотрен публичный доступ к личным страницам).
  3. Корзина и страницы оформления, просмотра заказа.
  4. Страницы сравнения товаров, возможно выборочно открывать такие страницы для индексации при условии их уникальности. В общем случае таблицы сравнения - бессчетное количество страниц с дублированным контентом.
  5. Страницы поиска и фильтрации возможно оставлять открытыми для индексации только в случае их правильной настройки: отдельные урлы, заполненные уникальные заголовки, мета-теги. В большинстве случаев такие страницы следует закрывать.
  6. Страницы с сортировками товаров / записей, в случае наличия у них разных адресов.
  7. Страницы с utm-, openstat-метками в URl (а также всеми прочими).

Синтаксис ROBOTS.TXT

Теперь остановимся на синтаксисе robots.txt более подробно.

Общие положения:

Специальные символы:

Список директив

  1. User-agent

    Обязательная директива. Определяет к какому роботу относится правило, в правиле может быть одна или несколько таких директив. Можно использовать символ * как указание префикса, суффикса или полного названия робота. Пример:

    #сайт закрыт для Google.Новости и Google.Картинки
    User-agent: Googlebot-Image
    User-agent: Googlebot-News
    Disallow: /
    #для всех роботов, чье название начинается с Yandex, закрываем раздел “Новости”
    User-agent: Yandex\*
    Disallow: /news
    #открыт для всех остальных
    User-agent: \*
    Disallow:
    

    Здесь можно посмотреть список роботов поисковых систем

  2. Disallow

    В каждом правиле должна быть по крайней мере одна директива Disallow: или Allow:.

    Директива указывает какие файлы или каталоги нельзя индексировать. Значение директивы должно начинаться с символа / либо *. По умолчанию в конце значения проставляется *, если это не запрещено символом $.

  3. Allow

    В каждом правиле должна быть по крайней мере одна директива Disallow: или Allow:.

    Директива указывает какие файлы или каталоги следует индексировать. Значение директивы должно начинаться с символа / либо *. По умолчанию в конце значения проставляется *, если это не запрещено символом $.

    Использование директивы актуально только совместно с Disallow для разрешения индексации какого-то подмножества запрещенных к индексированию страниц директивой Disallow.

  4. Clean-param

    Необязательная, межсекционная директива. Используйте директиву Clean-param, если адреса страниц сайта содержат GET-параметры (в URL отображается после знака ?), которые не влияют на их содержимое (например, UTM). С помощью данного правила все адреса будут приведены к единому виду - исходному, без параметров.

    Роботы Google не учитывают данную директиву.

    Синтаксис директивы:

    Clean-param: p0[&p1&p2&..&pn] [path]

    p0… - названия параметров, которые не нужно учитывать
    path - префикс пути страниц, для которых применяется правило

    Пример.

    На сайте есть страницы вида

    www.example.com/some\_dir/get\_book.pl?ref=site\_1&book\_id=123
    www.example.com/some\_dir/get\_book.pl?ref=site\_2&book\_id=123
    www.example.com/some\_dir/get\_book.pl?ref=site\_3&book\_id=123
    

    При указании правила

    User-agent: Yandex
    Disallow:
    Clean-param: ref /some\_dir/get\_book.pl
    

    робот сведет все адреса страницы к одному:

    www.example.com/some\_dir/get\_book.pl?book\_id=123
    
  5. Sitemap

    Необязательная директива, возможно размещение нескольких таких директив в одном файле, межсекционная (достаточно указать в файле один раз, не дублируя для каждого агента).

    Используется для указания ссылки на xml-карту сайта. Должен быть указан полный URL.

    Пример:

    Sitemap: https://example.com/sitemap.xml
    
  6. Crawl-delay

    Директива позволяет задать поисковому роботу минимальный период времени (в секундах) между окончанием загрузки одной страницы и началом загрузки следующей. Поддерживаются дробные значения.

    Минимально допустимое значение для роботов Яндекс - 2.0.

    Роботы Google не учитывают данную директиву.

    Пример:

    ~~~
    User-agent: Yandex
    Crawl-delay: 2.0 # задает тайм-аут в 2 секунды
    User-agent: \*
    Crawl-delay: 1.5 # задает тайм-аут в 1.5 секунды
    ~~~
    
  7. Host

    Директива указывает главное зеркало сайта. На данный момент из популярных поисковых систем поддерживается только Mail.ru.

    Пример:

    User-agent: Mail.Ru
    Host: www.site.ru # главное зеркало с www
    

Примеры robots.txt для популярных CMS

ROBOTS.TXT для 1С:Битрикс

В CMS Битрикс предусмотрена возможность управления содержимым файла robots.txt. Для этого в административном интерфейсе нужно зайти в инструмент “Настройка robots.txt”, воспользовавшись поиском, либо по пути Маркетинг->Поисковая оптимизация->Настройка robots.txt. Также можно изменить содержимое robots.txt через встроенный редактор файлов Битрикс, либо через FTP.

Приведенный ниже пример может использоваться как стартовый набор robots.txt для сайтов на Битрикс, но не является универсальным и требует адаптации в зависимости сайта.

Пояснения:

  1. в директивах Allow указаны пути к файлам стилей, скриптов, картинок: для правильной индексации сайта необходимо, чтобы они были доступны роботам;
  2. разбиение на правила для разных агентов обусловлено тем, что Google не поддерживает директиву Clean-param.

    User-Agent: Yandex
    Disallow: \*/index.php
    Disallow: /bitrix/
    Disallow: /\*filter
    Disallow: /\*order
    Disallow: /\*show\_include\_exec\_time=
    Disallow: /\*show\_page\_exec\_time=
    Disallow: /\*show\_sql\_stat=
    Disallow: /\*bitrix\_include\_areas=
    Disallow: /\*clear\_cache=
    Disallow: /\*clear\_cache\_session=
    Disallow: /\*ADD\_TO\_COMPARE\_LIST
    Disallow: /\*ORDER\_BY
    Disallow: /\*?print=
    Disallow: /\*&print=
    Disallow: /\*print\_course=
    Disallow: /\*?action=
    Disallow: /\*&action=
    Disallow: /\*register=
    Disallow: /\*forgot\_password=
    Disallow: /\*change\_password=
    Disallow: /\*login=
    Disallow: /\*logout=
    Disallow: /\*auth=
    Disallow: /\*backurl=
    Disallow: /\*back\_url=
    Disallow: /\*BACKURL=
    Disallow: /\*BACK\_URL=
    Disallow: /\*back\_url\_admin=
    Disallow: /\*?utm\_source=
    Disallow: /\*?bxajaxid=
    Disallow: /\*&bxajaxid=
    Disallow: /\*?view\_result=
    Disallow: /\*&view\_result=
    Disallow: /\*?PAGEN\*&
    Disallow: /\*&PAGEN
    Allow: \*/?PAGEN\*
    Allow: /bitrix/components/\*/
    Allow: /bitrix/cache/\*/
    Allow: /bitrix/js/\*/
    Allow: /bitrix/templates/\*/
    Allow: /bitrix/panel/\*/
    Allow: /bitrix/components/\*/\*/
    Allow: /bitrix/cache/\*/\*/
    Allow: /bitrix/js/\*/\*/
    Allow: /bitrix/templates/\*/\*/
    Allow: /bitrix/panel/\*/\*/
    Allow: /bitrix/components/
    Allow: /bitrix/cache/
    Allow: /bitrix/js/
    Allow: /bitrix/templates/
    Allow: /bitrix/panel/
    Clean-Param: PAGEN\_1 /
    Clean-Param: PAGEN\_2 / #если на сайте больше компонентов с пагинацией, то дублировать правило для всех вариантов, меняя номер
    Clean-Param: sort
    Clean-Param: utm\_source&utm\_medium&utm\_campaign
    Clean-Param: openstat
    User-Agent: \*
    Disallow: \*/index.php
    Disallow: /bitrix/
    Disallow: /\*filter
    Disallow: /\*sort
    Disallow: /\*order
    Disallow: /\*show\_include\_exec\_time=
    Disallow: /\*show\_page\_exec\_time=
    Disallow: /\*show\_sql\_stat=
    Disallow: /\*bitrix\_include\_areas=
    Disallow: /\*clear\_cache=
    Disallow: /\*clear\_cache\_session=
    Disallow: /\*ADD\_TO\_COMPARE\_LIST
    Disallow: /\*ORDER\_BY
    Disallow: /\*?print=
    Disallow: /\*&print=
    Disallow: /\*print\_course=
    Disallow: /\*?action=
    Disallow: /\*&action=
    Disallow: /\*register=
    Disallow: /\*forgot\_password=
    Disallow: /\*change\_password=
    Disallow: /\*login=
    Disallow: /\*logout=
    Disallow: /\*auth=
    Disallow: /\*backurl=
    Disallow: /\*back\_url=
    Disallow: /\*BACKURL=
    Disallow: /\*BACK\_URL=
    Disallow: /\*back\_url\_admin=
    Disallow: /\*?utm\_source=
    Disallow: /\*?bxajaxid=
    Disallow: /\*&bxajaxid=
    Disallow: /\*?view\_result=
    Disallow: /\*&view\_result=
    Disallow: /\*utm\_
    Disallow: /\*openstat=
    Disallow: /\*?PAGEN\*&
    Disallow: /\*&PAGEN
    Allow: \*/?PAGEN\*
    Allow: /bitrix/components/\*/
    Allow: /bitrix/cache/\*/
    Allow: /bitrix/js/\*/
    Allow: /bitrix/templates/\*/
    Allow: /bitrix/panel/\*/
    Allow: /bitrix/components/\*/\*/
    Allow: /bitrix/cache/\*/\*/
    Allow: /bitrix/js/\*/\*/
    Allow: /bitrix/templates/\*/\*/
    Allow: /bitrix/panel/\*/\*/
    Allow: /bitrix/components/
    Allow: /bitrix/cache/
    Allow: /bitrix/js/
    Allow: /bitrix/templates/
    Allow: /bitrix/panel/
    Sitemap: http://site.com/sitemap.xml #заменить на адрес вашей карты сайта
    

ROBOTS.TXT для WordPress

В “админке” Вордпресс нет встроенного инструмента для добавления и настройки robots.txt, поэтому доступ к файлу возможен только с помощью FTP, либо после установки специального плагина (например, DL Robots.txt).

Приведенный ниже пример может использоваться как стартовый набор robots.txt для сайтов на Wordpress, но не является универсальным и требует адаптации в зависимости сайта.

Пояснения:

  1. в директивах Allow указаны пути к файлам стилей, скриптов, картинок: для правильной индексации сайта необходимо, чтобы они были доступны роботам;
  2. разбиение на правила для разных агентов обусловлено тем, что Google не поддерживает директиву Clean-param;
  3. для большинства сайтов страницы архивов записей по автору и меток только создают дублирование контента и не создают полезного контента, поэтому в данном примере они закрыты для индексации. Если же на вашем проекте подобные страницы необходимы, полезны и уникальны, то следует удалить директивы Disallow: /tag/ и Disallow: /author/.

Пример правильного ROBOTS.TXT для сайта на WoRdPress:

~~~
User-agent: Yandex # Для Яндекса
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp- 
Disallow: \*?s=
Disallow: \*&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: \*/trackback
Disallow: \*/feed
Disallow: \*/rss
Disallow: \*/embed
Disallow: /xmlrpc.php
Disallow: /tag/
Disallow: /readme.html
Disallow: \*?replytocom
Allow: \*/uploads
Allow: /\*/\*.js
Allow: /\*/\*.css
Allow: /wp-\*.png
Allow: /wp-\*.jpg
Allow: /wp-\*.jpeg
Allow: /wp-\*.gif
Clean-Param: utm\_source&utm\_medium&utm\_campaign
Clean-Param: openstat
User-agent: \*
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: \*?s=
Disallow: \*&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: \*/trackback
Disallow: \*/feed
Disallow: \*/rss
Disallow: \*/embed
Disallow: /xmlrpc.php
Disallow: \*?utm
Disallow: \*openstat=
Disallow: /tag/
Disallow: /readme.html
Disallow: \*?replytocom
Allow: \*/uploads
Allow: /\*/\*.js
Allow: /\*/\*.css
Allow: /wp-\*.png
Allow: /wp-\*.jpg
Allow: /wp-\*.jpeg
Allow: /wp-\*.gif
Sitemap: http://site.com/sitemap.xml #заменить на адрес вашей карты сайта
~~~

ROBOTS.TXT для OpenCart

В “админке” OpenCart нет встроенного инструмента для настройки robots.txt, поэтому доступ к файлу возможен только с помощью FTP.

Приведенный ниже пример может использоваться как стартовый набор robots.txt для сайтов на OpenCart, но не является универсальным и требует адаптации в зависимости сайта.

Пояснения:

  1. в директивах Allow указаны пути к файлам стилей, скриптов, картинок: для правильной индексации сайта необходимо, чтобы они были доступны роботам;
  2. разбиение на правила для разных агентов обусловлено тем, что Google не поддерживает директиву Clean-param;

    User-agent: \*
    Disallow: /\*route=account/
    Disallow: /\*route=affiliate/
    Disallow: /\*route=checkout/
    Disallow: /\*route=product/search
    Disallow: /index.php?route=product/product\*&manufacturer\_id=
    Disallow: /admin
    Disallow: /catalog
    Disallow: /system
    Disallow: /\*?sort=
    Disallow: /\*&sort=
    Disallow: /\*?order=
    Disallow: /\*&order=
    Disallow: /\*?limit=
    Disallow: /\*&limit=
    Disallow: /\*?filter\_name=
    Disallow: /\*&filter\_name=
    Disallow: /\*?filter\_sub\_category=
    Disallow: /\*&filter\_sub\_category=
    Disallow: /\*?filter\_description=
    Disallow: /\*&filter\_description=
    Disallow: /\*?tracking=
    Disallow: /\*&tracking=
    Disallow: /\*compare-products
    Disallow: /\*search
    Disallow: /\*cart
    Disallow: /\*checkout
    Disallow: /\*login
    Disallow: /\*logout
    Disallow: /\*vouchers
    Disallow: /\*wishlist
    Disallow: /\*my-account
    Disallow: /\*order-history
    Disallow: /\*newsletter
    Disallow: /\*return-add
    Disallow: /\*forgot-password
    Disallow: /\*downloads
    Disallow: /\*returns
    Disallow: /\*transactions
    Disallow: /\*create-account
    Disallow: /\*recurring
    Disallow: /\*address-book
    Disallow: /\*reward-points
    Disallow: /\*affiliate-forgot-password
    Disallow: /\*create-affiliate-account
    Disallow: /\*affiliate-login
    Disallow: /\*affiliates
    Disallow: /\*?filter\_tag=
    Disallow: /\*brands
    Disallow: /\*specials
    Disallow: /\*simpleregister
    Disallow: /\*simplecheckout
    Disallow: \*utm=
    Disallow: /\*&page
    Disallow: /\*?page\*&
    Allow: /\*?page
    Allow: /catalog/view/javascript/
    Allow: /catalog/view/theme/\*/
    User-agent: Yandex
    Disallow: /\*route=account/
    Disallow: /\*route=affiliate/
    Disallow: /\*route=checkout/
    Disallow: /\*route=product/search
    Disallow: /index.php?route=product/product\*&manufacturer\_id=
    Disallow: /admin
    Disallow: /catalog
    Disallow: /system
    Disallow: /\*?sort=
    Disallow: /\*&sort=
    Disallow: /\*?order=
    Disallow: /\*&order=
    Disallow: /\*?limit=
    Disallow: /\*&limit=
    Disallow: /\*?filter\_name=
    Disallow: /\*&filter\_name=
    Disallow: /\*?filter\_sub\_category=
    Disallow: /\*&filter\_sub\_category=
    Disallow: /\*?filter\_description=
    Disallow: /\*&filter\_description=
    Disallow: /\*compare-products
    Disallow: /\*search
    Disallow: /\*cart
    Disallow: /\*checkout
    Disallow: /\*login
    Disallow: /\*logout
    Disallow: /\*vouchers
    Disallow: /\*wishlist
    Disallow: /\*my-account
    Disallow: /\*order-history
    Disallow: /\*newsletter
    Disallow: /\*return-add
    Disallow: /\*forgot-password
    Disallow: /\*downloads
    Disallow: /\*returns
    Disallow: /\*transactions
    Disallow: /\*create-account
    Disallow: /\*recurring
    Disallow: /\*address-book
    Disallow: /\*reward-points
    Disallow: /\*affiliate-forgot-password
    Disallow: /\*create-affiliate-account
    Disallow: /\*affiliate-login
    Disallow: /\*affiliates
    Disallow: /\*?filter\_tag=
    Disallow: /\*brands
    Disallow: /\*specials
    Disallow: /\*simpleregister
    Disallow: /\*simplecheckout
    Disallow: /\*&page
    Disallow: /\*?page\*&
    Allow: /\*?page
    Allow: /catalog/view/javascript/
    Allow: /catalog/view/theme/\*/
    Clean-Param: page /
    Clean-Param: utm\_source&utm\_medium&utm\_campaign /
    Sitemap: http://site.com/sitemap.xml #заменить на адрес вашей карты сайта
    

ROBOTS.TXT для Joomla3

В “админке” Джумла нет встроенного инструмента для настройки robots.txt, поэтому доступ к файлу возможен только с помощью FTP. В стандартном файле Joomla до версии 3.3 роботы не понимают оформление сайта (не видят часть контента), не видят изображений. Кроме того, в файле закрыты основные служебные директории, но в то же время много ненужной информации остается открытой.

Приведенный ниже пример может использоваться как стартовый набор robots.txt для сайтов на Joomla с включенным SEF, но не является универсальным и требует адаптации в зависимости сайта.

Пояснения:

  1. в директивах Allow указаны пути к файлам стилей, скриптов, картинок: для правильной индексации сайта необходимо, чтобы они были доступны роботам;
  2. разбиение на правила для разных агентов обусловлено тем, что Google не поддерживает директиву Clean-param;

    User-agent: Yandex
    Disallow: /\*%
    Disallow: /administrator/
    Disallow: /bin/
    Disallow: /cache/
    Disallow: /cli/
    Disallow: /components/
    Disallow: /includes/
    Disallow: /installation/
    Disallow: /language/
    Disallow: /layouts/
    Disallow: /libraries/
    Disallow: /logs/
    Disallow: /log/
    Disallow: /tmp/
    Disallow: /xmlrpc/
    Disallow: /plugins/
    Disallow: /modules/
    Disallow: /component/
    Disallow: /search\*
    Disallow: /\*mailto/
    Allow: /\*.css?\*$
    Allow: /\*.less?\*$
    Allow: /\*.js?\*$
    Allow: /\*.jpg?\*$
    Allow: /\*.png?\*$
    Allow: /\*.gif?\*$
    Allow: /templates/\*.css
    Allow: /templates/\*.less
    Allow: /templates/\*.js
    Allow: /components/\*.css
    Allow: /components/\*.less
    Allow: /media/\*.js
    Allow: /media/\*.css
    Allow: /media/\*.less
    Allow: /index.php?\*view=sitemap\* #открываем карту сайта
    Clean-param: searchword /
    Clean-param: limit&limitstart /
    Clean-param: keyword /
    User-agent: \*
    Disallow: /\*%
    Disallow: /administrator/
    Disallow: /bin/
    Disallow: /cache/
    Disallow: /cli/
    Disallow: /components/
    Disallow: /includes/
    Disallow: /installation/
    Disallow: /language/
    Disallow: /layouts/
    Disallow: /libraries/
    Disallow: /logs/
    Disallow: /log/
    Disallow: /tmp/
    Disallow: /xmlrpc/
    Disallow: /plugins/
    Disallow: /modules/
    Disallow: /component/
    Disallow: /search\*
    Disallow: /\*mailto/
    Disallow: /\*searchword
    Disallow: /\*keyword
    Allow: /\*.css?\*$
    Allow: /\*.less?\*$
    Allow: /\*.js?\*$
    Allow: /\*.jpg?\*$
    Allow: /\*.png?\*$
    Allow: /\*.gif?\*$
    Allow: /templates/\*.css
    Allow: /templates/\*.less
    Allow: /templates/\*.js
    Allow: /components/\*.css
    Allow: /components/\*.less
    Allow: /media/\*.js
    Allow: /media/\*.css
    Allow: /media/\*.less
    Allow: /index.php?\*view=sitemap\* #открываем карту сайта
    Sitemap: http://ваш\_адрес\_карты\_сайта
    

Перечень основных агентов

Бот Функция
Google
Googlebot основной индексирующий робот Google
Googlebot-News Google Новости
Googlebot-Image Google Картинки
Googlebot-Video видео
Mediapartners-Google Google AdSense, Google Mobile AdSense
Mediapartners Google AdSense, Google Mobile AdSense
AdsBot-Google проверка качества целевой страницы
AdsBot-Google-Mobile-Apps Робот Google для приложений
Яндекс
YandexBot основной индексирующий робот Яндекса
YandexImages Яндекс.Картинки
YandexVideo Яндекс.Видео
YandexMedia мультимедийные данные
YandexBlogs робот поиска по блогам
YandexAddurl робот, обращающийся к странице при добавлении ее через форму «Добавить URL»
YandexFavicons робот, индексирующий пиктограммы сайтов (favicons)
YandexDirect Яндекс.Директ
YandexMetrika Яндекс.Метрика
YandexCatalog Яндекс.Каталог
YandexNews Яндекс.Новости
YandexImageResizer робот мобильных сервисов
Bing
Bingbot основной индексирующий робот Bing
Yahoo!
Slurp основной индексирующий робот Yahoo!
Mail.Ru
Mail.Ru основной индексирующий робот Mail.Ru

Частые вопросы

Как проверить robots.txt сайта?

Проверка валидности robots.txt, а также проверка страниц сайта на возможность индексирования может быть осуществлена с помощью специальных инструментов поисковых систем:

По результатам проверки robots.txt на ошибки вы можете внести необходимые корректировки. Если краулер не получает ответ 200 ОК, то он считает, что файла нет, и сайт открыт для индексации полностью.

Как посмотреть robots.txt чужого сайта?

Чтобы посмотреть robots.txt чужого сайта достаточно открыть в вашем браузере адрес вида сайт.ru/robots.txt. Также можно воспользоваться одним из онлайн-инструментов для проверки robots.txt чужого сайта, например, инструментом Яндекс.Вебмастера.

Текстовый файл robots.txt является общедоступным, что следует учитывать, и не использовать данный файл как средство сокрытия конфиденциальной информации.

Файл robots.txt для Яндекс и Google?

Принципиальных отличий в обработке robots.txt поисковыми системами Яндекс и Google нет, но все же следует выделить ряд моментов:

Как закрыть сайт от индексации в robots.txt?

Чтобы закрыть сайт (запретить его индексацию) в Robots.txt нужно использовать одно из следующих правил:

User-agent: \*
Disallow: /


User-agent: \*
Disallow: \*

Запретить индексацию можно как для всего сайта, так и для отдельных элементов, например, устаревшие данные, служебную информацию, сессии и utm-метки. Для каждого запрета создавайте отдельное правило. Запрещайте всем поисковым роботам через * или указывайте название конкретного краулера. Возможно закрыть сайт только для какой-то одной поисковой системы (или нескольких), при этом оставив остальным возможность индексирования. Для этого в правиле нужно изменить директиву User-agent: заменить * на название агента, которому нужно закрыть доступ (здесь можно ознакомиться с перечнем основных агентов).

Как открыть сайт для индексации в robots.txt?

В обычном случае, чтобы открыть сайт для индексации в robots.txt не нужно предпринимать никаких действий, просто нужно убедиться, что в robots.txt открыты все необходимые директории. Например, если ранее ваш сайт был скрыт от индексации, то следует удалить из robots.txt следующие правила (в зависимости от использованного):

Обратите внимание, что индексация может быть запрещена не только с помощью файла robots.txt, но и использованием мета-тега robots.

Также следует учесть, что отсутствие файла robots.txt в корне сайта означает, что индексация сайта разрешена.

Как указать главное зеркало сайта в robots.txt?

На данный момент указание главного зеркала с помощью robots.txt невозможно. Ранее ПС Яндекс использовала директиву Host, которая и содержала указание на главное зеркало, но с 20 марта 2018 Яндекс полностью отказался от ее использования. Сейчас указание главного зеркала возможно только с помощью 301-го постраничного редиректа.

Как найти файл robots.txt на сайте

Файл robots.txt должен находиться в корневой папке сайта. Чаще всего название папки совпадает с доменным именем вашего сайта. Если файл существует, то он будет доступен по адресу домен_сайта/robots.txt.

Как настроить robots.txt для Google?

Для поисковой системы Google настройка файла мало чем отличается от вышенаписанного. Но все же имеются рекомендации от Google, на которые нужно обратить внимание, это:

Заметим, что файлы скриптов и стилей (.js, .css) нужно открывать для индексации только роботам Google, но и для Яндекс: с 9.11.2015 Яндекс начал использовать js и css при индексации сайтов (сообщение в официальном блоге). Само собой, скрипты и таблицы в поиск не попадут, но это поможет роботу корректнее провести индексацию и отображение сайта в выдаче.

Комментарии

иконка контуры человека
Дмитрий 16.07.2019 06:36:21
нужно ли в роботс прописывать отдельные правила для яндекса/гугла или достаточно для *?
логотип компании
Intelsib 16.07.2019 14:48:21
Дмитрий, принципиальных отличий в правилах для этих поисковых систем нет, но подробнее прочитать можно вот в этом блоке.
иконка контуры человека
Андрей 16.07.2019 14:58:04
проверка robots.txt в Google Search Console ругается из-за директив Crawl-delay, как с этим быть?
логотип компании
Intelsib 16.07.2019 15:10:18
Андрей, скиньте скрин сообщения об ошибке в GSC и Ваш robots.txt, постараемся помочь!
иконка контуры человека
мимохожий 12.08.2019 14:59:42
ссылки "здесь" и проч. в тексте статьи ведут на морду! там нет такой информации
логотип компании
Intelsib 27.08.2019 13:40:53
Мимохожий, спасибо, что заметили - скорректировали ссылки.
Эффективное продвижение сайтов

28.02.2015

Эффективное продвижение сайтов - в чем особенности результативной раскрутки. Intelsib - эффективное поисковое продвижение сайта.

Читать далее
Seo оптимизация сайта самостоятельно

22.01.2022

Пошаговая инструкция по самостоятельной SEO-оптимизации. Краткое руководство для начинающих. Подробный чек-лист по внутренней оптимизации.

Читать далее
Продвижение сайта на Битриксе

19.02.2022

Описание 1C-Битрикс. Преимущества CMS Битрикс.

Читать далее
Микроразметка Schema.org

06.05.2020

В этой статье вы узнаете как внедрить микроразметку Schema.org на свой сайт. Какие инструменты можно использовать для разметки сайта, а также как проверить размеченный контент на валидность.

Читать далее
Как сделать расширенный сниппет в Яндекс

26.01.2022

Основы формирования расширенного сниппета в поисковых системах для новичков. Как увеличить кликабельность и получить знаки Яндекса? Приводим примеры правильных сниппетов.

Читать далее
Что такое файл Sitemap xml

01.04.2020

Создание sitemap для Яндекс и Google. Как правильно сгенерировать карту сайта онлайн.

Читать далее
Правила оформления сайтов стоматологических клиник

14.10.2019

Правила оформления сайтов стоматологических клиник - статьи от компании Intelsib.

Читать далее
Аффилированность сайтов

31.10.2019

Аффилированность сайтов в Яндексе: что это такое, принцип работы и признаки. Как проверить сайты-аффилиаты и как выйти из-под фильтра.

Читать далее

Оставьте заявку На продвижение и получите нашу книгу в подарок

Наш менеджер свяжется с вами в течение часа, уточнит детали и ваши цели. Затем технические специалисты подберут запросы и разработают стратегию продвижения вашего сайта.

В подарок вы получите бумажную версию нашей книги про интернет-маркетинг и SEO-продвижение сайтов.

фотография книги
эмблема в виде двуглавого орла

Книга одобрена Министерством образования и науки РФ и является официальным пособием в 24 вузах страны, в том числе в нашем родном НГУ.

  • 553 страницы практического опыта по увеличению продаж в интернете.
  • 16 развернутых кейсов реальных клиентов.
  • Стоимость книги в обычных книжных — 995 руб.

Нажимая кнопку «Получить предложение», вы соглашаетесь с политикой конфиденциальности

000000