Поисковые боты. Как заблокировать поисковых ботов 

Последние изменения: 22.02.2023

Если в качестве источника вашего CDN-ресурса выступает сайт, то его копия, располагающаяся на персональном домене CDN-ресурса может быть проиндексирована поисковыми системами.  

Два способа запретить поисковым системам индексировать копию сайта: 

1. Создать файл robots.txt на источнике

1) На источнике создайте папку и поместите в неё файл robots.txt с настройками запрета индексации: 

User-agent: * Disallow: /  

2) В настройках CDN ресурса создайте правило со следующими параметрами:  

  • Шаблон правила: /robots.*

  • Rewrite: /(.*) /folder/$1

Где folder — название папки, которую вы создали на первом шаге. 

61f2f3583761bebfc96a322a5e60bac0.png

Как это работает. Поисковые боты проверяют настройки для индексирования в файле robots.txt.

С помощью правила мы перезаписываем путь, по которому поисковые боты будут обращаться к вашему персональному домену. Например, если ваш домен — cdn.domain.com, то поисковые боты будут видеть файл cdn.domain.com/robots.txt, который располагается в директории /folder/robots.txt на источнике. Так как в этом файле указаны директивы, запрещающие индексирование, персональный домен cdn.domain.com не попадёт в выдачу поисковых систем.

! На индексирование самого сайта эти настройки не повлияют. 

2. Настроить запрет индексации на CDN

В настройках CDN ресурса создайте правило со следующими параметрами:

  • Шаблон правила: /robots.txt

  • Код ответа: 200 и User-agent: *\nDisallow: /\n

ae625e7c97e8e09252dc3d49a56411b0.png

Как это работает. Поисковые боты проверяют настройки для индексирования в файле robots.txt.

С помощью правила мы переопределяем содержание файла robots.txt на стороне CDNТак, поисковые боты при запросе к файлу robots.txt получат ответ User-agent: *\nDisallow: /\n, который мы сгенерировали с помощью опции Код ответа, поэтому они не смогут проиндексировать копию сайта

Помогла ли вам статья?