Файл robots.txt: необходимость, особенности, преимущества



Именно файл robots.txt — тот первый пункт, с которого поисковый робот начинает свое исследование сайта. Это текстовый файл в формате ASCII, главной функцией которого является запрет для роботов на индексацию отдельных директорий и файлов сайта. Необходимо понимать, что правильный robots.txt способен положительно повлиять на релевантность сайта и, соответственно, место веб-ресурса в поисковой выдаче.

Файл robots.txt устанавливается в корневую директорию сайта. Правильный адрес файла всегда выглядит следующим образом: www.сайт.ru/robots.txt. В противном случае поисковый робот не сможет обнаружить файл.

Индексация robots.txt — индексация сайта
Файл включает всего два текстовых поля:

  • User-agent — указывает, какой поисковой системе адресована команда;
  • Disallow — указывает, какие файлы и директории запрещены к индексации.

К примеру, запись может иметь следующий вид:
User-agent: *
Disallow: /
В данном примере «*» означает «все» по отношению к поисковым системам, «/» —  все URL ресурса (так как URL любой директории начинается с /). Это запись значит, что всем поисковым системам запрещена индексация всех URL сайта.
В случае, если для различных систем применяются разные команды, составляется запись вида:
User-agent: Yandex
Disallow:/private
User-agent: Googlebot
Disallow:/ private
User-agent: *
Disallow:/
Такой записью robots.txt командует запретить индексацию файлов, находящихся в каталоге private роботам поисковых систем Яндекс и Google, а роботам остальных поисковых систем запрещает индексацию всех файлов ресурса. Роботам Гугл и Яндекс robots.txt разрешает индексацию всех файлом, кроме тех, что находятся в отмеченной директории.
Синтаксис

  • Все записи в файле осуществляются только строчными буквами. Использование заглавных букв разрешено лишь в начале команд "User-agent" и "Disallow". Каждая команда должна быть прописана в отдельной строке. Если поле команды остается пустым, значит, команда не действительна.
  • Из групповых символов к применению разрешен лишь один: «*» в значении «все». Почти все поисковые системы не распознают групповые символы, поэтому их применение не допустимо.
  • Нельзя размещать названия директорий или файлов в одной строке. К примеру, запись в виде

Disallow:/ private/image/photo/  не будет распознана роботами. Правильная запись выглядит следующим образом:
Disallow:/ private/
Disallow:/ image/
Disallow:/ photo/

  • Если robots хочет запретить индексацию отдельного файла, запись выглядит

Disallow:/ photo.png

  • Необходимо четко видеть разницу: при запрете индексации директории знак «/» ставится до и после названия директории. При запрете индексации файла знак «/» ставится до названия файла, а имя файла пишется с расширением.

Правила использования robots.txt

  • Если сам файл robots.txt остается пустым, роботам разрешена индексация всего контента сайта.
  • Один домен может содержать лишь один файл robots.txt.
  • Использование файла не означает, что ограничивается доступ ко всему сайту. Наоборот, правильно составленный файл способствует лучшей индексации ресурса. Нередко встречаются вопросы начинающих: «можно ли закрыть txt robots?» Ответ: нет, нельзя и не нужно. Отсутствие файла может привести к выдаче поисковой системой ошибки 404.

Преимущества использования файла robots.txt
Файл rorbots txt используется для запрета нежелательных индексаций. Таким образом достигается сразу несколько целей:

  • Запрет индексации дублей страниц помогает избегать штрафных санкций со стороны поисковых систем;
  • Запрет индексации незаконченных страниц, многообразной графики, рабочих файлов в целом поднимает релевантность сайта, соответственно, сайт поднимается на более высокие места в поисковой выдаче.
  • Запрет индексации какой-либо личной конфиденциальной информации помогает обеспечению безопасности данных.

Применение robots.txt для Яндекс
Роботы каждой отдельной поисковой системы имеют собственные настройки. Так, к примеру, поисковые роботы Яндекс в robots.txt способны различать не только директивы «User-agent» и «Disallow», но и директиву «Allow», а также знаки «$» и «#». Однако Яндекс сразу же предупреждает: использование нестандартных директив и знаков способно привести к некорректной работе из-за того, что роботы других поисковых систем будут неправильно интерпретировать «нововведения».
Однако тот же Яндекс позволяет настроить индексацию для каждого отдельного из имеющихся в системе 11 роботов. Это позволяет снизить нагрузку на сервер за счет запрета на индексацию второстепенными роботами.

В свою очередь Google в своем мануале подчеркивает, что директивы, прописанные в файле robots.txt являются не командами, а рекомендациями: некоторые роботы могут не принять их к сведению. В связи с этим Google предлагает использовать дополнительные меры по защите информации.

Быстрой Вам индексации. Поделитесь статьей с коллегами




Зарегистрируйтесь, если Вы еще этого не сделали!