Что такое и зачем нужен технический файл robots.txt

что такое файл robots.txt

Поделиться публикацией:

Share on facebook
Share on email
Share on vk
Share on telegram

Роботы-краулеры Яндекса и Google посещают страницы сайта регулярно, оценивая содержимое они добавляют информацию о странице в базу данных для последующего ранжирования по тем или иным поисковым запросам. Поскольку сайтов в интернете много, алгоритм сканирования имеет некоторые ограничения по времени и количеству страниц обхода роботом за одно посещение. Именно для того, чтобы направить робота на обработку важных страниц сайта, а также для закрытия от индексирования документов или разделов сайта (например, административной части) веб-мастера используют технический файл robots.txt. О том, как правильно заполнить файл robots.txt я расскажу в этом материале.

Из чего состоит robots.txt

Итак, мы разобрались, что robots.txt технический файл, который используется для указания поисковым роботам, как индексировать сайт. Важно понимать, что если robots.txt будет отсутствовать или будет составлен неправильно, что бывает очень часто, особенно у молодых ресурсов, то бот будет изучать сайт по своему собственному усмотрению и далеко не факт, что он это сделает корректно, скажу больше, в моей практике подобных случаев не было.

Как таковой файл robots.txt представляет собой текстовый документ, в котором прописываются директивы для ботов:

  • Us-agent: — основная директива robots.txt, для конкретных указаний используются User-agent: Googlebot или User-agent: Yandex.

После основной директивы следуют команды, которые разрешают или запрещают индексацию:

  • Команда Disallow: — запрет индексации в robots.txt;
  • Команда Allow: — разрешение индексации в robots.txt.

Скажу, что на практике команда Allow: используется крайне редко, ведь здесь работает принцип, всё что не запрещено, то разрешено. Но бывают случаи, когда без неё не обойтись. В robots.txt есть ещё одна важная директива:

  • «Sitemap:» — указание на xml карту сайта.

Указание sitemap в файле robots.txt, важный момент для SEO, поскольку такая манипуляция позволяет значительно быстрее проиндексировать карту сайта. Если с директивами всё более или менее понятно, можно переходить к символам, которые используются в robots.txt:

  • * — означает любую последовательность символов в файле;
  • $ — ограничивает действия *, представляет конец строки;
  • / — показывает, что закрывают для сканирования;
  • # — используют для комментариев, боты игнорируют текст с этим символом.

Следует отметить, что Яндекс очень жестко следует всем директивам в robots.txt, Google же вполне может «наплевать» на ваши желания, так как если будут обнаружены ссылки с других ресурсов или важные (по мнению Google) внутренние, то страница может попасть в индекс не смотря на запрет в robots.txt. Это бывает редко, но такое возможно.

Требования к robots.txt

Для того, чтобы файл использовался поисковыми ботами, он не только должен быть корректно составлен, но и отвечать предъявляемым требованиям:

  • Называется «robots.txt», название прописывается только строчными буквами;
  • Располагаться только в корневом каталоге сайта;
  • Файл должен быть на сайте в единственном экземпляре;
  • Поддерживаемый формат, только .txt;
  • Объем файла до 32 КБ;
  • В ответ на запрос код ответа со статусом 200 ОК;
  • Каждый префикс URL в отдельной строке;
  • Содержать только латинские символы.

Проверить корректность созданного документа, равно, как и создать можно с помощью всевозможных онлайн сервисов. Если всё в порядке, можно приступать к размещению.

Пример составленного robots.txt

В заключении приведу пример составленного файла и поясню, некоторые моменты:

User-agent: *

Disallow: /boy/

Disallow: /search/

Disallow: /wp-admin/

Sitemap: http://site.com/sitemap

В данном случае, мы в самом начале обращаемся ко всем поисковым роботам, далее следуют директивы, с помощью которых мы запрещаем индексировать результаты поиска по сайту, административную часть Интернет-ресурса, определённый раздел каталога. После чего указываем роботу адрес нашей карты сайта, для более быстрого обхода и попадания в поиск.

И последнее, проверить наличие и содержимое файла robots.txt, как на своем, так и на любом другом можно введя в адресной строке браузера site.by/robots.txt, где вместо site.by — адрес проверяемого ресурса.

Возможно Вам будет интересно

Индексация сайта в Яндекс и Google
Блог

Индексация страниц сайта в Яндекс и Google

В данном материале я расскажу о том, что означает индексация сайта, какие этапы проходят страницы ресурса прежде, чем попасть в индекс поисковых систем. Во второй

Оптимизация изображений с помощью Squoosh
Блог

Оптимизация изображений с помощью Squoosh

Оптимизация изображений на сайте достаточно важный момент в современном SEO продвижении, ведь размер графики путь и косвенно, но влияет на ранжирование страниц в поисковой выдаче.

Готовы поднять свой бизнес?

Пристегнитесь мы взлетаем!

seosopec.by
Copyright © | 2009
Рейтинг в Google:
5/5
Адрес

Беларусь, Минск,
пр-кт Партизанский, 178

Время работы

9:00 — 17:00
Понедельник — Пятница

Контакты

+375 44 7403090 
seospec@yandex.ru

viber

Заявка

Пожалуйста, заполните форму и ожидайте звонка