Что такое и зачем нужен технический файл robots.txt

что такое файл robots.txt

Поделиться публикацией:

Share on facebook
Share on email
Share on vk
Share on telegram

Роботы-краулеры Яндекса и Google посещают страницы сайта регулярно, оценивая содержимое они добавляют информацию о странице в базу данных для последующего ранжирования по тем или иным поисковым запросам. Поскольку сайтов в интернете много, алгоритм сканирования имеет некоторые ограничения по времени и количеству страниц обхода роботом за одно посещение. Именно для того, чтобы направить робота на обработку важных страниц сайта, а также для закрытия от индексирования документов или разделов сайта (например, административной части) веб-мастера используют технический файл robots.txt. О том, как правильно заполнить файл robots.txt я расскажу в этом материале.

Из чего состоит robots.txt

Итак, мы разобрались, что robots.txt технический файл, который используется для указания поисковым роботам, как индексировать сайт. Важно понимать, что если robots.txt будет отсутствовать или будет составлен неправильно, что бывает очень часто, особенно у молодых ресурсов, то бот будет изучать сайт по своему собственному усмотрению и далеко не факт, что он это сделает корректно, скажу больше, в моей практике подобных случаев не было.

Как таковой файл robots.txt представляет собой текстовый документ, в котором прописываются директивы для ботов:

  • Us-agent: — основная директива robots.txt, для конкретных указаний используются User-agent: Googlebot или User-agent: Yandex.

После основной директивы следуют команды, которые разрешают или запрещают индексацию:

  • Команда Disallow: — запрет индексации в robots.txt;
  • Команда Allow: — разрешение индексации в robots.txt.

Скажу, что на практике команда Allow: используется крайне редко, ведь здесь работает принцип, всё что не запрещено, то разрешено. Но бывают случаи, когда без неё не обойтись. В robots.txt есть ещё одна важная директива:

  • «Sitemap:» — указание на xml карту сайта.

Указание sitemap в файле robots.txt, важный момент для SEO, поскольку такая манипуляция позволяет значительно быстрее проиндексировать карту сайта. Если с директивами всё более или менее понятно, можно переходить к символам, которые используются в robots.txt:

  • * — означает любую последовательность символов в файле;
  • $ — ограничивает действия *, представляет конец строки;
  • / — показывает, что закрывают для сканирования;
  • # — используют для комментариев, боты игнорируют текст с этим символом.

Следует отметить, что Яндекс очень жестко следует всем директивам в robots.txt, Google же вполне может «наплевать» на ваши желания, так как если будут обнаружены ссылки с других ресурсов или важные (по мнению Google) внутренние, то страница может попасть в индекс не смотря на запрет в robots.txt. Это бывает редко, но такое возможно.

Требования к robots.txt

Для того, чтобы файл использовался поисковыми ботами, он не только должен быть корректно составлен, но и отвечать предъявляемым требованиям:

  • Называется «robots.txt», название прописывается только строчными буквами;
  • Располагаться только в корневом каталоге сайта;
  • Файл должен быть на сайте в единственном экземпляре;
  • Поддерживаемый формат, только .txt;
  • Объем файла до 32 КБ;
  • В ответ на запрос код ответа со статусом 200 ОК;
  • Каждый префикс URL в отдельной строке;
  • Содержать только латинские символы.

Проверить корректность созданного документа, равно, как и создать можно с помощью всевозможных онлайн сервисов. Если всё в порядке, можно приступать к размещению.

Пример составленного robots.txt

В заключении приведу пример составленного файла и поясню, некоторые моменты:

User-agent: *

Disallow: /boy/

Disallow: /search/

Disallow: /wp-admin/

Sitemap: http://site.com/sitemap

В данном случае, мы в самом начале обращаемся ко всем поисковым роботам, далее следуют директивы, с помощью которых мы запрещаем индексировать результаты поиска по сайту, административную часть Интернет-ресурса, определённый раздел каталога. После чего указываем роботу адрес нашей карты сайта, для более быстрого обхода и попадания в поиск.

И последнее, проверить наличие и содержимое файла robots.txt, как на своем, так и на любом другом можно введя в адресной строке браузера site.by/robots.txt, где вместо site.by — адрес проверяемого ресурса.

Возможно Вам будет интересно

создание карт для сайта
Блог

Создание интерактивной карты для сайта

Интерактивная карта на сайте сегодня — это уже не модный тренд, а необходимость, которая облегчает взаимодействие пользователей с сайтом, более того для поисковой системы Яндекс

тренды в seo продвижении сайтов 2021
Блог

Главные тренды SEO продвижения в 2021 году

Содержание статьи: Особое внимание к контенту CTR в органическом поиске Техническая оптимизация Поведенческие факторы Голосовой поиск Визуальный поиск Размещение видео Заключение и выводы Уходящий год

Готовы поднять свой бизнес?

Пристегнитесь мы взлетаем!

seosopec.by
Copyright © | 2009
Рейтинг в Google:
5/5
Адрес

Беларусь, Минск,
пр-кт Партизанский, 178

Время работы

9:00 — 17:00
Понедельник — Пятница

Контакты

+375 44 7403090 
seospec@yandex.ru

viber

Заявка

Пожалуйста, заполните форму и ожидайте звонка