Файл robots.txt – это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции для поисковых роботов. Эти инструкции могут запрещать для индексации некоторые разделы или страницы на сайте, указывать на правильное «зеркалирование» домена и т.д.
Запреты на индексацию
Админку – административные разделы
Временные файлы (результаты поиска, фильтрации товаров)
Данные зарегистрированных пользователей, корзина
Малоинформативные страницы: регистрация, вход, забыли пароль
Дубли контента в рубриках, подрубриках
UTM метки рекламы
На примере озон http://www.ozon.ru/robots.txt
Запрет индексации страниц реализуется директивой Disallow:
ЭТИ ИНСТРУКЦИИ НОСЯТ РЕКОМЕНДАТЕЛЬНЫЙ ХАРАКТЕР – ПОИСКОВЫЕ РОБОТЫ МОГУТ ИХ ПРОИГНОРИРОВАТЬ
Техдокументация
https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt?hl=ru
https://support.google.com/webmasters/answer/6062608?hl=ru
https://help.yandex.ru/webmaster/controlling-robot/robots-txt.xml
Нюансы
Для яндексбота обязательно указать директиву Host – в ней указать основное зеркало сайта
User-agent: Yandex
Host: sait.ru
Надо указать адрес по которому расположена карта сайта для поисковых роботов Sitemap: http://medsplav.ru/sitemap.xml
Sitemap.xml — файл с информацией для поисковых систем о страницах веб-сайта, которые подлежат индексации. Sitemap помогает поисковикам определить местонахождение страниц сайта, время их последнего обновления, частоту обновления и важность относительно других страниц сайта для того, чтобы поисковая машина смогла более разумно индексировать сайт.
Адрес этого файла на сайте обычно такой: http://site.ru/sitemap.xml
Подробная техническая информация http://www.sitemaps.org/ru/
Проверка корректности роботс и сайтмэп выполняется в системах вебмастер поисковиков. У яндекса (webmaster.yandex.ru) в “Настройки индексирования”. У google (google.com/webmasters) раздел “Сканнирование”.
Системы вебмастер
Обязательно подключите свой сайт к системам вебмастер от гугл и яндекс. Ссылки на эти сервисы указаны выше – в них также можно смотреть много статистики, подробнее эти сервисы мы будем разбирать в лекции по web-аналитике