С помощью файла robots.txt можно регулировать работу поисковых роботов системы Яндекс на сайте. В начале каждой сессии закачки обязательно загружается этот файл. Если он отсутствует или написан в неправильном формате, считается, что ограничений на доступ к сайту нет.
Чтобы указать паукам Яндекса инструкции, отличные от инструкций остальным ботам, нужно создать строку «User-agent:», в которой после двоеточия прописать имя одного из роботов Яндекс. Тогда он будет выполнять только команды, относящиеся к этой строке и не следовать указаниям «User-agent: *», написанным для всех поисковых систем. В противном случае, робот будет подчинятся командам после «User-agent: *».
В системеYandex, кроме основного паука 'YandexBot', есть специализирующиеся на индексации конкретного вида контента:
'YandexMedia' — мультимедиа; 'YandexImages' — картинок; 'YandexDirect' — страниц, участвующих в рекламе от этой ПС;
'YandexBlogs' — комментарии в блогах;
'YandexNews' — новости;
'YandexPagechecker' — страницу валидации микроразметки;
Каждый из них будет исполнять только указанные для него директивы.
Запрет доступа осуществляется командой «Disallow:». Если после двоеточия ничего не следует – сайт индексируется полностью, если стоит слеш – полностью не индексируется. Чтобы указать запрет на конкретные страницы, нужно указать после слеша название папки.