Правильный robots.txt
Озадачившись созданием правильного robots.txt для своего блога и соответственно для всех остальных блогов, что используют движок Wordpress, я стал серфить SEO блогосферу в поисках заветных правильных строчек. Каково было мое разочарование, когда я не нашел то, чего искал. Точнее информации про создание robots.txt в сеошной блогосфере просто уйма, но каждый источник отличается от других. Одни утверждают одно, другие – другое, а в комментариях что творится, даже страшно представить.
Знаете поговорку «Хочешь сделать что-то хорошо, сделай это сам»?. Пришлось последовать ей и направится прямиком к первоисточнику.
Все оказалось не так уж и сложно.
При создании robots.txt нужно следовать всего лишь нескольким правилам.
1. В файле robots.txt можно только запрещать файлы и директории к индексации, но не разрешать. Для поискового робота разрешено все, что не запрещено.
2. Для запрета индексации файла или директории в начале строки указывается директива Disallow и имеет следующий формат:
[путь] – непосредственно путь к файлу или к директории по отношению к файлу robots.txt, который должен всегда лежать в корневом каталоге вашего сайта.
Пример:
Disallow: /folder/seo.php – закроет от индексации файл seo.php который лежит в папке folder
Disallow: /folder/ – закроет от индексации все содержимое папки folder.
3. Каждое правило должно начинаться с новой строки. Конец строки обозначается только символом новой строки, без каких-либо «;».
Пример:
Disallow: /folder/
4. Перед тем как описывать правила, нужно указать для какого робота описаны эти правила. Для этого используется User-agent.
Пример:
User-agent: Googlebot – последующие правила предназначены только для поискового робота Google
User-agent: Yandex – последующие правила предназначены только для поискового робота Яндекса.
Указывать сразу несколько поисковых роботов не разрешается.
По стандарту robots.txt не должен содержать никаких регулярных выражений. Т.е. если вы напишете Disallow: /*.html это не закроет от индексации все файлы с расширением html.
Однако Google и Yandex отошли от стандартов и ввели поддержку регулярных выражений и еще несколько дополнительных директив.
Ознакомится с «отклонениями» можно здесь – гугл, яндекс.
Чтобы не ввести других поисковых роботов в ступор, директивы, не входящие в стандарт, и регулярные выражения нужно использовать только в блоках правил для конкретного поискового робота.
Внимательно прочитайте все правила и составить правильно работающий robots.txt вам не составит труда. А в помощь вам Google Webmaster Tools и Яндекс Вебмастер.




Хороша статья я себе даже сохранил на случай если забуду!
Пользуйтесь на здоровье!
Я по незнанию был доигрался до того, что в роботсе запретил яндексу к индексации весь сайт
Пришлось искать старый файл, вот пока жду, когда все вернется на свои места