Правильный robots.txt

snapper1249732481690Озадачившись созданием правильного robots.txt для своего блога и соответственно для всех остальных блогов, что используют движок Wordpress, я стал серфить SEO блогосферу в поисках заветных правильных строчек. Каково было мое разочарование, когда я не нашел то, чего искал. Точнее информации про создание robots.txt в сеошной блогосфере просто уйма, но каждый источник отличается от других. Одни утверждают одно, другие – другое, а в комментариях что творится, даже страшно представить.

Знаете поговорку «Хочешь сделать что-то хорошо, сделай это сам»?. Пришлось последовать ей и направится прямиком к первоисточнику.

Все оказалось не так уж и сложно.

При создании robots.txt нужно следовать всего лишь нескольким правилам.

1. В файле robots.txt можно только запрещать файлы и директории к индексации, но не разрешать. Для поискового робота разрешено все, что не запрещено.

2. Для запрета индексации файла или директории в начале строки указывается директива Disallow и имеет следующий формат:

Disallow: [путь]

[путь] – непосредственно путь к файлу или к директории по отношению к файлу robots.txt, который должен всегда лежать в корневом каталоге вашего сайта.

Пример:

Disallow: / – закроет от индексации весь сайт

Disallow: /folder/seo.php – закроет от индексации файл seo.php который лежит в папке folder

Disallow: /folder/ – закроет от индексации все содержимое папки folder.

3. Каждое правило должно начинаться с новой строки. Конец строки обозначается только символом новой строки, без каких-либо «;».

Пример:

Disallow: /folder/seo.php
Disallow: /folder/

4. Перед тем как описывать правила, нужно указать для какого робота описаны эти правила. Для этого используется User-agent.

Пример:

User-agent: * – указывает что последующие правила до следующего «User-agent» предназначены для всех поисковых роботов.

User-agent: Googlebot – последующие правила предназначены только для поискового робота Google

User-agent: Yandex – последующие правила предназначены только для поискового робота Яндекса.

Указывать сразу несколько поисковых роботов не разрешается.

По стандарту robots.txt не должен содержать никаких регулярных выражений. Т.е. если вы напишете Disallow: /*.html это не закроет от индексации все файлы с расширением html.

Однако Google и Yandex отошли от стандартов и ввели поддержку регулярных выражений и еще несколько дополнительных директив.

Ознакомится с «отклонениями» можно здесь – гугл, яндекс.

Чтобы не ввести других поисковых роботов в ступор, директивы, не входящие в стандарт, и регулярные выражения нужно использовать только в блоках правил для конкретного поискового робота.

Внимательно прочитайте все правила и составить правильно работающий robots.txt вам не составит труда. А в помощь вам Google Webmaster Tools и Яндекс Вебмастер.

Это может быть интересно:

This entry was posted on Суббота, Август 8th, 2009 at 22:11 and is filed under Wordpress, Оптимизация блога. You can follow any responses to this entry through the RSS 2.0 feed. You can skip to the end and leave a response. Pinging is currently not allowed.

3 Responses to “Правильный robots.txt”

  1. ниндзя on Август 9th, 2009 at 20:37

    Хороша статья я себе даже сохранил на случай если забуду!

  2. SAnche on Август 10th, 2009 at 16:18

    Пользуйтесь на здоровье!

  3. Евгений on Январь 27th, 2010 at 5:17

    Я по незнанию был доигрался до того, что в роботсе запретил яндексу к индексации весь сайт :) Пришлось искать старый файл, вот пока жду, когда все вернется на свои места :)

Leave a Reply

 
SEO Powered by Platinum SEO from Techblissonline