Google

Идеальная конфигурация файла robots.txt для WordPress блога

Дата публикации:Июль 23, 2011

Файл robots.txt — это специальный текстовый файл, хранящийся в корневом каталоге веб-сайта и указывающий поисковым роботам, какие файлы необходимо индексировать, а какие — оградить от индексации. Для достижения хороших SEO показателей файл robots.txt должен быть идеально сконфигурирован. Индексация всех без исключения файлов и папок, хранящихся в WordPress, может привести к плачевным результатам, поскольку система имеет множество страниц, содержащих дублирующий контент: страницы рубрик, страницы меток, страницы архивов и т.д. При индексации у поискового робота, естественно, возникнет вопрос, каким страницам отдать свое предпочтение и вывести в индекс. Чтобы не возникало такой двойственности, необходимо тщательно отнестись к настройке файла robots.txt.

В этой статье я покажу, какие настройки, с моей точки зрения, будут являться идеальными для файла robots.txt применительно к WordPress блогу. Я считаю, что в идеале файл robots.txt должен иметь следующий вид:

 sitemap: http://yourdomain.com/sitemap.xml
 User-agent: *
 Disallow: /cgi-bin/
 Disallow: /wp-admin/
 Disallow: /wp-includes/
 Disallow: /wp-content/
 Disallow: /go/
 Disallow: /archives/
 disallow: /*?*
 Disallow: /wp-*
 Disallow: /author
 Disallow: /comments/feed/

http://devilmustcry.com/blog/ideal-configuration-of-robots-txt-file-for-wordpress-blog.html

Связанные материалы:

  1. Страницы настроек темы WordPress
  2. Добавляем рейтинг к записям WordPress блога
  3. Обзор плагинов WordPress от 15.05.11
  4. Смена логотипа на странице входа в WordPress
  5. Как установить WordPress в произвольную директорию

34 комментариев

  1. HotIce says:

    Довольно полемично, на мой взгляд. Смотря какие цели. Категории зачем индексировать и тэги? Если бороться за количество страниц в индексе, тогда да.

    • Architect Of Ruin says:

      Не все материалы попадают в индекс напрямую (у меня так отсеилось 40% материалов), но некоторые оседают в выдаче благодаря тегам или рубрикам. А то бывает обидно — пишешь, пишешь статью, а в индексе ее нет.

  2. HotIce says:

    Я когда смотрю на индексацию, то просто шизею. Но наблюдал, что люди заходят по индексу категории и сваливают. Слишком нецелевой вход получается. но на вкус и цвет. Кстати, по поводу кэширования, что ты описал следующей статьей..
    Включил уже месяц как, гугл кэши не повыбрасывал до сих пор. Работа гугла тайна великая есть. ;)
    Ты будешь меня пинать, но кнопка смены капчи закрывает первый символ ввода. Два раза ошибался. ;)

    • Architect Of Ruin says:

      Ох уж эта капча, поставил отступ при вводе) А по поводу кэширования: а к тебе в блог как часто робот заходит? Да, посмотрел, странно, все кэши у тебя на месте в гугле.

  3. HotIce says:

    Да, капча тебе крови попила. ;) Так нормально уже.
    Робот. а тебе какой из? Я не помню, какой там в их стаде главный..

  4. HotIce says:

    ;) А ну пара ежедневно заходит, берет роботс и sitemap. За страницами заходит еще один, этот наверное ты в виду и имел. Он ходит как ему вздумается, в зависимости от наличия обновлений. Но обновлений было вагон, но, допустим, ты смотрел страницу «про мну», так как на ней лента твиттера, то заходит индексирующий на нее. И хоть стоит «noarchive» как-то он не очень на это реагирует. Правда гугловцы писали, что страницы и из индекса не сразу выпадают.. Смотрю в общем. Потому что разделы как в индекс взял, до сих пор не выбросил, хотя ноиндекс ему сказал, в роботс запретил.. Живет своей жизнью, или я чего не догоняю.

  5. Екатерина says:

    Прописала, но ничего не понимаю: на основном домене все нормально, с субдоменом какая то странная история — зачем индексируются трекбеки, плагины, комментарии…
    Поясните, это я скривила чем-то или гугл с яндексом вредничают. В статистике почему-то высвечивается адрес плагина, я в шоке…

  6. HotIce says:

    А у вас пути точно, как в роботс из примера?
    Я у себя прописывал вот так:

    Disallow: /wp-content/
    Disallow: /wp-content/plugins
    Disallow: /wp-content/themes
    Disallow: /wp-content/languages
    Disallow: /wp-content/upgrade

    но это, ИМХО, избыточно. Если у вас добирается робот до плагинов, то на пути надо смотреть. Да и сайт бы показали, было бы проще.

    • Екатерина says:

      субдомен не прописывала, во всех справках по интернету ничего про это не сказано. Если дело в этом, то мой промах…

  7. HotIce says:

    Прозевал про суб. домен. А как вы суб. домен прописывали? И организован он у вас как?
    Disallow /name.dir/wp-content/
    По идее так должно быть, если вы субдомен расположили в папке /name.dir/ лежащей в корне основного.

  8. HotIce says:

    Вероятно дело тогда в этом. Он же робот, дерево. Вы не сказали, а он рад стараться, все утащить к себе, почитать на сон грядущий что нового разработчики плагинов придумали.. ;)

  9. HotIce says:

    А как по другому? Просто еще одна папка, со своим вордпрессом. Но не видя как оно организованно, что-то говорить сложно. Так как я субдомены не строил, то это вариант. Знаешь каконить сайт с субдоменом? Я вот припомнить не могу сейчас. Надо найти, и поглядеть роботс. Тогда и вопросы снимем.

    • Architect Of Ruin says:

      Не видел ни одного такого. Вот вроде бы сайт Екатерины: fontrebina.com

      • Екатерина says:

        Это мой основной сайт, по нему вопросов нет, он отлично индексируется. С субами проблемы остались, вроде папку прописала, все равно не видит. Если дальше так будет, напишу в support хостинга, помогут или подскажут.
        Да,и по поводу прописки папки субдомена, я думала зачем, ведь sitemap уже ссылается на него, соответственно и папки прописывать незачем. Я впервые такое вижу.

  10. Екатерина says:

    Вообщем такой вид, при проверке яндекс не нашел ошибок

    User-agent: Unknown robot
    Disallow: /

    User-agent: *
    Disallow: /cgi-bin/
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /wp-includes/
    Disallow: /xmlrpc.php
    Disallow: /wp-admin
    Disallow: /wp-content/plugins
    Disallow: /wp-content/themes
    Disallow: /tag/
    Disallow: /trackback/
    Disallow: /date/
    Disallow: /category/
    Disallow: /feed/
    Disallow: */trackback/
    Disallow: */feed/
    Disallow: /?feed=
    Disallow: /?s=
    Disallow: /*?*
    Disallow: /*?
    Allow: /wp-content/uploads/
    Crawl-delay: 5
    Host: http://www.сайт
    Sitemap: http://www.сайт/sitemap.xml

    User-agent: Yandex
    Disallow: /cgi-bin/
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /wp-includes/
    Disallow: /xmlrpc.php
    Disallow: /wp-admin
    Disallow: /wp-content/plugins
    Disallow: /wp-content/themes
    Disallow: /tag/
    Disallow: /trackback/
    Disallow: /date/
    Disallow: /category/
    Disallow: /feed/
    Disallow: */trackback/
    Disallow: */feed/
    Disallow: /?feed=
    Disallow: /?s=
    Disallow: /*?*
    Disallow: /*?
    Allow: /wp-content/uploads/

    • HotIce says:

      Мне ваш роботс местами не понятен. Насколько я понимаю, вы роботу яндекса зеркало не показали. Если не трудно, объясните зачем. Мне для общего развития.

      • Екатерина says:

        если прописать то ошибку выдает, яндекс видит то что прописано выше, я имею ввиду host и sitemap достаточно один раз прописать. Если я правильно вас поняла.

        • Екатерина says:

          а вообще что ни прописывай на протяжении почти года яндекс в поиске выводит только один мой адрес субдомена — главную страницу, вот прям одна строчка в результатах поиска…мне непонятно, подозреваю глюки в работе хоста. Когда-то им писала об этой проблеме — обнадежили что скоро все появится в поиске, но так и ничего. Вообще выход есть какой…

  11. HotIce says:

    Сайтмап показывает что индексировать, и что появилось нового. Он не вносит ограничений для робота. Ограничения для робота вносятся в robots.txt
    В общем, пройдясь по интернету, надо сказать — был не прав. Конструкция с папкой не верна. Нужен второй роботс для субдомена, в котором выставлять разрешения для субдомена. Робот не понимает папок, он оперирует адресами. Логично.
    Получается — сколько в сумме доменов с поддоменами — столько и роботс должно быть.

  12. Екатерина says:

    поначалу вообще на робота внимания не обращала, теперь проснулась…дотянула

  13. HotIce says:

    _http://help.yandex.ru/webmaster/?id=996567#996574
    Важно: в целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву ‘Host’ необходимо добавлять в группе, начинающейся с записи ‘User-Agent’, непосредственно после директив ‘Disallow’(‘Allow’). Аргументом директивы ‘Host’ является доменное имя с номером порта (80 по умолчанию), отделенным двоеточием.

    Яндекс конечно своеобразный, но у вас прямое нарушение их рекомендаций, как мне кажется.

  14. HotIce says:

    В общем нашел я сайт, вида субдомен.домен.ru
    Разные роботс — один для субдомен.домен.ru другой для домен.ru. С этим для себя разобрался. Но там не используются зеркала на www, поэтому с зеркалированием не ясно как быть. Пока одно усвоил, что если оглядывать ся на яндекс, то с зеркалами связываться не хочется.

  15. Екатерина says:

    а может вообще на яндекс не обращать внимания, гугл хоть что-то индексирует, а с этим только зря время тратить, на том же своем опыте проверено…Спасибо за помощь!

  16. HotIce says:

    Зачем же не обращать внимания? Нет, это не наш метод. Я бы ваш роботс написал вот так:

    User-agent: *
    Disallow: /cgi-bin/
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /wp-includes/
    Disallow: /xmlrpc.php
    Disallow: /wp-admin
    Disallow: /wp-content/plugins
    Disallow: /wp-content/themes
    Disallow: /tag/
    Disallow: /trackback/
    Disallow: /date/
    Disallow: /category/
    Disallow: /feed/
    Disallow: */trackback/
    Disallow: */feed/
    Disallow: /?feed=
    Disallow: /?s=
    Disallow: /*?*
    Disallow: /*?
    Host: http://www.сайт
    Sitemap: http://www.сайт/sitemap.xml
    Allow: /wp-content/uploads/

    User-agent: Yandex
    Disallow: /cgi-bin/
    Сrawl-delay: 5

    То что мне приходилось читать про роботс полного понимания мне не дало, скорее насторожило. И просто бесит, что не могут в своих инструментах подсказки сделать человеческие подсказки — вот это я съел, а вот это нет.
    Когда себе делал роботс, рисовал его по рекомендациям гугла и _http://www.robotstxt.org/ на яндекс не обращал внимания, он ругался там на что-то. Гугл индексирует криво, яндекс лучше. Я ничего не понял, и просто плюнул.

  17. Екатерина says:

    Для меня главное, чтобы в поисках нормальные результаты были, а не что-то подобное «trackback — Сайт, RSS 2.0 — Сайт, 7 — Сайт, Ноябрь 2010 — Сайт…», сейчас в гугле именно такое творится без всяких пояснений.

  18. HotIce says:

    В том-то и дело. У меня цели точно такие. Вот не хочу чтоб категории попадали в поиск. Гугл как сожрал их при первой индексации, так и расставаться не хочет.
    В роботс запрет стоит, в head страницы стоит директива meta name=»robots» contents=»noindex» до лампочки. В статические страницы вцепился клещами. В общем, пришел к выводу, что нужно делать внутреннюю перелинковку по другому, и отбирать вес у этих страниц.

  19. WMmagnat says:

    А у Вас то у Самого в Блоге :
    User-agent: *
    Disallow: /wp-admin/
    Disallow: /wp-includes/

    Sitemap: http://oddstyle.ru/sitemap.xml.gz

    А вы пишите о других идеальных файлах :)))))

    • Architect Of Ruin says:

      Меня лично устраивает тот вариант, что уже имеется. Это перевод, так что мое мнение может не совпадать с мнением автора этой статьи.

  20. WMmagnat says:

    аааа вот как ) Ну понимаю.
    Я лично себе сделал так :
    User-agent: *
    Disallow: /go/
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /xmlrpc.php
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content
    Disallow: */trackback/
    Disallow: /*/feed/
    Disallow: /feed/rss/
    Disallow: /feed/atom/
    Disallow: /?feed=
    Disallow: /?s=
    Allow: /wp-content/uploads/
    Allow: /feed/
    Sitemap: http://blogpolitic.ru/sitemap.xml

    Думаю это самое правильное, хотя как говориться…. :-)

    • Architect Of Ruin says:

      Вряд ли в таком деле как продвижение ресурса, может быть что-то «самым правильным» :)

Оставить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

*


Можно использовать следующие HTML-теги и атрибуты: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>



Получать новые комментарии по электронной почте. Вы можете подписаться без комментирования.