Идеальная конфигурация файла robots.txt для WordPress блога

23.07.2011Рубрика: Статьи WordpressАвтор: Дмитрий

Файл robots.txt — это специальный текстовый файл, хранящийся в корневом каталоге веб-сайта и указывающий поисковым роботам, какие файлы необходимо индексировать, а какие — оградить от индексации. Для достижения хороших SEO показателей файл robots.txt должен быть идеально сконфигурирован. Индексация всех без исключения файлов и папок, хранящихся в WordPress, может привести к плачевным результатам, поскольку система имеет множество страниц, содержащих дублирующий контент: страницы рубрик, страницы меток, страницы архивов и т.д. При индексации у поискового робота, естественно, возникнет вопрос, каким страницам отдать свое предпочтение и вывести в индекс. Чтобы не возникало такой двойственности, необходимо тщательно отнестись к настройке файла robots.txt.

В этой статье я покажу, какие настройки, с моей точки зрения, будут являться идеальными для файла robots.txt применительно к WordPress блогу. Я считаю, что в идеале файл robots.txt должен иметь следующий вид:

 sitemap: http://yourdomain.com/sitemap.xml
 User-agent: *
 Disallow: /cgi-bin/
 Disallow: /wp-admin/
 Disallow: /wp-includes/
 Disallow: /wp-content/
 Disallow: /go/
 Disallow: /archives/
 disallow: /*?*
 Disallow: /wp-*
 Disallow: /author
 Disallow: /comments/feed/

http://devilmustcry.com/blog/ideal-configuration-of-robots-txt-file-for-wordpress-blog.html

42 robots.txt настройка wordpress robots.txt

Комментарии: 42

HotIce 23.07.2011 в 21:25
Довольно полемично, на мой взгляд. Смотря какие цели. Категории зачем индексировать и тэги? Если бороться за количество страниц в индексе, тогда да.
Ответить
1. Дмитрий (автор) 23.07.2011 в 22:19
  Не все материалы попадают в индекс напрямую (у меня так отсеилось 40% материалов), но некоторые оседают в выдаче благодаря тегам или рубрикам. А то бывает обидно — пишешь, пишешь статью, а в индексе ее нет.
  Ответить
HotIce 23.07.2011 в 22:30
Я когда смотрю на индексацию, то просто шизею. Но наблюдал, что люди заходят по индексу категории и сваливают. Слишком нецелевой вход получается. но на вкус и цвет. Кстати, по поводу кэширования, что ты описал следующей статьей..
Включил уже месяц как, гугл кэши не повыбрасывал до сих пор. Работа гугла тайна великая есть. ;)
Ты будешь меня пинать, но кнопка смены капчи закрывает первый символ ввода. Два раза ошибался. ;)
Ответить
1. Дмитрий (автор) 24.07.2011 в 00:31
  Ох уж эта капча, поставил отступ при вводе) А по поводу кэширования: а к тебе в блог как часто робот заходит? Да, посмотрел, странно, все кэши у тебя на месте в гугле.
  Ответить
HotIce 24.07.2011 в 00:45
Да, капча тебе крови попила. ;) Так нормально уже.
Робот. а тебе какой из? Я не помню, какой там в их стаде главный..
Ответить
1. Дмитрий (автор) 24.07.2011 в 01:52
  Я, честно говоря, не в курсе)
  Ответить
HotIce 24.07.2011 в 02:42
;) А ну пара ежедневно заходит, берет роботс и sitemap. За страницами заходит еще один, этот наверное ты в виду и имел. Он ходит как ему вздумается, в зависимости от наличия обновлений. Но обновлений было вагон, но, допустим, ты смотрел страницу "про мну", так как на ней лента твиттера, то заходит индексирующий на нее. И хоть стоит "noarchive" как-то он не очень на это реагирует. Правда гугловцы писали, что страницы и из индекса не сразу выпадают.. Смотрю в общем. Потому что разделы как в индекс взял, до сих пор не выбросил, хотя ноиндекс ему сказал, в роботс запретил.. Живет своей жизнью, или я чего не догоняю.
Ответить
Екатерина 26.07.2011 в 04:19
Прописала, но ничего не понимаю: на основном домене все нормально, с субдоменом какая то странная история — зачем индексируются трекбеки, плагины, комментарии…
Поясните, это я скривила чем-то или гугл с яндексом вредничают. В статистике почему-то высвечивается адрес плагина, я в шоке…
Ответить
HotIce 26.07.2011 в 04:37
А у вас пути точно, как в роботс из примера?
Я у себя прописывал вот так:
Disallow: /wp-content/
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-content/languages
Disallow: /wp-content/upgrade
но это, ИМХО, избыточно. Если у вас добирается робот до плагинов, то на пути надо смотреть. Да и сайт бы показали, было бы проще.
Ответить
1. Екатерина 26.07.2011 в 05:09
  субдомен не прописывала, во всех справках по интернету ничего про это не сказано. Если дело в этом, то мой промах…
  Ответить
HotIce 26.07.2011 в 04:44
Прозевал про суб. домен. А как вы суб. домен прописывали? И организован он у вас как?
Disallow /name.dir/wp-content/
По идее так должно быть, если вы субдомен расположили в папке /name.dir/ лежащей в корне основного.
Ответить
1. Дмитрий (автор) 26.07.2011 в 05:22
  Про субдомен не знал, что можно так прописывать.
  Ответить
HotIce 26.07.2011 в 05:19
Вероятно дело тогда в этом. Он же робот, дерево. Вы не сказали, а он рад стараться, все утащить к себе, почитать на сон грядущий что нового разработчики плагинов придумали.. ;)
Ответить
HotIce 26.07.2011 в 05:30
А как по другому? Просто еще одна папка, со своим вордпрессом. Но не видя как оно организованно, что-то говорить сложно. Так как я субдомены не строил, то это вариант. Знаешь каконить сайт с субдоменом? Я вот припомнить не могу сейчас. Надо найти, и поглядеть роботс. Тогда и вопросы снимем.
Ответить
1. Дмитрий (автор) 26.07.2011 в 13:47
  Не видел ни одного такого. Вот вроде бы сайт Екатерины: fontrebina.com
  Ответить
  1. Екатерина 26.07.2011 в 16:50
    Это мой основной сайт, по нему вопросов нет, он отлично индексируется. С субами проблемы остались, вроде папку прописала, все равно не видит. Если дальше так будет, напишу в support хостинга, помогут или подскажут.
    Да,и по поводу прописки папки субдомена, я думала зачем, ведь sitemap уже ссылается на него, соответственно и папки прописывать незачем. Я впервые такое вижу.
    Ответить
Екатерина 26.07.2011 в 18:14
Вообщем такой вид, при проверке яндекс не нашел ошибок
User-agent: Unknown robot
Disallow: /
User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /wp-includes/
Disallow: /xmlrpc.php
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /tag/
Disallow: /trackback/
Disallow: /date/
Disallow: /category/
Disallow: /feed/
Disallow: */trackback/
Disallow: */feed/
Disallow: /?feed=
Disallow: /?s=
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads/
Crawl-delay: 5
Host: http://www.сайт
Sitemap: http://www.сайт/sitemap.xml
User-agent: Yandex
Disallow: /cgi-bin/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /wp-includes/
Disallow: /xmlrpc.php
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /tag/
Disallow: /trackback/
Disallow: /date/
Disallow: /category/
Disallow: /feed/
Disallow: */trackback/
Disallow: */feed/
Disallow: /?feed=
Disallow: /?s=
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads/
Ответить
1. HotIce 26.07.2011 в 18:42
  Мне ваш роботс местами не понятен. Насколько я понимаю, вы роботу яндекса зеркало не показали. Если не трудно, объясните зачем. Мне для общего развития.
  Ответить
  1. Екатерина 26.07.2011 в 18:46
    если прописать то ошибку выдает, яндекс видит то что прописано выше, я имею ввиду host и sitemap достаточно один раз прописать. Если я правильно вас поняла.
    Ответить
    1. Екатерина 26.07.2011 в 18:50
      а вообще что ни прописывай на протяжении почти года яндекс в поиске выводит только один мой адрес субдомена — главную страницу, вот прям одна строчка в результатах поиска…мне непонятно, подозреваю глюки в работе хоста. Когда-то им писала об этой проблеме — обнадежили что скоро все появится в поиске, но так и ничего. Вообще выход есть какой…
      Ответить
HotIce 26.07.2011 в 18:27
Сайтмап показывает что индексировать, и что появилось нового. Он не вносит ограничений для робота. Ограничения для робота вносятся в robots.txt
В общем, пройдясь по интернету, надо сказать — был не прав. Конструкция с папкой не верна. Нужен второй роботс для субдомена, в котором выставлять разрешения для субдомена. Робот не понимает папок, он оперирует адресами. Логично.
Получается — сколько в сумме доменов с поддоменами — столько и роботс должно быть.
Ответить
1. Екатерина 26.07.2011 в 18:50
  я вот тоже так думаю
  Ответить
Екатерина 26.07.2011 в 18:51
поначалу вообще на робота внимания не обращала, теперь проснулась…дотянула
Ответить
HotIce 26.07.2011 в 19:28
В общем нашел я сайт, вида субдомен.домен.ru
Разные роботс — один для субдомен.домен.ru другой для домен.ru. С этим для себя разобрался. Но там не используются зеркала на www, поэтому с зеркалированием не ясно как быть. Пока одно усвоил, что если оглядывать ся на яндекс, то с зеркалами связываться не хочется.
Ответить
Екатерина 26.07.2011 в 19:35
а может вообще на яндекс не обращать внимания, гугл хоть что-то индексирует, а с этим только зря время тратить, на том же своем опыте проверено…Спасибо за помощь!
Ответить
HotIce 26.07.2011 в 19:04
_http://help.yandex.ru/webmaster/?id=996567#996574
Важно: в целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву 'Host' необходимо добавлять в группе, начинающейся с записи 'User-Agent', непосредственно после директив 'Disallow'('Allow'). Аргументом директивы 'Host' является доменное имя с номером порта (80 по умолчанию), отделенным двоеточием.
Яндекс конечно своеобразный, но у вас прямое нарушение их рекомендаций, как мне кажется.
Ответить
Екатерина 26.07.2011 в 20:38
Для меня главное, чтобы в поисках нормальные результаты были, а не что-то подобное "trackback — Сайт, RSS 2.0 — Сайт, 7 — Сайт, Ноябрь 2010 — Сайт…", сейчас в гугле именно такое творится без всяких пояснений.
Ответить
HotIce 26.07.2011 в 20:51
В том-то и дело. У меня цели точно такие. Вот не хочу чтоб категории попадали в поиск. Гугл как сожрал их при первой индексации, так и расставаться не хочет.
В роботс запрет стоит, в head страницы стоит директива meta name="robots" contents="noindex" до лампочки. В статические страницы вцепился клещами. В общем, пришел к выводу, что нужно делать внутреннюю перелинковку по другому, и отбирать вес у этих страниц.
Ответить
HotIce 26.07.2011 в 20:05
Зачем же не обращать внимания? Нет, это не наш метод. Я бы ваш роботс написал вот так:
User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /wp-includes/
Disallow: /xmlrpc.php
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /tag/
Disallow: /trackback/
Disallow: /date/
Disallow: /category/
Disallow: /feed/
Disallow: */trackback/
Disallow: */feed/
Disallow: /?feed=
Disallow: /?s=
Disallow: /*?*
Disallow: /*?
Host: http://www.сайт
Sitemap: http://www.сайт/sitemap.xml
Allow: /wp-content/uploads/
User-agent: Yandex
Disallow: /cgi-bin/
Сrawl-delay: 5
То что мне приходилось читать про роботс полного понимания мне не дало, скорее насторожило. И просто бесит, что не могут в своих инструментах подсказки сделать человеческие подсказки — вот это я съел, а вот это нет.
Когда себе делал роботс, рисовал его по рекомендациям гугла и _http://www.robotstxt.org/ на яндекс не обращал внимания, он ругался там на что-то. Гугл индексирует криво, яндекс лучше. Я ничего не понял, и просто плюнул.
Ответить
1. Екатерина 26.07.2011 в 20:43
  Наверное Хост без http://
  Ответить
WMmagnat 31.01.2012 в 20:13
А у Вас то у Самого в Блоге :
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Sitemap: https://oddstyle.ru/sitemap.xml.gz
А вы пишите о других идеальных файлах :)))))
Ответить
1. Дмитрий (автор) 31.01.2012 в 22:27
  Меня лично устраивает тот вариант, что уже имеется. Это перевод, так что мое мнение может не совпадать с мнением автора этой статьи.
  Ответить
WMmagnat 01.02.2012 в 03:13
аааа вот как ) Ну понимаю.
Я лично себе сделал так :
User-agent: *
Disallow: /go/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: */trackback/
Disallow: /*/feed/
Disallow: /feed/rss/
Disallow: /feed/atom/
Disallow: /?feed=
Disallow: /?s=
Allow: /wp-content/uploads/
Allow: /feed/
Sitemap: http://blogpolitic.ru/sitemap.xml
Думаю это самое правильное, хотя как говориться…. :-)
Ответить
1. Дмитрий (автор) 01.02.2012 в 03:57
  Вряд ли в таком деле как продвижение ресурса, может быть что-то "самым правильным" :)
  Ответить
Никита 20.12.2012 в 04:45
Мдааа. просто пострясающие)) Ловите и будет Вам счастье.
Сначала самое главное правило — создайте резервную копию блога! Всегда создавайте резервную копию не ленитесь прежде чем лезть в код.
Во первых -сначала проверяте включена ли вообще индексация идем в меню —> Чтение —> Видимость для поисковых систем и убираем галочку с — «Попросить поисковые системы не индексировать сайт»
Если у Вас версия блога 3,4 идем в настройки приватности и ищем там. Сохраняем настройки.
Второе если пользуемся Google XML Sitemap generator да любыми вообще генераторами или Dragon генераторами. не забываем и про virtual robots.txt c которыи тоже могут быть проблемы. Тем более что более 50% используют впримешку All in one SEO pack тоже дает эффект eco/*
Пишем след функцию в /wp-includes/function.php в папке Вашего блога ищем файл в папке wp-includes/ называется function.php ищем строчки это около 1056:
———————————————————————————
```
function do_robots() {
	header( 'Content-Type: text/plain; charset=utf-8' );

	do_action( 'do_robotstxt' );

	$output = "User-agent: *\n";
	$public = get_option( 'blog_public' );
	if ( '0' == $public ) {
		$output .= "Disallow: /\n";
	} else {
		$site_url = parse_url( site_url() );
		$path = ( !empty( $site_url['path'] ) ) ? $site_url['path'] : '';
		$output .= "Disallow: $path/wp-admin/\n";
		$output .= "Disallow: $path/wp-includes/\n";
	}

	echo apply_filters('robots_txt', $output, $public);
}
```
———————————————————————————
и меняем оооочень внимательно на
———————————————————————————
```
function do_robots() {
	header( 'Content-Type: text/plain; charset=utf-8' );

	do_action( 'do_robotstxt' );

	if ( '0' == get_option( 'blog_public' ) ) {
                     echo  "User-agent: *";
                     echo  "\nDisallow: /wp-admin";
                     echo  "\nDisallow: /wp-includes";
                     echo  "\nDisallow: /wp-content";
                     echo  "\nDisallow: /stylesheets";
                     echo  "\nDisallow: /_db_backups";
                     echo  "\nDisallow: /cgi";
                     echo  "\nDisallow: /store";
                     echo  "\nDisallow: /wp-includes\n";
	} else {
                     echo  "User-agent: *";
                     echo  "\nDisallow: /wp-admin";
                     echo  "\nDisallow: /wp-includes";
                     echo  "\nDisallow: /wp-content";
                     echo  "\nDisallow: /stylesheets";
                     echo  "\nDisallow: /_db_backups";
                     echo  "\nDisallow: /cgi";
                     echo  "\nDisallow: /store";
                     echo  "\nDisallow: /wp-includes\n";
	}
}
```
Это нужно для создания hook правила так называемого крючка для robot.txt чтобы избавить себя от лишних проблем с созданием постоянных правил для * robots.txt.
Это правило и вообще функции актуальны для версии 3,4 если у Вас версия 3,5 проверьте на соответствие
в версии 3,5 код должен выглядеть так:
```
function do_robots() {
	header( 'Content-Type: text/plain; charset=utf-8' );

	do_action( 'do_robotstxt' );

	$output = "User-agent: *\n";
	$public = get_option( 'blog_public' );
	if ( '0' == $public ) {
		$output .= "Disallow: /\n";
	} else {
		$site_url = parse_url( site_url() );
		$path = ( !empty( $site_url['path'] ) ) ? $site_url['path'] : '';
		$output .= "Disallow: $path/wp-admin/\n";
		$output .= "Disallow: $path/wp-includes/\n";
	}

	echo apply_filters('robots_txt', $output, $public);
}
```
———————————————————————————
Затем ручками создаем robot.txt c кодировкой UTF-8
Пишем внутрь
User-agent: *
Disallow: /feed/
Disallow: /trackback/
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /xmlrpc.php
Disallow: /wp-
Sitemap: http://ваш.домен.ru/sitemap.xml
Этот robot txt актуален для всех весрий включительно 3.5
———————————————————————————
Сохраняем заливаем. Проверяем на ошибки.
Все ничего придумывать не надо с Уважением ко вс блогерам Никитос ;)
Вопросы?
Ответить
1. Дмитрий (автор) 20.12.2012 в 12:57
  Не советуют загромождать файл functions, некоторые функции даже оформляют в виде отдельных функциональных плагинов. Хотя, возможно, что решение действенное и полезное.
  Ответить
  1. vovasik 05.08.2013 в 11:55
    Вот не совсем понял это:
    Это нужно для создания hook правила так называемого крючка для robot.txt чтобы избавить себя от лишних проблем с созданием постоянных
    правил для * robots.txt.
    Править /wp-includes/function.php то есть по сут хакать ядроо разве правильно что именно это нам дает недопоял почему сразу не перейти к пункту:
    Затем ручками создаем robot.txt c кодировкой UTF-8
    Какие плюсы от правки /wp-includes/function.php ?
    Ответить
Дмитрий (автор) 05.08.2013 в 14:32
Я сам не совсем понял, какой смысл пихать все в functions.php. Но автор комментария так ничего и не ответил)
Ответить
Волшебник 26.12.2013 в 13:12
Но если у вас нет зеркал сайта, лучше вообще эту директиву не использовать. Смысла нет.
Ответить
Ehate 26.12.2013 в 13:03
Может кто-то даст определение как заполнять:
Host: http://www.ehate.ru
C http:// или без???
Ответить
1. Волшебник 26.12.2013 в 13:11
  Без. У вас всё правильно в robot.txt
  Ответить
Сергей 07.01.2014 в 23:46
Надо поэкспериментировать.
Ответить

Добавить комментарий для Екатерина Отменить ответ