Файл robots.txt — это специальный текстовый файл, хранящийся в корневом каталоге веб-сайта и указывающий поисковым роботам, какие файлы необходимо индексировать, а какие — оградить от индексации. Для достижения хороших SEO показателей файл robots.txt должен быть идеально сконфигурирован. Индексация всех без исключения файлов и папок, хранящихся в WordPress, может привести к плачевным результатам, поскольку система имеет множество страниц, содержащих дублирующий контент: страницы рубрик, страницы меток, страницы архивов и т.д. При индексации у поискового робота, естественно, возникнет вопрос, каким страницам отдать свое предпочтение и вывести в индекс. Чтобы не возникало такой двойственности, необходимо тщательно отнестись к настройке файла robots.txt.
В этой статье я покажу, какие настройки, с моей точки зрения, будут являться идеальными для файла robots.txt применительно к WordPress блогу. Я считаю, что в идеале файл robots.txt должен иметь следующий вид:
sitemap: http://yourdomain.com/sitemap.xml User-agent: * Disallow: /cgi-bin/ Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/ Disallow: /go/ Disallow: /archives/ disallow: /*?* Disallow: /wp-* Disallow: /author Disallow: /comments/feed/
http://devilmustcry.com/blog/ideal-configuration-of-robots-txt-file-for-wordpress-blog.html
Довольно полемично, на мой взгляд. Смотря какие цели. Категории зачем индексировать и тэги? Если бороться за количество страниц в индексе, тогда да.
Не все материалы попадают в индекс напрямую (у меня так отсеилось 40% материалов), но некоторые оседают в выдаче благодаря тегам или рубрикам. А то бывает обидно — пишешь, пишешь статью, а в индексе ее нет.
Я когда смотрю на индексацию, то просто шизею. Но наблюдал, что люди заходят по индексу категории и сваливают. Слишком нецелевой вход получается. но на вкус и цвет. Кстати, по поводу кэширования, что ты описал следующей статьей..
Включил уже месяц как, гугл кэши не повыбрасывал до сих пор. Работа гугла тайна великая есть. ;)
Ты будешь меня пинать, но кнопка смены капчи закрывает первый символ ввода. Два раза ошибался. ;)
Ох уж эта капча, поставил отступ при вводе) А по поводу кэширования: а к тебе в блог как часто робот заходит? Да, посмотрел, странно, все кэши у тебя на месте в гугле.
Да, капча тебе крови попила. ;) Так нормально уже.
Робот. а тебе какой из? Я не помню, какой там в их стаде главный..
Я, честно говоря, не в курсе)
;) А ну пара ежедневно заходит, берет роботс и sitemap. За страницами заходит еще один, этот наверное ты в виду и имел. Он ходит как ему вздумается, в зависимости от наличия обновлений. Но обновлений было вагон, но, допустим, ты смотрел страницу "про мну", так как на ней лента твиттера, то заходит индексирующий на нее. И хоть стоит "noarchive" как-то он не очень на это реагирует. Правда гугловцы писали, что страницы и из индекса не сразу выпадают.. Смотрю в общем. Потому что разделы как в индекс взял, до сих пор не выбросил, хотя ноиндекс ему сказал, в роботс запретил.. Живет своей жизнью, или я чего не догоняю.
Прописала, но ничего не понимаю: на основном домене все нормально, с субдоменом какая то странная история — зачем индексируются трекбеки, плагины, комментарии…
Поясните, это я скривила чем-то или гугл с яндексом вредничают. В статистике почему-то высвечивается адрес плагина, я в шоке…
А у вас пути точно, как в роботс из примера?
Я у себя прописывал вот так:
Disallow: /wp-content/
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-content/languages
Disallow: /wp-content/upgrade
но это, ИМХО, избыточно. Если у вас добирается робот до плагинов, то на пути надо смотреть. Да и сайт бы показали, было бы проще.
субдомен не прописывала, во всех справках по интернету ничего про это не сказано. Если дело в этом, то мой промах…
Прозевал про суб. домен. А как вы суб. домен прописывали? И организован он у вас как?
Disallow /name.dir/wp-content/
По идее так должно быть, если вы субдомен расположили в папке /name.dir/ лежащей в корне основного.
Про субдомен не знал, что можно так прописывать.
Вероятно дело тогда в этом. Он же робот, дерево. Вы не сказали, а он рад стараться, все утащить к себе, почитать на сон грядущий что нового разработчики плагинов придумали.. ;)
А как по другому? Просто еще одна папка, со своим вордпрессом. Но не видя как оно организованно, что-то говорить сложно. Так как я субдомены не строил, то это вариант. Знаешь каконить сайт с субдоменом? Я вот припомнить не могу сейчас. Надо найти, и поглядеть роботс. Тогда и вопросы снимем.
Не видел ни одного такого. Вот вроде бы сайт Екатерины: fontrebina.com
Это мой основной сайт, по нему вопросов нет, он отлично индексируется. С субами проблемы остались, вроде папку прописала, все равно не видит. Если дальше так будет, напишу в support хостинга, помогут или подскажут.
Да,и по поводу прописки папки субдомена, я думала зачем, ведь sitemap уже ссылается на него, соответственно и папки прописывать незачем. Я впервые такое вижу.
Вообщем такой вид, при проверке яндекс не нашел ошибок
User-agent: Unknown robot
Disallow: /
User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /wp-includes/
Disallow: /xmlrpc.php
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /tag/
Disallow: /trackback/
Disallow: /date/
Disallow: /category/
Disallow: /feed/
Disallow: */trackback/
Disallow: */feed/
Disallow: /?feed=
Disallow: /?s=
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads/
Crawl-delay: 5
Host: http://www.сайт
Sitemap: http://www.сайт/sitemap.xml
User-agent: Yandex
Disallow: /cgi-bin/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /wp-includes/
Disallow: /xmlrpc.php
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /tag/
Disallow: /trackback/
Disallow: /date/
Disallow: /category/
Disallow: /feed/
Disallow: */trackback/
Disallow: */feed/
Disallow: /?feed=
Disallow: /?s=
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads/
Мне ваш роботс местами не понятен. Насколько я понимаю, вы роботу яндекса зеркало не показали. Если не трудно, объясните зачем. Мне для общего развития.
если прописать то ошибку выдает, яндекс видит то что прописано выше, я имею ввиду host и sitemap достаточно один раз прописать. Если я правильно вас поняла.
а вообще что ни прописывай на протяжении почти года яндекс в поиске выводит только один мой адрес субдомена — главную страницу, вот прям одна строчка в результатах поиска…мне непонятно, подозреваю глюки в работе хоста. Когда-то им писала об этой проблеме — обнадежили что скоро все появится в поиске, но так и ничего. Вообще выход есть какой…
Сайтмап показывает что индексировать, и что появилось нового. Он не вносит ограничений для робота. Ограничения для робота вносятся в robots.txt
В общем, пройдясь по интернету, надо сказать — был не прав. Конструкция с папкой не верна. Нужен второй роботс для субдомена, в котором выставлять разрешения для субдомена. Робот не понимает папок, он оперирует адресами. Логично.
Получается — сколько в сумме доменов с поддоменами — столько и роботс должно быть.
я вот тоже так думаю
поначалу вообще на робота внимания не обращала, теперь проснулась…дотянула
В общем нашел я сайт, вида субдомен.домен.ru
Разные роботс — один для субдомен.домен.ru другой для домен.ru. С этим для себя разобрался. Но там не используются зеркала на www, поэтому с зеркалированием не ясно как быть. Пока одно усвоил, что если оглядывать ся на яндекс, то с зеркалами связываться не хочется.
а может вообще на яндекс не обращать внимания, гугл хоть что-то индексирует, а с этим только зря время тратить, на том же своем опыте проверено…Спасибо за помощь!
_http://help.yandex.ru/webmaster/?id=996567#996574
Важно: в целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву 'Host' необходимо добавлять в группе, начинающейся с записи 'User-Agent', непосредственно после директив 'Disallow'('Allow'). Аргументом директивы 'Host' является доменное имя с номером порта (80 по умолчанию), отделенным двоеточием.
Яндекс конечно своеобразный, но у вас прямое нарушение их рекомендаций, как мне кажется.
Для меня главное, чтобы в поисках нормальные результаты были, а не что-то подобное "trackback — Сайт, RSS 2.0 — Сайт, 7 — Сайт, Ноябрь 2010 — Сайт…", сейчас в гугле именно такое творится без всяких пояснений.
В том-то и дело. У меня цели точно такие. Вот не хочу чтоб категории попадали в поиск. Гугл как сожрал их при первой индексации, так и расставаться не хочет.
В роботс запрет стоит, в head страницы стоит директива meta name="robots" contents="noindex" до лампочки. В статические страницы вцепился клещами. В общем, пришел к выводу, что нужно делать внутреннюю перелинковку по другому, и отбирать вес у этих страниц.
Зачем же не обращать внимания? Нет, это не наш метод. Я бы ваш роботс написал вот так:
User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /wp-includes/
Disallow: /xmlrpc.php
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /tag/
Disallow: /trackback/
Disallow: /date/
Disallow: /category/
Disallow: /feed/
Disallow: */trackback/
Disallow: */feed/
Disallow: /?feed=
Disallow: /?s=
Disallow: /*?*
Disallow: /*?
Host: http://www.сайт
Sitemap: http://www.сайт/sitemap.xml
Allow: /wp-content/uploads/
User-agent: Yandex
Disallow: /cgi-bin/
Сrawl-delay: 5
То что мне приходилось читать про роботс полного понимания мне не дало, скорее насторожило. И просто бесит, что не могут в своих инструментах подсказки сделать человеческие подсказки — вот это я съел, а вот это нет.
Когда себе делал роботс, рисовал его по рекомендациям гугла и _http://www.robotstxt.org/ на яндекс не обращал внимания, он ругался там на что-то. Гугл индексирует криво, яндекс лучше. Я ничего не понял, и просто плюнул.
Наверное Хост без http://
А у Вас то у Самого в Блоге :
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Sitemap: https://oddstyle.ru/sitemap.xml.gz
А вы пишите о других идеальных файлах :)))))
Меня лично устраивает тот вариант, что уже имеется. Это перевод, так что мое мнение может не совпадать с мнением автора этой статьи.
аааа вот как ) Ну понимаю.
Я лично себе сделал так :
User-agent: *
Disallow: /go/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: */trackback/
Disallow: /*/feed/
Disallow: /feed/rss/
Disallow: /feed/atom/
Disallow: /?feed=
Disallow: /?s=
Allow: /wp-content/uploads/
Allow: /feed/
Sitemap: http://blogpolitic.ru/sitemap.xml
Думаю это самое правильное, хотя как говориться…. :-)
Вряд ли в таком деле как продвижение ресурса, может быть что-то "самым правильным" :)
Мдааа. просто пострясающие)) Ловите и будет Вам счастье.
Сначала самое главное правило — создайте резервную копию блога! Всегда создавайте резервную копию не ленитесь прежде чем лезть в код.
Во первых -сначала проверяте включена ли вообще индексация идем в меню —> Чтение —> Видимость для поисковых систем и убираем галочку с — «Попросить поисковые системы не индексировать сайт»
Если у Вас версия блога 3,4 идем в настройки приватности и ищем там. Сохраняем настройки.
Второе если пользуемся Google XML Sitemap generator да любыми вообще генераторами или Dragon генераторами. не забываем и про virtual robots.txt c которыи тоже могут быть проблемы. Тем более что более 50% используют впримешку All in one SEO pack тоже дает эффект eco/*
Пишем след функцию в /wp-includes/function.php в папке Вашего блога ищем файл в папке wp-includes/ называется function.php ищем строчки это около 1056:
———————————————————————————
———————————————————————————
и меняем оооочень внимательно на
———————————————————————————
Это нужно для создания hook правила так называемого крючка для robot.txt чтобы избавить себя от лишних проблем с созданием постоянных правил для * robots.txt.
Это правило и вообще функции актуальны для версии 3,4 если у Вас версия 3,5 проверьте на соответствие
в версии 3,5 код должен выглядеть так:
———————————————————————————
Затем ручками создаем robot.txt c кодировкой UTF-8
Пишем внутрь
User-agent: *
Disallow: /feed/
Disallow: /trackback/
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /xmlrpc.php
Disallow: /wp-
Sitemap: http://ваш.домен.ru/sitemap.xml
Этот robot txt актуален для всех весрий включительно 3.5
———————————————————————————
Сохраняем заливаем. Проверяем на ошибки.
Все ничего придумывать не надо с Уважением ко вс блогерам Никитос ;)
Вопросы?
Не советуют загромождать файл functions, некоторые функции даже оформляют в виде отдельных функциональных плагинов. Хотя, возможно, что решение действенное и полезное.
Вот не совсем понял это:
Это нужно для создания hook правила так называемого крючка для robot.txt чтобы избавить себя от лишних проблем с созданием постоянных
правил для * robots.txt.
Править /wp-includes/function.php то есть по сут хакать ядроо разве правильно что именно это нам дает недопоял почему сразу не перейти к пункту:
Затем ручками создаем robot.txt c кодировкой UTF-8
Какие плюсы от правки /wp-includes/function.php ?
Я сам не совсем понял, какой смысл пихать все в functions.php. Но автор комментария так ничего и не ответил)
Но если у вас нет зеркал сайта, лучше вообще эту директиву не использовать. Смысла нет.
Может кто-то даст определение как заполнять:
Host: http://www.ehate.ru
C http:// или без???
Без. У вас всё правильно в robot.txt
Надо поэкспериментировать.