Оптимизируем robots.txt под WordPress

Очень часто мне приходят от читателей письма, в которых меня просят рассказать о настройке robots.txt. Как правило, людей интересует оптимизация этого файла под конкретные движки, типа DLE, Joomla и WordPress. На основании этого я и написал данное руководство, в котором буду отвечать на популярные вопросы.

Что такое robots.txt?

robots.txt – это файл, который размещен в корне Вашего сайта на хостинге. Поисковые роботы Яндекса, Гугла и других поисковых систем, когда попадают на Ваш сайт, в первую очередь ищут этот файл, чтобы посмотреть, какие страницы Вы разрешаете проиндексировать, а какие нет.

Для чего нужен robots.txt?

Иногда очень целесообразно запретить роботам индексацию определённых файлов и страниц, дабы избежать ненужных ошибок и дублированного контента. Ведь дублированный контент безжалостно наказывается поисковыми машинами в виде понижения позиций в выдаче.

Зачем использовать robots.txt для WordPress?

В системе WordPress дублированный контент всплывает на страницах рубрик, архивов и тегов, именно их мы будем скрывать от индексации, прописывая нужные команды.

Как создать robots.txt?

Создание этого файла не вызывает особых затруднений. Всё что нам нужно – обычный текстовый редактор, в котором мы будем прописывать команды. Сам файл сохраняется в формате .txt под названием “robots”. Обратите внимание, что все буквы прописываются в нижнем регистре!!!

Как прописать адрес карты сайта в robots.txt?

Как правило, адрес карты прописывается в самом начале файла robots.txt и имеет следующий вид:

User-agent: *
Sitemap: http://www.[url].ru/sitemap.xml

Чуть ниже мы запрещаем индексацию служебных каталогов, чтобы поисковики не допускали ошибок при сканировании контента:

# disallow all files in these directories
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wpcontent/themes/
Disallow: /wpcontent/plugins/
Disallow: /trackback/
Disallow: /*?*
Disallow: */trackback/

Теперь мы закрываем весь PHP и страницы тегов, рубрик и архивов, т.к. там содержится дублированный контент. Кроме того, прячем фид, т.к. попытки его индексирования приводят к ошибкам.

User-agent: Googlebot
# disallow all files ending with these extensions
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.cgi$
Disallow: /*.wmv$
Disallow: /*.png$
Disallow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.cgi$
Disallow: /*.xhtml$
Disallow: /*.php*
Disallow: */trackback*
Disallow: /*?*
Disallow: /category/
Disallow: /tag/
Disallow: /archives/
Disallow: /feed/
Disallow: /wp-*
Allow: /wp-content/uploads/

Теперь открываем доступ к поиску всех картинок в блоге:

# allow google image bot to search all images
User-agent: Googlebot-Image
Allow: /*

Ну вот, вроде бы, и всё… Ах да, если вы крутите в блоге рекламу от Google AdSense, то необходимо будет прописать ещё пару строк:

# allow adsense bot on entire site

User-agent: Mediapartners-Google*
Disallow: /*?*
Allow: /wp-content/
Allow: /tag/
Allow: /category/
Allow: /*.php$
Allow: /*.js$
Allow: /*.inc$
Allow: /*.css$
Allow: /*.gz$
Allow: /*.cgi$
Allow: /*.wmv$
Allow: /*.cgi$
Allow: /*.xhtml$
Allow: /*.php*
Allow: /*.gif$
Allow: /*.jpg$
Allow: /*.png$

Теперь наш robots.txt полностью заточен под наш блог. В целом должен получиться файл с вот таким сожержанием:

User-agent: *

Sitemap: http://www.[url].ru/sitemap.xml

# disallow all files in these directories
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/themes/
Disallow: /wp-content/plugins/
Disallow: /trackback/
Disallow: /*?*
Disallow: */trackback/

User-agent: Googlebot
# disallow all files ending with these extensions
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.cgi$
Disallow: /*.wmv$
Disallow: /*.png$
Disallow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.cgi$
Disallow: /*.xhtml$
Disallow: /*.php*
Disallow: */trackback*
Disallow: /*?*
Disallow: /category/
Disallow: /tag/
Disallow: /archives/
Disallow: /feed/
Disallow: /wp-*
Allow: /wp-content/uploads/

# allow google image bot to search all images

User-agent: Googlebot-Image
Allow: /*

# allow adsense bot on entire site

User-agent: Mediapartners-Google*
Disallow: /*?*
Allow: /wp-content/
Allow: /tag/
Allow: /category/
Allow: /*.php$
Allow: /*.js$
Allow: /*.inc$
Allow: /*.css$
Allow: /*.gz$
Allow: /*.cgi$
Allow: /*.wmv$
Allow: /*.cgi$
Allow: /*.xhtml$
Allow: /*.php*
Allow: /*.gif$
Allow: /*.jpg$
Allow: /*.png$



Актуальные материалы

Опубликовано в рубрике WordPress at Ноябрь 26th, 2009.
Tags: , ,

Comments are closed.