Оптимизируем robots.txt под WordPress
Очень часто мне приходят от читателей письма, в которых меня просят рассказать о настройке robots.txt. Как правило, людей интересует оптимизация этого файла под конкретные движки, типа DLE, Joomla и WordPress. На основании этого я и написал данное руководство, в котором буду отвечать на популярные вопросы.
Что такое robots.txt?
robots.txt — это файл, который размещен в корне Вашего сайта на хостинге. Поисковые роботы Яндекса, Гугла и других поисковых систем, когда попадают на Ваш сайт, в первую очередь ищут этот файл, чтобы посмотреть, какие страницы Вы разрешаете проиндексировать, а какие нет.
Для чего нужен robots.txt?
Иногда очень целесообразно запретить роботам индексацию определённых файлов и страниц, дабы избежать ненужных ошибок и дублированного контента. Ведь дублированный контент безжалостно наказывается поисковыми машинами в виде понижения позиций в выдаче.
Зачем использовать robots.txt для WordPress?
В системе WordPress дублированный контент всплывает на страницах рубрик, архивов и тегов, именно их мы будем скрывать от индексации, прописывая нужные команды.
Как создать robots.txt?
Создание этого файла не вызывает особых затруднений. Всё что нам нужно – обычный текстовый редактор, в котором мы будем прописывать команды. Сам файл сохраняется в формате .txt под названием “robots”. Обратите внимание, что все буквы прописываются в нижнем регистре!
Как прописать адрес карты сайта в robots.txt?
Как правило, адрес карты прописывается в самом начале файла robots.txt и имеет следующий вид:
User-agent: *
Sitemap: http://www.[url].ru/sitemap.xml
Чуть ниже мы запрещаем индексацию служебных каталогов, чтобы поисковики не допускали ошибок при сканировании контента:
# disallow all files in these directories
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wpcontent/themes/
Disallow: /wpcontent/plugins/
Disallow: /trackback/
Disallow: /*?*
Disallow: */trackback/
Теперь мы закрываем весь PHP и страницы тегов, рубрик и архивов, т.к. там содержится дублированный контент. Кроме того, прячем фид, т.к. попытки его индексирования приводят к ошибкам.
User-agent: Googlebot
# disallow all files ending with these extensions
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.cgi$
Disallow: /*.wmv$
Disallow: /*.png$
Disallow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.cgi$
Disallow: /*.xhtml$
Disallow: /*.php*
Disallow: */trackback*
Disallow: /*?*
Disallow: /category/
Disallow: /tag/
Disallow: /archives/
Disallow: /feed/
Disallow: /wp-*
Allow: /wp-content/uploads/
Теперь открываем доступ к поиску всех картинок в блоге:
# allow google image bot to search all images
User-agent: Googlebot-Image
Allow: /*
Ну вот, вроде бы, и всё… Ах да, если вы крутите в блоге рекламу от Google AdSense, то необходимо будет прописать ещё пару строк:
# allow adsense bot on entire site
User-agent: Mediapartners-Google*
Disallow: /*?*
Allow: /wp-content/
Allow: /tag/
Allow: /category/
Allow: /*.php$
Allow: /*.js$
Allow: /*.inc$
Allow: /*.css$
Allow: /*.gz$
Allow: /*.cgi$
Allow: /*.wmv$
Allow: /*.cgi$
Allow: /*.xhtml$
Allow: /*.php*
Allow: /*.gif$
Allow: /*.jpg$
Allow: /*.png$
Теперь наш robots.txt полностью заточен под наш блог.
В целом должен получиться файл с вот таким сожержанием:User-agent: *
Sitemap: http://www.[url].ru/sitemap.xml
# disallow all files in these directories
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/themes/
Disallow: /wp-content/plugins/
Disallow: /trackback/
Disallow: /*?*
Disallow: */trackback/
User-agent: Googlebot
# disallow all files ending with these extensions
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.cgi$
Disallow: /*.wmv$
Disallow: /*.png$
Disallow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.cgi$
Disallow: /*.xhtml$
Disallow: /*.php*
Disallow: */trackback*
Disallow: /*?*
Disallow: /category/
Disallow: /tag/
Disallow: /archives/
Disallow: /feed/
Disallow: /wp-*
Allow: /wp-content/uploads/
# allow google image bot to search all images
User-agent: Googlebot-Image
Allow: /*
# allow adsense bot on entire site
User-agent: Mediapartners-Google*
Disallow: /*?*
Allow: /wp-content/
Allow: /tag/
Allow: /category/
Allow: /*.php$
Allow: /*.js$
Allow: /*.inc$
Allow: /*.css$
Allow: /*.gz$
Allow: /*.cgi$
Allow: /*.wmv$
Allow: /*.cgi$
Allow: /*.xhtml$
Allow: /*.php*
Allow: /*.gif$
Allow: /*.jpg$
Allow: /*.png$
Что такое robots.txt?
robots.txt — это файл, который размещен в корне Вашего сайта на хостинге. Поисковые роботы Яндекса, Гугла и других поисковых систем, когда попадают на Ваш сайт, в первую очередь ищут этот файл, чтобы посмотреть, какие страницы Вы разрешаете проиндексировать, а какие нет.
Для чего нужен robots.txt?
Иногда очень целесообразно запретить роботам индексацию определённых файлов и страниц, дабы избежать ненужных ошибок и дублированного контента. Ведь дублированный контент безжалостно наказывается поисковыми машинами в виде понижения позиций в выдаче.
Зачем использовать robots.txt для WordPress?
В системе WordPress дублированный контент всплывает на страницах рубрик, архивов и тегов, именно их мы будем скрывать от индексации, прописывая нужные команды.
Как создать robots.txt?
Создание этого файла не вызывает особых затруднений. Всё что нам нужно – обычный текстовый редактор, в котором мы будем прописывать команды. Сам файл сохраняется в формате .txt под названием “robots”. Обратите внимание, что все буквы прописываются в нижнем регистре!
Как прописать адрес карты сайта в robots.txt?
Как правило, адрес карты прописывается в самом начале файла robots.txt и имеет следующий вид:
User-agent: *
Sitemap: http://www.[url].ru/sitemap.xml
Чуть ниже мы запрещаем индексацию служебных каталогов, чтобы поисковики не допускали ошибок при сканировании контента:
# disallow all files in these directories
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wpcontent/themes/
Disallow: /wpcontent/plugins/
Disallow: /trackback/
Disallow: /*?*
Disallow: */trackback/
Теперь мы закрываем весь PHP и страницы тегов, рубрик и архивов, т.к. там содержится дублированный контент. Кроме того, прячем фид, т.к. попытки его индексирования приводят к ошибкам.
User-agent: Googlebot
# disallow all files ending with these extensions
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.cgi$
Disallow: /*.wmv$
Disallow: /*.png$
Disallow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.cgi$
Disallow: /*.xhtml$
Disallow: /*.php*
Disallow: */trackback*
Disallow: /*?*
Disallow: /category/
Disallow: /tag/
Disallow: /archives/
Disallow: /feed/
Disallow: /wp-*
Allow: /wp-content/uploads/
Теперь открываем доступ к поиску всех картинок в блоге:
# allow google image bot to search all images
User-agent: Googlebot-Image
Allow: /*
Ну вот, вроде бы, и всё… Ах да, если вы крутите в блоге рекламу от Google AdSense, то необходимо будет прописать ещё пару строк:
# allow adsense bot on entire site
User-agent: Mediapartners-Google*
Disallow: /*?*
Allow: /wp-content/
Allow: /tag/
Allow: /category/
Allow: /*.php$
Allow: /*.js$
Allow: /*.inc$
Allow: /*.css$
Allow: /*.gz$
Allow: /*.cgi$
Allow: /*.wmv$
Allow: /*.cgi$
Allow: /*.xhtml$
Allow: /*.php*
Allow: /*.gif$
Allow: /*.jpg$
Allow: /*.png$
Теперь наш robots.txt полностью заточен под наш блог.
В целом должен получиться файл с вот таким сожержанием:User-agent: *
Sitemap: http://www.[url].ru/sitemap.xml
# disallow all files in these directories
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/themes/
Disallow: /wp-content/plugins/
Disallow: /trackback/
Disallow: /*?*
Disallow: */trackback/
User-agent: Googlebot
# disallow all files ending with these extensions
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.cgi$
Disallow: /*.wmv$
Disallow: /*.png$
Disallow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.cgi$
Disallow: /*.xhtml$
Disallow: /*.php*
Disallow: */trackback*
Disallow: /*?*
Disallow: /category/
Disallow: /tag/
Disallow: /archives/
Disallow: /feed/
Disallow: /wp-*
Allow: /wp-content/uploads/
# allow google image bot to search all images
User-agent: Googlebot-Image
Allow: /*
# allow adsense bot on entire site
User-agent: Mediapartners-Google*
Disallow: /*?*
Allow: /wp-content/
Allow: /tag/
Allow: /category/
Allow: /*.php$
Allow: /*.js$
Allow: /*.inc$
Allow: /*.css$
Allow: /*.gz$
Allow: /*.cgi$
Allow: /*.wmv$
Allow: /*.cgi$
Allow: /*.xhtml$
Allow: /*.php*
Allow: /*.gif$
Allow: /*.jpg$
Allow: /*.png$