Файл robots.txt для wordpress
Опубликовано: 01.09.2018
О файле robots.txt
Файл robots.txt это текстовой файл, в котором прописываются правила для поисковых машин для сканирования, а значит индексации папок и файлов сайта. Находится файл robots.txt должен в корневом каталоге сайта. Файл robots.txt наряду с картой сайта Sitemap это основные документы SEO оптимизации блогов сделанных на CMS WordPress.
Важно! Недопустимо пустые переводы строк между директивами User-agent и Disallow (Allow), а также между директивами Disallow и Allow.
Важно! URL файла robots.txt чувствителен к регистру.
На базовой версии файл robots.txt для wordpress выглядит следующим образом:
User-agent: Disallow: /wp-admin/ Disallow: /wp-includes/ User-agent это обращение к поисковикам. [*] звезда, означает, что следующие директивы группы обращены ко всем поисковикам; Директива Disallow запрещает поисковикам индексировать только то, что находится в папках /wp-admin/ и /wp-includes/.Файл robots.txt составляется из строк, каждая из которых является отдельной директивой. Директива, а проще говоря, правило, пишется для поисковиков. Весь файл robots.txt пишется по специальному несложному синтаксису.
Файл Robots txt - настройка, директивы и популярные ошибки
Синтаксис файла robots.txt
Символ ‘#’ назначен для комментариев. Все, что находится после решетки и до первого перевода строки не исполняется и не учитывается поисковиками.
Первой рабочей директивой файла robots.txt (начало группы) нужно прописывать директиву User-agent. Она показывает к кому поисковику относится следующие за ним директивы;
Недопустимо пустые переводы строк между директивами User-agent и Disallow (Allow);
Директива User-agent со звездой , то есть User-agent: *, означает, что правила robots.txt относятся ко всем поисковикам;
Для главных поисковых роботов Яндекс и Google директивы User-agent файла robots.txt должны выгладить так:
User-agent: Yandex User-agent: GooglebotПравила для поисковиков прописываются директивами «Disallow» — запрет или «Allow»-разрешение;
User-agent: * Allow: /cgi-bin Disallow: / # запрещает скачивать все, кроме страниц # начинающихся с '/cgi-bin'Любой файл robots.txt должен содержать директиву «Disallow»;
Пустая Disallow разрешает индексацию всего сайта, Disallow закрытая слеш (/) полностью закрывает сайт от индексации.
Disallow: / # блокирует доступ ко всему сайтуСоставим Файл robots.txt для wordpresss
Что же стоит спрятать от поисковиков?
Разумно спрятать все папки с личной информацией, паролями, логинами и т.п. Это три папки. Директивы выглядят так:
User-agent: * Disallow: /cgi-bin/ Disallow: /wp-admin/ Disallw: /wp-includes/Все плагины блога, темы, кэш не являются контентной информацией блога, поэтому их тоже спрячем.
Disallow: /wp-content/plugins/ Disallow: /wp-content/cache/ Disallow: /wp-content/themes/В SEO продвижении, особенно в структуре WP, важное значение имеет отсутствие повторов (дублирование) контента в зоне одного домена. Дублирование возникает при редактировании материалов, при комментировании, при работе на блоге нескольких авторов, при постоянном упоминании одного автора в представлении к статье (имя автора). Много дублирования в тегах блога. Cтоит спрятать эти папки от поисковиков.
Если на блоге вы используете SEF ссылки (человекопонятные адреса статей), без знаков вопроса в URL, то можно запретить поисковикам индексировать эти страницы.
Disallow: /*?* Disallow: /*?Таким же образом вы можете запретить индексацию любой папки или файла блога. Чтобы запретить индексацию файлов, например .pdf нужно прописать директиву:
Disallow: /*.pdfСпецсимвол звезда ‘*’ означает любую, включая пустую, последовательность символов.
В файле robots.txt есть одна интересная директива специальная для Яндекс. Это директива Host. С помощью неё вы можете (должны) сообщить Яндекс основной домен (главное зеркало) своего блога. Директив Host в файле должна быть одна. Если внесены несколько директив Host читается первая по списку. Правда, для этого нужно сделать отдельную секцию для “User-agent” для Яндекс.
User-agent: YandexВ файл robots.txt обязательно нужно вставить информацию о своей карте Sitemap
Карту-сайта нужно генерировать при помощи любого веб-инструмента Sitemap. Он генерирует четыре формата карты-сайта. Один из них, файл формата [.xml], сначала нужно загрузить в корень сайта, а потом включить в файл robots.txt. Если карт-сайта несколько загрузите все. Рекомендую два генератора Sitemap:
https://pro-sitemaps.com/ http://www.mysitemapgenerator.com/Если вы видите большую загрузку своего сервера, то можно воспользоваться директивой «Crawl-delay». Она задаст время в миллисекундах, между загрузками двух страниц. Добавлять директиву «Crawl-delay» нужно сразу после “User-agent”.
User-agent: * Crawl-delay: 3.5 # задает таймаут в 3.5 секундыВообще менять файл robots.txt на сайте WordPress это работа творческая. Каждый файл robots.txt должен быть индивидуальным и отвечать вашим личным требованиям к поисковикам.
Файл robots.txt для wordpress: пример
Приведу, как мне кажется, разумный Файл robots.txt для wordpress
User-agent: * Disallow: /cgi-bin Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/plugins/ Disallow: /wp-content/cache/ Disallow: /wp-content/themes/ Disallow: /wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: /category/ Disallow: /author/ Disallow: /page/</del> Disallow: */trackback Disallow: */comments Disallow: /*.php Sitemap: http://ваш_сайт.ru/sitemap.xml.gz Sitemap: http://ваш_сайт.ru/sitemap.xml User-agent: Yandex Disallow: /cgi-bin #блокирует доступ к страницам начинающихся с '/cgi-bin' Disallow: /wp-admin/ #блокирует доступ к содержимому папки wp-admin Disallow: /wp-includes/ Disallow: /wp-content/plugins/ #блокирует содержимое папки plugins в каталоге wp-content Disallow: /wp-content/cache/ Disallow: /wp-content/themes/ Disallow: /wp-trackback #блокирует доступ к страницам нащинающихся с wp-trackback Disallow: /wp-feed Disallow: /wp-comments <del>Disallow: /category/ Disallow: /author/ Disallow: /page/</del> Disallow: */trackback Disallow: */comments Disallow: /*.php Host: ваш_сайт.ru Sitemap: http://ваш_сайт/sitemap.xmlПримечание: 21-03-2018. Яндекс сообщил :
…мы отказываемся от директивы Host. Теперь эту директиву можно удалять из robots.txt, но важно, чтобы на всех не главных зеркалах вашего сайта теперь стоял 301-й постраничный редирект.
Пояснения к файлу
Этот файл robots.txt для wordpress содержит выделенную инструкцию для поисковика Яндекс. В эту часть файла добавлена специальная директива Host, которая читается только ботами Яндекс и определяет основное зеркало сайта. Двух директив Host в файле robots.txt быть не должно.
В этом примере файла robots.txt закрыто для поисковиков все содержание папок: wp-admin, wp-includes, plugins, cashe, themes, autor, category. Если не хотите закрывать от поисковиков архивы статей, авторов и категории уберите строки (директивы), которые я зачеркнул. Закрыта индексация страниц wordpress («на любителя»). Добавлены карты сайта.
Приведенный Файл robots.txt является частным и сделан для индивидуальных требований.
Для альтернативы, приведу другой рекомендованный Файл robots.txt. Рекомендация автора плагина WordPress SEO Plugins (yoast.com).
User-Agent: * Disallow: /wp-content/plugins/Повторюсь и выделю, нет уникальных файлов robots.txt. Продумайте, что нужно именно вам закрыть от поисковиков или оставьте файл robots.txt для wordpress по умолчанию. Частые манипуляции с файлом robots.txt, будут лихорадить вашу выдачу в индексе поисковиков.
Полезные ссылки
На этом про файл robots.txt для wordpress все!
©www.wordpress-abc.ru