Файл robots.txt для блога



Robots.txt для блога Blogspot

Здравствуте дорогие мои читатели и все, кто заскочил на огонек. Сегодня у нас важный урок, будем разбираться, что же это за файл такой robots.txt, который настоятельно советуют создать для улучшения индексирования нашего ресурса. Прочитав массу информации, я хочу поделиться с Вами своими соображениями в создании этого файла.

Начну с того, что файл robots.txt необходимо создать, если на Вашем сайте или блоге присутствует содержание, индексирование которого Вы хотите запретить. Но если Вы хотите, чтобы всё содержание блога попало в индекс поисковых систем, создание такого файла вовсе не требуется. На блогах Blogspot уже автоматически создан такой файл и выглядит он вот так:

User-agent: Mediapartners-Google      -разрешается реклама Google AdSense
Disallow:                                                                        

User-agent: *                                            - звездочка, разрешение индексировать всем роботам
                                                                                        
Disallow: /search                                     - разрешено индексировать всем  
 Allow: /
                                                                       поисковым роботам 
  
Sitemap: http://www.bdblogov.ru/sitemap.xml

Посмотреть файл robots.txt Вашего блога можно в инструментах для вебмастеров-сканирование-инструмент проверки файла robots.txt. Но многие владельцы сайтов хотят запретить, к примеру, индексировать архив., чтобы не было дублированного контента. В таком случае файл robots.txt будет выглядеть так:  Этот файл я создала сама, хоть и архив у меня пока удален.

User-agent: *
Disallow: /search
Disallow: /*archive
Allow: /

User-agent: Yandex
Disallow: /search
Disallow: /*archive
Allow: /

User-agent: Mail.Ru
Disallow: /search
Disallow: /*archive
Allow: /

Sitemap: http://www.bdblogov.ru/sitemap.xml

Можно создать для всех роботов сразу, заблокировать индексировать архив

User-agent: *
Disallow: /search
Disallow: /*archive
Allow: /

Sitemap: http://www.bdblogov.ru/sitemap.xml

Такой файл robots.txt-разрешить индексировать всё и всем роботам

User-agent: * 
Disallow:

Sitemap: http://www.bdblogov.ru/sitemap.xml

Что интересно, Яндекс скушал этот файл, а в другом блоге horizon-s.blogspot.com не принял. Причина, как я полагаю в домене, этот блог на персональном домене ru.

В строке Disallow перечисляются страницы, которые необходимо заблокировать. В примере у меня заблокирован архив. Можно указать адрес URL страницы. Ввод должен начинаться с косой черты / .

Заблокировать весь сайт - Disallow:/

Заблокировать архив или определенную страницу

 Disallow:/archive/
Disallow:/ URL страницы

Удалить из индекса все изображения

User-agent: Googlebot-image
Disallow:/

Заблокировать одну из картинок

User-agent: Googlebot-image
Disallow:/kartinki/ url адрес  на картинку

Чтобы использовать файл robots, необходимо иметь доступ к корневому каталогу блога. Для блогов blogspot такого доступа мы не имеем, но есть возможность добавить файл в настройки-настройки поиска-пользовательский файл robots.txt, смотрите на скриншоте


Нажмите-изменить-использовать собственный файл robots.txt-нажать-да. В поле вставьте созданный Вами файл, нажмите-сохранить. 

В панели инструментов для вебмастеров Google сканирование-инструмент проверки файла robots.txt увидите свой созданный файл robots.txt. Если блог перенесен на личный домен, в кабинете для вебмастеров яндекса настройка индексирования файл robots.txt отобразится созданный файл для блога.

Так же разрешить или запретить индексацию определенных страниц, видео, изображений можно, если воспользоваться мета тэгом robots и вставить его в тело шаблона, дизайн-изменить шаблон, в разделе <head></head>

Примеры мета тэгов:

Чтобы запретить индексирование всего содержания блога, есть же люди, которые ведут блог только для себя, применяют такой мета тэг

<meta name="robots"content="noindex"/>-это для всех роботов
<meta name="googlebot"content="noindex"/>-это для робота Google-Googlebot

Для всех без исключения роботов мета тэг выглядит так

<meta name="robots"content="index,follow"/>-разрешается индексировать страницы и ссылки;

<meta name="robots" content="nofollow"/>-не разрешается индексировать ссылки;
.

Здесь следует учесть, что если Вы внесли какие-либо изменения, файл robots должен быть обновлен. Даже после того, как робот обнаружит изменения, сканирование и индексирование-это сложный и длительный процесс, и может занять определенное время. Подробнее читайте на сайте Google. создание файла robots.txt вручную. 

Теперь поговорим о роботе Яндекса. В Яндексе несколько видов роботов, которые выполняют разные функции. Есть робот, индексирующий только rss ленту, робот, индексирующий только картинки. Самый важный, основной робот,функция которого-поиск и индексирование информации-для формирования базы основного поиска

В помощь основному, есть быстрый робот-предназначен для оперативного индексирования свежей информации. Поэтому, если среди приндексированных страниц  в Яндексе увидите похожие, это может означать только одно-страница проиндексирована и основным и быстрым роботом. Читайте о роботах Яндекса на этом сайте. Вернемся к мета тэгам. Для Яндекса также можно прописать мета тэги., только используя тэг nofollow

Смотрите примеры

<meta name="robots"content="all"/>-разрешить индексировать текст и ссылки на странице -
аналогично <meta name="robots"content="index,follow"/>
<meta name="robots" content="nofollow"/>-не переходить по ссылкам на странице

Для запрета индексирования какого-то определенного участка текста можно использовать тэг <noindex>.Работает как мета тэг noindex, но распространяется только на контент.

<noindex>запрещенный для индексирования текст</noindex>

Этот тэг может находится в любом месте html кода страницы. Об использовании Мета тэгов для Яндекса переходим на этот сайт. В этих приведенных примерах файла robots.txt, Вы можете разрешить или запретить индексирование для опреденных роботов. Вместо robots вписываете yandex-робот Яндекса, googlebot-робот Google, mail.ru-робот Mail.ru и другие. На этом моя информация заканчивается. Надеюсь будет Вам полезна. Всего доброго.

Для статьи использована информация сайтов: Использование файла robots.txt для Google. Использование файла robots.txt для Ядекса.




Автор статьи ✎ Olga Protasova Выпуск ✹ 11/16/2013 Ярлыки ►


Открыть комментарии →

12 коммент. :

  1. Disallow: /search - Этот пункт запрещает индекацию данных страниц.

    ОтветитьУдалить
    Ответы
    1. Андрей Кравцов здравствуйте. Disallow:/search действительно запрещает индексацию. Но у меня добавлена строка Allow: / разрешено индексировать.
      Disallow:/search
      Allow: / это разрешение индексировать все страницы.
      Этот robots.txt добавлен уже давно, прошел проверку в инструментах для вебмастеров Google и Яндекс, индексируются все страницы.

      Удалить
    2. почему тогда у меня стоял такой робот файл и страницы все кроме главной не индексировались. но это не суть вопрос как удалить файл роботс? я его удаляю но на search console пишет все равно этот файл.

      Удалить
  2. Вот вам пример.User-agent: Mediapartners-Google
    Disallow:

    User-agent: *
    Disallow: /search
    Allow: /

    Sitemap: http://andrew-scrnshots-computer-games.blogspot.ru/sitemap.xml

    такой файл.
    http://prnt.sc/ako2yd А вот пример что индекс запрещён.

    ОтветитьУдалить
    Ответы
    1. Отвечу на оба комментария. Андрей, файл в инструментах гугла изменится, если вставите свой пользовательский: настройки-настройки поиска, в статье об этом написано, куда вставить. Скриншот https://goo.gl/X5ha8U

      Вы его не удалите, без файла не получится, гугл будет отображать свой для своих блогов на платформе гугла.
      Чтобы загрузить в яндекс, bing, mail.ru, файл robots.txt у Вас должен быть собственный и добавлен в пользовательских настройках. Тогда отобразится правильно в яндексе и других поисковиках, и изменится в гугле.
      Добавьте самый простой
      User-agent: *
      Disallow:
      Sitemap: http://www.bdblogov.ru/sitemap.xml
      Разрешить индексировать все в блоге и для всех роботов. Если конечно нужно что-то заблокировать, тогда придется добавить свойство.

      Удалить
    2. Я про что и говорю. /search эту запись удалил и пошли в индекс страницы. Но я то об этом не знал. я месяц жду почему нет посетителей на блоге а оказывается страницы закрыты от индекса. Теперь то да я поставил простой разрешено все. я полагался на людей что дают правильные роботс файл а оказалось тем самым скрыл страницы.

      Удалить
  3. А вот подскажите имеет разница блоггер адрес мой com при открытии блога я вижу как ru. Что ставить в robots -com или ru правильней?

    ОтветитьУдалить
    Ответы
    1. Андрей, если Disallow:/search нет свойства Allow: /, то у Вас запрещено индексирование. Посмотрите на мой пример:
      https://goo.gl/0YpQIP яндекс выбрал для себя строку файла.
      https://goo.gl/NLQ2HC здесь проиндексирована 371 страница, в блоге 361 + статические страницы. Исключил заблокированный архив в роботс, удаленные мной посты, и комментарии к постам.

      В яндексе автоматически идет перенаправление с com на ru. Раньше без личного домена нельзя было в яше добавить роботс, а вот sitemap без проблем добавлялся, но с com:
      http://адрес.blogspot.com/sitemap.xml
      Проверьте в валидаторе в вебмастере яндекс оба файла, должен быть ответ сервера 200.ОК Слева настройки индексирования "файл sitemap" Не забудьте указать главное зеркало блога в вебмастере яндекс.

      Удалить
    2. http://prnt.sc/ako3a9
      http://prnt.sc/ako2yd
      Ну а у меня вот блокирует хоть как))
      В валидаторе да и с сом и ру пишет нет ошибок.

      Удалить
  4. поставлю значит простой роботс. Мне сейчас говорят на форуме отключите в блоге robots и проблем не будет. Вот отключил http://prntscr.com/akxv19 страницы не идут в индекс.

    ОтветитьУдалить
    Ответы
    1. Андрей, у Вас на скриншоте то домен ru, то com, определитесь, что Вы проверяете. Простые действия:
      1. Добавить блог на домене blogspot.ru в Гугле, подтвердить права.
      2. Добавить sitemap, предварительно проверить на ошибки в вебмастере гугл.
      3. В яндексе у Вас добавлен блог с доменом ru, в метрике указать зеркало на домене com.
      4. Добавляйте пользовательский файл robots.txt, проверяйте.

      Дальше, в яндексе в поле списка URL проверяют только адреса URL страниц (постов). Вы можете узнать, будет ли робот обходить страницы, заданные в окне «Список URL, то есть проверяется файл robots.txt и есть ли возможность роботу яндекса их индексировать.
      И что за адрес вы там проверяете? Если это sitemap, то сгенерировано неправильно. Генератор выдает sitemap другого вида, читайте пост http://www.bdblogov.ru/2013/08/sitemap.html

      Вообщем пробуйте, потом отпишитесь.

      Удалить
    2. Да спасибо разобрался. Disallow: /search это оказывается запрет на индекс страниц но не самих статей на этой странице.

      Удалить

Ув. читатели! Для вставки HTML кода в комментарии, воспользуйтесь в меню Генератором преобразования HTML кода.

 
Технологии Blogger.

Форма для связи

Имя

Электронная почта *

Сообщение *