Файл robots.txt для блога



Robots.txt для блога Blogspot

Здравствуте дорогие мои читатели и все, кто заскочил на огонек. Сегодня у нас важный урок, будем разбираться, что же это за файл такой robots.txt, который настоятельно советуют создать для улучшения индексирования нашего ресурса. Прочитав массу информации, я хочу поделиться с Вами своими соображениями в создании этого файла.

Начну с того, что файл robots.txt необходимо создать, если на Вашем сайте или блоге присутствует содержание, индексирование которого Вы хотите запретить. Но если Вы хотите, чтобы всё содержание блога попало в индекс поисковых систем, создание такого файла вовсе не требуется. На блогах Blogspot уже автоматически создан такой файл и выглядит он вот так:

User-agent: Mediapartners-Google      -разрешается реклама Google AdSense
Disallow:                                                                        

User-agent: *                                            - звездочка, разрешение индексировать всем роботам
                                                                                        
Disallow: /search                                     - разрешено индексировать всем  
 Allow: /
                                                                       поисковым роботам 
  
Sitemap: https://www.bdblogov.ru/sitemap.xml

Посмотреть файл robots.txt Вашего блога можно в инструментах для вебмастеров-сканирование-инструмент проверки файла robots.txt. Но многие владельцы сайтов хотят запретить, к примеру, индексировать архив., чтобы не было дублированного контента. В таком случае файл robots.txt будет выглядеть так:  Этот файл я создала сама, хоть и архив у меня пока удален.

User-agent: *
Disallow: /search
Disallow: /*archive
Allow: /

User-agent: Yandex
Disallow: /search
Disallow: /*archive
Allow: /

User-agent: Mail.Ru
Disallow: /search
Disallow: /*archive
Allow: /

Sitemap: https://www.bdblogov.ru/sitemap.xml

Можно создать для всех роботов сразу, заблокировать индексировать архив

User-agent: *
Disallow: /search
Disallow: /*archive
Allow: /

Sitemap: https://www.bdblogov.ru/sitemap.xml

Такой файл robots.txt-разрешить индексировать всё и всем роботам

User-agent: * 
Disallow:

Sitemap: https://www.bdblogov.ru/sitemap.xml

Что интересно, Яндекс скушал этот файл, а в другом блоге horizon-s.blogspot.com не принял. Причина, как я полагаю в домене, этот блог на персональном домене ru.

В строке Disallow перечисляются страницы, которые необходимо заблокировать. В примере у меня заблокирован архив. Можно указать адрес URL страницы. Ввод должен начинаться с косой черты / .

Заблокировать весь сайт - Disallow:/

Заблокировать архив или определенную страницу

 Disallow:/archive/
Disallow:/ URL страницы

Удалить из индекса все изображения

User-agent: Googlebot-image
Disallow:/

Заблокировать одну из картинок

User-agent: Googlebot-image
Disallow:/kartinki/ url адрес  на картинку

Чтобы использовать файл robots, необходимо иметь доступ к корневому каталогу блога. Для блогов blogspot такого доступа мы не имеем, но есть возможность добавить файл в настройки-настройки поиска-пользовательский файл robots.txt, смотрите на скриншоте


Нажмите-изменить-использовать собственный файл robots.txt-нажать-да. В поле вставьте созданный Вами файл, нажмите-сохранить. 

В панели инструментов для вебмастеров Google сканирование-инструмент проверки файла robots.txt увидите свой созданный файл robots.txt. Если блог перенесен на личный домен, в кабинете для вебмастеров яндекса настройка индексирования файл robots.txt отобразится созданный файл для блога.

Так же разрешить или запретить индексацию определенных страниц, видео, изображений можно, если воспользоваться мета тэгом robots и вставить его в тело шаблона, дизайн-изменить шаблон, в разделе <head></head>

Примеры мета тэгов:

Чтобы запретить индексирование всего содержания блога, есть же люди, которые ведут блог только для себя, применяют такой мета тэг

<meta name="robots"content="noindex"/>-это для всех роботов
<meta name="googlebot"content="noindex"/>-это для робота Google-Googlebot

Для всех без исключения роботов мета тэг выглядит так

<meta name="robots"content="index,follow"/>-разрешается индексировать страницы и ссылки;

<meta name="robots" content="nofollow"/>-не разрешается индексировать ссылки;
.

Здесь следует учесть, что если Вы внесли какие-либо изменения, файл robots должен быть обновлен. Даже после того, как робот обнаружит изменения, сканирование и индексирование-это сложный и длительный процесс, и может занять определенное время. Подробнее читайте на сайте Google. создание файла robots.txt вручную. 

Теперь поговорим о роботе Яндекса. В Яндексе несколько видов роботов, которые выполняют разные функции. Есть робот, индексирующий только rss ленту, робот, индексирующий только картинки. Самый важный, основной робот,функция которого-поиск и индексирование информации-для формирования базы основного поиска

В помощь основному, есть быстрый робот-предназначен для оперативного индексирования свежей информации. Поэтому, если среди приндексированных страниц  в Яндексе увидите похожие, это может означать только одно-страница проиндексирована и основным и быстрым роботом. Читайте о роботах Яндекса на этом сайте. Вернемся к мета тэгам. Для Яндекса также можно прописать мета тэги., только используя тэг nofollow

Смотрите примеры

<meta name="robots"content="all"/>-разрешить индексировать текст и ссылки на странице -
аналогично <meta name="robots"content="index,follow"/>
<meta name="robots" content="nofollow"/>-не переходить по ссылкам на странице

Для запрета индексирования какого-то определенного участка текста можно использовать тэг <noindex>.Работает как мета тэг noindex, но распространяется только на контент.

<noindex>запрещенный для индексирования текст</noindex>

Этот тэг может находится в любом месте html кода страницы. Об использовании Мета тэгов для Яндекса переходим на этот сайт. В этих приведенных примерах файла robots.txt, Вы можете разрешить или запретить индексирование для опреденных роботов. Вместо robots вписываете yandex-робот Яндекса, googlebot-робот Google, mail.ru-робот Mail.ru и другие. На этом моя информация заканчивается. Надеюсь будет Вам полезна. Всего доброго.

Для статьи использована информация сайтов: Использование файла robots.txt для Google. Использование файла robots.txt для Ядекса.





Автор статьи ✎ Olga Protasova Выпуск ✹ 11/16/2013 Ярлыки ►


Открыть комментарии →

14 коммент. :

  1. Disallow: /search - Этот пункт запрещает индекацию данных страниц.

    ОтветитьУдалить
    Ответы
    1. Андрей Кравцов здравствуйте. Disallow:/search действительно запрещает индексацию. Но у меня добавлена строка Allow: / разрешено индексировать.
      Disallow:/search
      Allow: / это разрешение индексировать все страницы.
      Этот robots.txt добавлен уже давно, прошел проверку в инструментах для вебмастеров Google и Яндекс, индексируются все страницы.

      Удалить
    2. почему тогда у меня стоял такой робот файл и страницы все кроме главной не индексировались. но это не суть вопрос как удалить файл роботс? я его удаляю но на search console пишет все равно этот файл.

      Удалить
  2. Вот вам пример.User-agent: Mediapartners-Google
    Disallow:

    User-agent: *
    Disallow: /search
    Allow: /

    Sitemap: http://andrew-scrnshots-computer-games.blogspot.ru/sitemap.xml

    такой файл.
    http://prnt.sc/ako2yd А вот пример что индекс запрещён.

    ОтветитьУдалить
    Ответы
    1. Отвечу на оба комментария. Андрей, файл в инструментах гугла изменится, если вставите свой пользовательский: настройки-настройки поиска, в статье об этом написано, куда вставить. Скриншот https://goo.gl/X5ha8U

      Вы его не удалите, без файла не получится, гугл будет отображать свой для своих блогов на платформе гугла.
      Чтобы загрузить в яндекс, bing, mail.ru, файл robots.txt у Вас должен быть собственный и добавлен в пользовательских настройках. Тогда отобразится правильно в яндексе и других поисковиках, и изменится в гугле.
      Добавьте самый простой
      User-agent: *
      Disallow:
      Sitemap: http://www.bdblogov.ru/sitemap.xml
      Разрешить индексировать все в блоге и для всех роботов. Если конечно нужно что-то заблокировать, тогда придется добавить свойство.

      Удалить
    2. Я про что и говорю. /search эту запись удалил и пошли в индекс страницы. Но я то об этом не знал. я месяц жду почему нет посетителей на блоге а оказывается страницы закрыты от индекса. Теперь то да я поставил простой разрешено все. я полагался на людей что дают правильные роботс файл а оказалось тем самым скрыл страницы.

      Удалить
  3. А вот подскажите имеет разница блоггер адрес мой com при открытии блога я вижу как ru. Что ставить в robots -com или ru правильней?

    ОтветитьУдалить
    Ответы
    1. Андрей, если Disallow:/search нет свойства Allow: /, то у Вас запрещено индексирование. Посмотрите на мой пример:
      https://goo.gl/0YpQIP яндекс выбрал для себя строку файла.
      https://goo.gl/NLQ2HC здесь проиндексирована 371 страница, в блоге 361 + статические страницы. Исключил заблокированный архив в роботс, удаленные мной посты, и комментарии к постам.

      В яндексе автоматически идет перенаправление с com на ru. Раньше без личного домена нельзя было в яше добавить роботс, а вот sitemap без проблем добавлялся, но с com:
      http://адрес.blogspot.com/sitemap.xml
      Проверьте в валидаторе в вебмастере яндекс оба файла, должен быть ответ сервера 200.ОК Слева настройки индексирования "файл sitemap" Не забудьте указать главное зеркало блога в вебмастере яндекс.

      Удалить
    2. http://prnt.sc/ako3a9
      http://prnt.sc/ako2yd
      Ну а у меня вот блокирует хоть как))
      В валидаторе да и с сом и ру пишет нет ошибок.

      Удалить
  4. поставлю значит простой роботс. Мне сейчас говорят на форуме отключите в блоге robots и проблем не будет. Вот отключил http://prntscr.com/akxv19 страницы не идут в индекс.

    ОтветитьУдалить
    Ответы
    1. Андрей, у Вас на скриншоте то домен ru, то com, определитесь, что Вы проверяете. Простые действия:
      1. Добавить блог на домене blogspot.ru в Гугле, подтвердить права.
      2. Добавить sitemap, предварительно проверить на ошибки в вебмастере гугл.
      3. В яндексе у Вас добавлен блог с доменом ru, в метрике указать зеркало на домене com.
      4. Добавляйте пользовательский файл robots.txt, проверяйте.

      Дальше, в яндексе в поле списка URL проверяют только адреса URL страниц (постов). Вы можете узнать, будет ли робот обходить страницы, заданные в окне «Список URL, то есть проверяется файл robots.txt и есть ли возможность роботу яндекса их индексировать.
      И что за адрес вы там проверяете? Если это sitemap, то сгенерировано неправильно. Генератор выдает sitemap другого вида, читайте пост http://www.bdblogov.ru/2013/08/sitemap.html

      Вообщем пробуйте, потом отпишитесь.

      Удалить
    2. Да спасибо разобрался. Disallow: /search это оказывается запрет на индекс страниц но не самих статей на этой странице.

      Удалить
  5. Спасибо! Проверил, вроде все работает, посмотрю, как робот будет индексировать.

    ОтветитьУдалить
    Ответы
    1. Здравствуйте Александр. Если все правильно сделали, то и индексироваться будут все страницы, но не сразу. При добавлении файла robots, в зависимости от количества опубликованных страниц пройдет время, пока попадут в индекс. Проверяйте, наблюдайте.

      Удалить


Ув. читатели! Для вставки HTML кода в комментарии, воспользуйтесь Генератором HTML кода

 
Технологии Blogger.

Форма для связи

Имя

Электронная почта *

Сообщение *