Решив возродить к жизни заброшенный блог на блоггер и провести свой личный эксперимент по росту посещаемости, я столкнулась с необходимостью сделать блог видимым для роботов поисковых систем.

Для этого очень важна страница sitemap.xml - это карта вашего сайта, которая сообщает роботам о появлении новых страниц на сайте и ускоряет индексацию страниц.

В blogger найти sitemap можно, если прописать название блога и в конце добавить sitemap.xml. Вот пример для моего блога http://1000experiments.blogspot.ru/sitemap.xml Подставьте адрес своего блога и получите карту своего сайта.

Проверить наличие ошибок в файле sitemap можно на яндексе для вебмастеров > Для этого надо перейти по ссылке, ввести url для файла sitemap и нажать кнопку "Проверить":


В случае отсутствия ошибок вы получите такой результат:


Теперь надо http://1000experiments.blogspot.ru/sitemap.xml вставить во второй важный для поисковых роботов файл - robots.txt

Этот файл разрешает или запрещает роботам поисковых систем посещать страницы вашего сайта и индексировать сайт.
Вначале робот смотри на строку, содержащую слова: User-agent. В этой строке могут быть указаны все роботы (в этом случае стоит звездочка - User-agent: * ), либо один конкретный робот, например, User-agent: Yandex. Ксли яндекс (или другой робот) находит строку со своим именем, то учитывает команды, указанные для него и игнорирует то, что указано для всех роботов. Не будем рассматривать все директивы (можете ознакомиться с ними, например, на сайте яндекса >), только самые главные - Allow и Disallow.

Allow robots.txt дает команду роботу посещать страницы вашего сайта и индексировать, Disallow robots.txt - запретить индексацию. Можно дать разрешение/запрет на посещение всего сайта, или отдельных страниц. Если запрещено посещение всех страниц, то дается такая команда Disallow: / Если запрещены конкретные страницы, то разрешаем все A llow: / и запрещаем определенную группу, например, в папке photo - Disallow: / photo Впрочем, для сайтов, размещенных на блоггере все это не очень важно, это была информация для большего понимания отдельных команд.
robots.txt где находится?

Где robots.txt находится в блоггере? Из панели администратора заходим в Настройки - Настройки поиска. Нажимаем "Изменить" справа от "Пользовательский файл robots.txt", нажимаем "Да", появляется пустое поле, куда вносим текст нашего robots.txt и нажимаем кнопку "Сохранить изменения":


Если у вас полноценный сайт, то файл robots.txt следует загрузить в корневой каталог.
Самый простой пример файла с разрешением всем роботам индексировать все страницы сайта вы видите на этой странице. Если будете копировать, не забудьте изменить имя сайта в последней строчке. robots.txt пример: User-agent: *
Allow: /

Sitemap: http://1000experiments.blogspot.ru/sitemap.xml

Проверить robots.txt Провести анализ robots.txt можно все там же - на яндексе для вебмастеров > Перейдя по ссылке вы сразу попадете на страницу проверки robots.txt, или можете выбрать ее так:




Платформа для блогов — Blogger (Blogspot) считается профессиональной. А с недавних пор, как Google добавил туда функции «Описание для поисковых систем», возможность вставлять в код ссылки теги target=»_blank» и rel=»nofollow» а также сделать то, о чем речь пойдет ниже, то не осталось ни одной, сколь нибудь весомой причины, по которой не нужно использовать эту блог-платформу. Как говорится, «Если вам не нравятся кошки, то это потому, что вы не умеете их готовить!»

Итак, по порядку.

Карта сайта нужна. Аксиома, не требующая доказательств. Если хотите, чтобы ваш блог лучше индексировался, то нужно иметь и карту сайта, и robots.txt Иначе поисковый робот встанет перед дилеммой, как богатырь в картинке

И если на WordPress с созданием карты все относительно просто, то с Blogger (Blogspot) до недавних пор было не все так просто.

Различают карты сайта для поисковых роботов и карты сайта для людей.

Так вот, если говорить про карту сайта для роботов , то тут все оказывается до смешного просто. Достаточно лишь к ссылке на ваш блог дописать /sitemap.xml чтобы ссылка на карту вашего блога выглядела вот в таком виде: http://rsolovyov.blogspot.com/sitemap.xml и ваша карта сайта уже сгенерирована! Blogger уже давно использует автогенерацию sitemap.xml, и там перечислены все посты (URL) блога с датой последней модификации. Поэтому больше не надо ломать голову, какую ссылку скормить поисковикам на карту сайта. Я даже не буду описывать сейчас те ухищрения, на которые приходилось прибегать раньше. Словом, теперь везде, где нужно прописать ссылку на карту, просто пишете в том виде, как я привел выше. И проблема решена.

Ну а если говорить про карту сайта для людей, то тут придется немного поработать ручками. Это не страшно. Но нужно быть внимательным.

Заходим в админку блоге, во вкладку «Страницы» => «Создать»). Создаем новую страницу, называем ее, например, Карта блога.

Затем переходим в режим HTML и вставляем вот такой код:





var accToc=true;

и будьте внимательны: в коде из таблицы мое доменное имя rsolovyov нужно заменить на Ваше!


Ну а теперь, когда мы создали карты сайта и для роботов, и для читателей, то нужно дать знать об этом поисковикам. В первую очередь нужно сообщить поисковому роботу о том, что ему индексировать, через информацию в файле robots.txt Но как быть, ведь создать и загрузить по FTP такой файл невозможно — домен 3-го уровня и платформа бесплатная. Но Google решил и эту задачу!

Заходим в админке блога в НАСТРОЙКИ => Настройки Поиска => и включаем «Пользовательский файл robots.txt»


Внимание! Некорректное использование этих функций может привести к тому, что ваш блог не будет индексироваться поисковыми системами.

Затем вам нужно прописать, что именно вы хотите разрешить или запретить для индексации.

И тут я хочу сделать небольшое, так сказать лирическое отступление. Практически все авторы блогов на этой платформе не вносили сюда никаких изменений! А зря! Вот что обычно стоит по умолчанию в этом месте:

User-agent: Mediapartners-Google Disallow: User-agent: * Disallow: /search Allow: / Sitemap: http://rsolovyov.blogspot.com/feeds/posts/default?orderby=UPDATED

А вот что должно стоять после: (вот этот код вам нужно скопировать и вставить. Только опять же, замените мое rsolovyov на ваше.

User-agent: Mediapartners-Google Disallow: User-agent: * Disallow: /search Allow: / Sitemap: http://rsolovyov .blogspot.com/sitemap.xml

Ну а теперь, надо сообщить о том, что у вас теперь на блоге есть и карты сайта, и файл robots.txt основным инструментам для веб мастеров: в Яндексе, в Google, в Bing, в Mail.ru и пожалуй, это может быть темой следующего, отдельного, поста.

Файл Robots.txt в блоге Blogger играет жизненно важную роль в поисковой оптимизации (SEO). Этот файл, несомненно, приведет к улучшению поисковой оптимизации вашего блога, если его составить надлежащим образом.

Robots.txt можно настроить в новом интерфейсе Blogger. Многие блоггеры используют файл Robots.txt, чтобы скрыть некоторые части своих блогов от поисковых роботов.

Файл Robots.txt сообщает поисковому боту, какие части блога должны быть доступны или заблокированы для индексации. Всякий раз, когда робот сканирует Ваш блог, то первым делом проверяет файл Robots.txt и следуют всем инструкциям, которые даны в этом файле.

Войдите в Blogger и перейдите в раздел Настройки >> Настройки поиска .

В подразделе Поисковые роботы и индексация найдите опцию Пользовательский файл robots.txt и нажмите Изменить .

Нажмите кнопку Да , и у Вас появится окно как на картинке ниже

Теперь скопируйте следующий ниже код и вставьте его в поле:

User-agent: Mediapartners-Google Disallow: User-agent: * Disallow: /search Allow: / Sitemap:http://сайт /feeds/posts/default?orderby=UPDATED
Замените адрес моего блога (выделен красным цветом) на адрес Вашего блога.

Изучим некоторые части файла Robots.txt User-agent: * Disallow: /
Директива User-agent: Mediapartners-Google определяет доступ поискового робота Google, а User-agent: * всех поисковых роботов (Google, Yahoo, Bing, Yandex и др.).

Директива Disallow: / запрещает поисковым роботам сканировать какие-либо конкретные страницы или каталоги, существующие на Вашем блоге. Например, код ниже запрещает доступ поисковым роботам к странице images.html

User-agent: * Disallow: /images.html
Подробно об использовании файла Robots.txt можно почитать

Здравствуйте, мои дорогие читатели. Последнее время все чаще у меня спрашивают про инструменты для вебмастеров Google и Яндекс, а именно про файл robots.txt, про запрещенные к индексации страницы или заблокированные страницы в файле robots.txt.

Странно получается, сначала мы ищем информацию о том, как , выполняем все рекомендации, а потом только начинаем задавать вопросы, почему у меня заблокированы страницы и как их разблокировать.
Поэтому я и решила рассмотреть оптимизацию блогов Blogger/Blogspot с точки зрения файла robots.txt. Начну по порядку, с того, что вообще такое файл robots.txt.

Файл robots.txt – по сути это обычный текстовый файл, который находится в корневой папке сайтов.

http://site.ru/robots.txt

Файл обычный, а вот содержание этого файла очень важное. Файл robots.txt был задуман для того, чтобы управлять индексацией сайта. Указывать поисковому роботу, что можно индексировать, а что нельзя.

Естественно, возникает вопрос, а зачем вообще что-то запрещать, пусть робот индексирует все.

Первая и самая очевидная ситуация. С развитием интернета все больше сайтов поддерживают регистрацию и личные кабинеты пользователей с такой информацией, с которой сами пользователи не захотели бы делиться. Так же, к этой ситуации можно отнести и такие, когда на сайте есть разделы доступные для всех пользователей, и разделы, доступные только для зарегистрированных пользователей. Думаю, с этим понятно. И такое содержание специально запрещается к индексации.

Но есть и другая ситуация, которую мы рассмотрим более подробно.

Все современные сайты являются динамическими. Многие пользователи наивно полагают, что динамический сайт, это тот, на котором бегающие строчки, картинки сами сменяют друг друга и т.п. и то, что называют флеш-сайт. На самом деле, динамический сайт к этому не имеет никакого отношения. И слово динамика возникла совсем по другой причине.

Я не являюсь профессионалом, поэтому могу где-то употребить не совсем точные формулировки, но надеюсь, мне удастся передать вам суть. Представьте себе интернет-магазин. На сайте есть форма поиска товара по разным критериям. На один и тот же товар можно попасть употребив разные фильтры. Например, фильтр по производителям может привести к товару, который так же можно выбрать, применив фильтр по цене и габаритам. Использование различных фильтров создает в URL страницы разный путь до товара. И один и тот же товар может находиться на 2-3-4-х разных URL.

Вот тут начинается путаница, а какая из всех этих страниц является правильной и самой важной? Какую страницу показывать в результатах поиска? Вот тут и приходит на выручку такой файл, как robots.txt. В котором указано, что все URL, которые возникли в результате применения фильтров, индексировать нельзя.

Отличительной особенностью всех URL, которые сформировались в процессе выбора товаров, является присутствие специальных символов или слов. Вернемся к нашим блогам. Я предлагаю вам разобрать один частный случай. Этот случай не частый, но и не редкий, особенно, на начальном этапе ведения блогов, когда мы ещё не все понимаем. Прошу отнестись к этому случаю, как к виртуальному примеру, т.е. совершенно не обязательно, что такое может быть у вас, но при этом отнестись со всей серьезностью, потому что такие случаи все же не редкость.
Условие

  • Вы показываете полный текст статьи на главной, не пряча часть статьи под кат.
  • Этой статье вы присвоили ярлык, по которому у вас ещё нет других статей, кроме этой.
  • Зайдем на нашу воображаемую статью, она имеет адрес

    http://мой_блог/дата/моя_статья

    Помните, вы присвоили этой статье ярлык, которого ещё нет ни у одной статьи. Вы только что решили придумать писать на эту тему, и других статей на эту тему у вас нет. Зайдем на страницу этого ярлыка. Он имеет URL

    http://мой_блог/search/label/название_ярлыка

    И что мы видим. На этой странице наша статья, в полном варианте, т.к. мы не прячем ее под кат, и других статей у нас вообще нет.

    В итоге получается, одна и та же статья присутствует сразу по двум разным адресам. Какая из этих двух страниц является правильной? Какая важнее? Поисковый робот не может определить разницу между этими страницами и считает их практически одинаковыми.

    Вот к такому содержанию поисковые роботы относятся очень негативно. И даже, когда мы начинаем прятать статьи под кат, и даже, когда у нас по ярлыку находится несколько статей, поисковой системе не нравится, что у нас вообще складываются такие страницы. Такая ситуация носит название – дублирование контента.

    Поэтому, чтобы поисковые системы не ругались, чтобы лучше ранжировали наш блог, в файле robots.txt стоит запись:

    User-agent: *
    Disallow: /search

    Которая означает, что любые роботы всех поисковых систем не должны индексировать страницы, которые имеют в себе директиву /search. Это сделано для нашего блага разработчиками платформы. И обнаружив в инструментах предупреждение, что какие-то страницы заблокированы (запрещены) файлом robots.txt, не нужно впадать в панику и переживать, что на вашем сайте что-то не индексируется.

    Похожая ситуация складывается и с архивами. Например, у вас на главной странице блога отображается 10 статей. Адрес главной страницы

    Итак, получается, что все эти 10 статей написаны в ноябре. Многие используют виджет Архив. Выберем в архиве Ноябрь, мы увидим все те же 10 статей, которые сейчас находятся на главной странице блога, но в адресной строке браузера мы видим совершенно другой URL

    http://мой_блог/2010_11_01_archive.html

    Одно и тоже содержание по разным адресам. Вот такие страницы архива мы намеренно запрещаем к индексации через мета-теги.
    Нечто подобное складывается из-за стандартного листинга страниц блога не по отдельным статьям, а когда можно листать главную страницу. В результате листания главной страницы образуются адреса вида

    http://мой_блог/search?updated-max=2010-06-17T16%3A17%3A00%2B03%3A00&max-results=7

    Казалось бы, в URL этой страницы содержится директива /search, но я обратила внимание, что Google постоянно индексирует эти страницы. Именно поэтому у меня нет листинга по страницам.

    Я его просто удалила, чтобы не складывалось таких страниц. При этом все, которые попадаются в поиске, я удаляю вручную в инструментах веб-мастера на вкладке Конфигурация сайта – Доступ для сканера – Удалить URL.

    Часто в индекс Google (в Яндекс я с таким не сталкивалась) попадают и страницы Ярлыков, которые запрещены файлом robots.txt. Все такие URL я так же удаляю в инструментах вебмастера Google.

    UPD от 14.05.2015 Раньше было огромной проблемой отсутствие возможности редактировать файл robots.txt. Сейчас разработчики Blogger такую возможность предоставили. Подробнее о файле robots.txt для Blogger вы можете прочитать в статье

    Вот такое сообщение я получила, когда решила посмотреть как работает мой Google Ad Sense:


    Как происходит индексация страниц?
    В корневой директории есть файл robots.txt, а в нем инструкции для поисковых роботов.
    По этим инструкциям и осуществляется индексация страниц сайта.
    Поэтому если с индексацией, что то не так нужно срочно редактировать файл robots.txt

    Как это сделать и где эта самая корневая директория?
    Например если URL моего сайта http://www.poliushka.blogspot.ru/, то URL файла robots.txt
    будет http://www.poliushka.blogspot.ru/robots.txt

    Или, а это намного проще, нужно зайти в настройки блога. Вот так это выглядело у меня в блоге.


    Настройки поиска.
    Вот сюда то нам и надо. В этом месте и нужно указать поисковым роботам Где и Что нужно искать на вашем блоге.
    И здесь же находится файл robots.txt (в этой рамочке- это я так поняла. Другого места вы все равно не найдете).

    А теперь немного теории и терминов.
    User-agent - это клиентский идентификатор, который используется поисковыми системами и браузерами.
    User-agent: * - звездочка рядом с User-agent означает "любой юзер-агент".
    disallow - не позволять индексировать
    allow - позволить индексировать
    Mediapartners-Google - юзерагент поискового робота Adsense
    / - корень сайта
    Sitemap - xml карта (перечень главных ссылок на сайте в "сыром" виде)

    То есть в правильном robots.txt у Blogger"а:

    • должно быть разрешено все для робота контекстной рекламы;
    • всем агентам ставится запрет на search в блоге(он запрещен к индексации, в противном случае плодятся дубли в кеше);
    • должно быть разрешено индексировать весь блог.
    Короче всегда проверяйте состояние своего robots.txt

    На сайте может быть только один файл «/robots.txt».
    В файле robots.txt пишут, например:

    User-agent: *
    Disallow: /search
    Disallow: /p/search.html
    Disallow: /tags/

    Значит здесь запрещена индексация 3-х директорий.
    Обратите внимание каждая директория указана на отдельной строке и расположена в столбик.

    Вы можете:

    запретить индексацию всего сайта роботами для этого нужно поставить / (слеш) после слова Disallow
    User-agent: *
    Disallow: /

    разрешить индексацию сайта роботами и для этого нужно всего навсего убрать этот самый слеш
    User-agent: *
    Disallow:
    Или просто создать пустой файл «/robots.txt».

    разрешить индексацию сайта одному роботу и запретить остальным
    User-agent: Yandex - вместо звездочки указали конкретного робота
    Disallow: -слеш надо убрать

    User-agent: * - запрещена индексация всем остальным роботам
    Disallow: /


    Ну а теперь к практике. Открываем Настройки блога и:

    Настройки-Настройки поиска-Поисковые роботы индексация - Пользовательский файл robots.txt - Изменить


    Выбрать ДА и вставить следующее:

    User-agent: Mediapartners-Google
    Disallow:

    User-agent: *
    Disallow: /search
    Disallow: /p/search.html
    Allow: /
    Sitemap: http://имя вашего сайта /feeds/posts/default?orderby=updated

    User-agent: Yandex
    Disallow: /search
    Disallow: /p/search.html
    Allow: /

    Вместо имя вашего сайта вставьте имя вашего блога. Вот вы и дали задание поисковым роботам Гугла и Яндекса.

    Но обратите внимание!

    Задание для робота вставляем в рамочку именно в таком виде - в столбик, а не в одну строчку.

    Давайте заодно по работаем и с ними.