3 рабочих способа избавления от дублей и почему среди них нет robots.txt

  • мая 25, 2013
  • nofollow
3 рабочих способа избавления от дублей и почему среди них нет robots.txt

Про дубли и robots.txt писалось многократно. Однако нужно понимать тонкости работы этих вещей и то, как с ними работают поисковики. Если для Яндекса содержание файла robots.txt - прямое руководство к действию, то для Google это не более чем ваша рекомендация, которой он совершенно не обязан "подчиняться". В результате такое отношение "в народе" характеризуется выражением "Google забивает на роботов". И это именно так, но лишь в том, что мы (по недопониманию) ожидаем от него, предполагая (надеясь), что он будет действовать "как Яндекс".

Google и robots.txt

Итак, разберёмся, почему же Google "кладёт с аппаратом" на robots.txt. На деле всё просто, если понять, что директивы этого файла предназначены "всего лишь" для того, чтобы роботы могли его проиндексировать. Как бы "ну, да". Однако нужно учесть, что индексация в данном случае это всего лишь указание "по каким страницам шастать поисковым роботам" и что на дальнейшую судьбу попавших в индекс страниц эти роботы не несут ответственности, в том числе не могут исключить из индекса. "Да, ну?!" Именно - потому в случае Google файл robots.txt не может повлиять на страницы уже имеющиеся в индексе. Директивы robots.txt могут всего лишь не допустить попадания в индекс.

Краткое промежуточное итого: для Google robots.txt - лишь средство для предохранения от появления дублей, но никак не способ от избавления от них (ещё раз отмечу отличие в этом от поведения того же Яндекса).

Способ 1 избавления от дублей - meta noindex

Древнейший способ избавления от страниц из индекса (любого) поисковика - использование мета-тега noindex. В частности, если ваша CMS может быть настроена на добавление этого метатега к страницам, которые являются "дублями" - это действенный вариант. Правда с одной важной оговоркой:

При использовании этого способа для избавления от дублей поисковой робот должен прочитать данную страницу, потому этот адрес не должен быть запрещён в robots.txt!

Т.е. одновременное использование методов "предохранения" и "избавления" от дублей - не допустимо в данном случае.

Способ 2 избавления от дублей - redirect 301

Данный способ самый радикальный и самый действенный. Что и понятно: нет страницы - нет дубля, а значит и нет проблемы.

Другое дело, что запрограммировать редирект дублей по всему сайту с помощью r301 задача крайне сложновыполнимая, потому чаще данный способ подразумевает условно "ручное" избавление от дублей, которые "уже" попали в индекс.

Способ 3 избавления от дублей - rel canonical

Самый действенный и рекомендуемый Google способ избавления от дублей - использование canonical url. Все дубли должны иметь canonical-ссылку на свою "основную версию". Понятно, что это как и в других способах это подразумевает настройку/реализацию добавления данного параметра средствами CMS (либо отдельным модулем к ней). Кроме того, как и для первого способа, для избавления от "уже имеющихся" (в индексе Google) дублей - отсутствие запрета на индексацию в robots.txt (т.е. Disallow на эти урлы как раз стоять не должно).

п.с. В окончание нужно напомнить, что canonical url для "кроссдоменных" реализаций (когда в качестве "основной" указывается URL на другом домене/поддомене) пока (как минимум - пока) не поддерживается Яндексом (да и Google, по личному опыту, как-то "не очень" такое воспринимает). Потому лучше использовать "локальный" адрес, который, кстати, может быть как абсолютным (начинаться с "http://...") так и относительным (вида "/url").

Комментарии

Спасибо, очень помогли.

Достаточно понятно. Ещё раз убедился, что Гугл плевал на роботс.

Да, если роботс.тхт будет написан неправильно, то можно и не надеяться на нормальную индексацию сайта. Статья очень полезная, спасибо автору.

Гугл молодцы, они понимают, как тяжело нам, обыкновенным людям, поэтому относятся лояльнее. Спасибо за информацию, будем учиться!

А Яндекс точно следует командам в роботсе, получается дублей быть не может если правильно прописать в роботсе команды?

Яндекс — точно следует, будьте уверены, это вам не Гугл. Потому, верно, если всё правильно прописать в robots.txt — дублей в Яндексе строго не будет.

Добавить комментарий