3 рабочих способа избавления от дублей и почему среди них нет robots.txt

3 рабочих способа избавления от дублей и почему среди них нет robots.txt

Про дубли и robots.txt писалось многократно. Однако нужно понимать тонкости работы этих вещей и то, как с ними работают поисковики. Если для Яндекса содержание файла robots.txt - прямое руководство к действию, то для Google это не более чем ваша рекомендация, которой он совершенно не обязан "подчиняться". В результате такое отношение "в народе" характеризуется выражением "Google забивает на роботов". И это именно так, но лишь в том, что мы (по недопониманию) ожидаем от него, предполагая (надеясь), что он будет действовать "как Яндекс".

Google и robots.txt

Итак, разберёмся, почему же Google "кладёт с аппаратом" на robots.txt. На деле всё просто, если понять, что директивы этого файла предназначены "всего лишь" для того, чтобы роботы могли его проиндексировать. Как бы "ну, да". Однако нужно учесть, что индексация в данном случае это всего лишь указание "по каким страницам шастать поисковым роботам" и что на дальнейшую судьбу попавших в индекс страниц эти роботы не несут ответственности, в том числе не могут исключить из индекса. "Да, ну?!" Именно - потому в случае Google файл robots.txt не может повлиять на страницы уже имеющиеся в индексе. Директивы robots.txt могут всего лишь не допустить попадания в индекс.

Краткое промежуточное итого: для Google robots.txt - лишь средство для предохранения от появления дублей, но никак не способ от избавления от них (ещё раз отмечу отличие в этом от поведения того же Яндекса).

Способ 1 избавления от дублей - meta noindex

Древнейший способ избавления от страниц из индекса (любого) поисковика - использование мета-тега noindex. В частности, если ваша CMS может быть настроена на добавление этого метатега к страницам, которые являются "дублями" - это действенный вариант. Правда с одной важной оговоркой:

При использовании этого способа для избавления от дублей поисковой робот должен прочитать данную страницу, потому этот адрес не должен быть запрещён в robots.txt!

Т.е. одновременное использование методов "предохранения" и "избавления" от дублей - не допустимо в данном случае.

Способ 2 избавления от дублей - redirect 301

Данный способ самый радикальный и самый действенный. Что и понятно: нет страницы - нет дубля, а значит и нет проблемы.

Другое дело, что запрограммировать редирект дублей по всему сайту с помощью r301 задача крайне сложновыполнимая, потому чаще данный способ подразумевает условно "ручное" избавление от дублей, которые "уже" попали в индекс.

Способ 3 избавления от дублей - rel canonical

Самый действенный и рекомендуемый Google способ избавления от дублей - использование canonical url. Все дубли должны иметь canonical-ссылку на свою "основную версию". Понятно, что это как и в других способах это подразумевает настройку/реализацию добавления данного параметра средствами CMS (либо отдельным модулем к ней). Кроме того, как и для первого способа, для избавления от "уже имеющихся" (в индексе Google) дублей - отсутствие запрета на индексацию в robots.txt (т.е. Disallow на эти урлы как раз стоять не должно).

п.с. В окончание нужно напомнить, что canonical url для "кроссдоменных" реализаций (когда в качестве "основной" указывается URL на другом домене/поддомене) пока (как минимум - пока) не поддерживается Яндексом (да и Google, по личному опыту, как-то "не очень" такое воспринимает). Потому лучше использовать "локальный" адрес, который, кстати, может быть как абсолютным (начинаться с "http://...") так и относительным (вида "/url").

Если вам помогла или просто понравилась статья - плюсаните/поделитесь, пожалуйста.

Комментарии

Спасибо, очень помогли.

Достаточно понятно. Ещё раз убедился, что Гугл плевал на роботс.

Гугл молодцы, они понимают, как тяжело нам, обыкновенным людям, поэтому относятся лояльнее. Спасибо за информацию, будем учиться!

А Яндекс точно следует командам в роботсе, получается дублей быть не может если правильно прописать в роботсе команды?

Яндекс — точно следует, будьте уверены, это вам не Гугл. Потому, верно, если всё правильно прописать в robots.txt — дублей в Яндексе строго не будет.

Добавить комментарий

Подписка на Комментарии к "3 рабочих способа избавления от дублей и почему среди них нет robots.txt" Подписка на NOINDEX.by - Все комментарии