Про дубли и robots.txt писалось многократно. Однако нужно понимать тонкости работы этих вещей и то, как с ними работают поисковики. Если для Яндекса содержание файла robots.txt - прямое руководство к действию, то для Google это не более чем ваша рекомендация, которой он совершенно не обязан "подчиняться". В результате такое отношение "в народе" характеризуется выражением "Google забивает на роботов". И это именно так, но лишь в том, что мы (по недопониманию) ожидаем от него, предполагая (надеясь), что он будет действовать "как Яндекс".
Google и robots.txt
Итак, разберёмся, почему же Google "кладёт с аппаратом" на robots.txt. На деле всё просто, если понять, что директивы этого файла предназначены "всего лишь" для того, чтобы роботы могли его проиндексировать. Как бы "ну, да". Однако нужно учесть, что индексация в данном случае это всего лишь указание "по каким страницам шастать поисковым роботам" и что на дальнейшую судьбу попавших в индекс страниц эти роботы не несут ответственности, в том числе не могут исключить из индекса. "Да, ну?!" Именно - потому в случае Google файл robots.txt не может повлиять на страницы уже имеющиеся в индексе. Директивы robots.txt могут всего лишь не допустить попадания в индекс.
Краткое промежуточное итого: для Google robots.txt - лишь средство для предохранения от появления дублей, но никак не способ от избавления от них (ещё раз отмечу отличие в этом от поведения того же Яндекса).
Способ 1 избавления от дублей - meta noindex
Древнейший способ избавления от страниц из индекса (любого) поисковика - использование мета-тега noindex. В частности, если ваша CMS может быть настроена на добавление этого метатега к страницам, которые являются "дублями" - это действенный вариант. Правда с одной важной оговоркой:
При использовании этого способа для избавления от дублей поисковой робот должен прочитать данную страницу, потому этот адрес не должен быть запрещён в robots.txt!
Т.е. одновременное использование методов "предохранения" и "избавления" от дублей - не допустимо в данном случае.
Способ 2 избавления от дублей - redirect 301
Данный способ самый радикальный и самый действенный. Что и понятно: нет страницы - нет дубля, а значит и нет проблемы.
Другое дело, что запрограммировать редирект дублей по всему сайту с помощью r301 задача крайне сложновыполнимая, потому чаще данный способ подразумевает условно "ручное" избавление от дублей, которые "уже" попали в индекс.
Способ 3 избавления от дублей - rel canonical
Самый действенный и рекомендуемый Google способ избавления от дублей - использование canonical url. Все дубли должны иметь canonical-ссылку на свою "основную версию". Понятно, что это как и в других способах это подразумевает настройку/реализацию добавления данного параметра средствами CMS (либо отдельным модулем к ней). Кроме того, как и для первого способа, для избавления от "уже имеющихся" (в индексе Google) дублей - отсутствие запрета на индексацию в robots.txt (т.е. Disallow на эти урлы как раз стоять не должно).
п.с. В окончание нужно напомнить, что canonical url для "кроссдоменных" реализаций (когда в качестве "основной" указывается URL на другом домене/поддомене) пока (как минимум - пока) не поддерживается Яндексом (да и Google, по личному опыту, как-то "не очень" такое воспринимает). Потому лучше использовать "локальный" адрес, который, кстати, может быть как абсолютным (начинаться с "http://...") так и относительным (вида "/url").
Комментарии
Maxim
13:15 28.05.2013
Постоянная ссылка (Permalink)
Спасибо очень помогли.
Спасибо, очень помогли.
Аlex
12:21 11.06.2013
Постоянная ссылка (Permalink)
Достаточно понятно. Ещё раз
Достаточно понятно. Ещё раз убедился, что Гугл плевал на роботс.
Nurlan
20:10 13.06.2013
Постоянная ссылка (Permalink)
да если робот текст будет
Да, если роботс.тхт будет написан неправильно, то можно и не надеяться на нормальную индексацию сайта. Статья очень полезная, спасибо автору.
Onda
23:33 31.07.2013
Постоянная ссылка (Permalink)
Гугл молодцы, они понимают,
Гугл молодцы, они понимают, как тяжело нам, обыкновенным людям, поэтому относятся лояльнее. Спасибо за информацию, будем учиться!
LikeBody
00:18 26.10.2014
Постоянная ссылка (Permalink)
А яндекс точно следует
А Яндекс точно следует командам в роботсе, получается дублей быть не может если правильно прописать в роботсе команды?
Administrator
16:36 27.10.2014
Постоянная ссылка (Permalink)
Яндекс — точно следует,
Яндекс — точно следует, будьте уверены, это вам не Гугл. Потому, верно, если всё правильно прописать в robots.txt — дублей в Яндексе строго не будет.
Добавить комментарий