Как найти дубли страниц на сайте и убрать их из индекса (запретив найденное в robotx.txt) - частый вопрос, которым задаются после того, как понимают, что наличие дублей ведёт к штрафным санкциям от поисковиков - от понижения в выдаче (в качестве "наказания за не оригинальность") до совсем "суровых" вещей, например, АГС от Яндекса.
Запрещаем дубли в гуглоадминке
Для этого, как видно на картинке, заходим в "Настройки" - "Обработка параметров" и напротив найденных Гуглём параметров, которые вы считаете дублями в колонке "Действие" ставим "Пропустить". Если не знаете или не уверены (точно ли параметр используется движком сайта или это именно "зловредный дубликат") - выбираем "На усмотрение Google".
Однако нужно учесть, что отметив в данном разделе страницы с такими "дубликатными" параметрами, вы их запретите лишь для Google и то, достаточно условно. Потому, чтобы "уж точно убить", нужно прописать данные параметры в роботах. /* В качестве примера - мой robots.txt (друпал). */
Проверка на дубли с помощью основного индекса Google
Есть простая хитрая команда, которамя поможет найти дубли:
Update: Некоторо время назад данная комбинаци перестала работать, используйте аналог:
Не все страницы будут дублями по ней, но многие - вполне. Особенно хорошо показывает дубли главной страницы, просто полистайте все найденные и присмотритесь к ссылкам. Например, у меня она помогла найти вражеские дубли, которые находились в индексе (даже в основном индексе Google, который /&), сделанные каким-то врагом, добавившим к адресам бессмысленные многоциферные параметры:

В частности, последняя страница - строгий дубль морды, который находясь в индексе ни разу не добавляет "веса" "настоящей" главной странице...
Нужно ещё раз отметить, что этот способ не поможет выявить все дубли и наиболее удачно показывает дубли главной, однако, во-первых, и это уже само по себе важно (ведь "главная" - она и есть главная), во-вторых, увидев проблемы, можно их устранить и для всех других сайта, прописав универсальные правила в robots.txt.
п.с. Видео по теме использования канонических линков (rel="canonical") в борьбе с дублями. Это не в плане поиска, а в качестве профилактики, т.е. уже после нахождения дубликатов - предотвращение их последующего появления.
- 3754 просмотра

Сталкивался и я с таким врагом правда не только у себя, а и у других блоггеров.
Читающим в сей момент данную статью:
Предупреждение: команды с "-site:noindex.by/*" нонче (пока) не работают. Можно (нужно) использовать "заменитель" в виде "-site:/noindex.by" .
Гугль захворал. Ждём-с.
И вправду болеет(?) Семь дней уже
пищуновые файлыне кушаетне индексирует.Я поле после хитрой командной проверки в гугл проверил и оказалось что не одного дубля нет и это у меня блог на блогспот. Тут что-то не чисто...Может у меня вообще к индексации запрет?
Отправить комментарий