Главная

Проверка на дубли - поиск дублей страниц сайта с помощью Google

Как найти дубли страниц на сайте и убрать их из индекса (запретив найденное в robotx.txt) - частый вопрос, которым задаются после того, как понимают, что наличие дублей ведёт к штрафным санкциям от поисковиков - от понижения в выдаче (в качестве "наказания за не оригинальность") до совсем "суровых" вещей, например,  АГС от Яндекса.

Запрещаем дубли в гуглоадминке

Для этого, как видно на картинке, заходим в "Настройки" - "Обработка параметров" и напротив найденных Гуглём параметров, которые вы считаете дублями в колонке "Действие" ставим "Пропустить". Если не знаете или не уверены (точно ли параметр используется движком сайта или это именно "зловредный дубликат") - выбираем "На усмотрение Google".

Однако нужно учесть, что отметив в данном разделе страницы с такими "дубликатными" параметрами, вы их запретите лишь для Google и то, достаточно условно. Потому, чтобы "уж точно убить", нужно прописать данные параметры в роботах. /* В качестве примера - мой robots.txt (друпал). */

Проверка на дубли с помощью основного индекса Google

Есть простая хитрая команда, которамя поможет найти дубли:

site:noindex.by/& -site:noindex.by/*

Update:  Некоторо время назад данная комбинаци перестала работать, используйте аналог:

site:noindex.by/& -site:/noindex.by

Не все страницы будут дублями по ней, но многие - вполне. Особенно хорошо показывает дубли главной страницы, просто полистайте все найденные и присмотритесь к ссылкам. Например, у меня она помогла найти вражеские дубли, которые находились в индексе (даже в основном индексе Google, который /&), сделанные каким-то врагом, добавившим к адресам бессмысленные многоциферные параметры:

Поиск дублей страниц с помощью основного индекса Google

В частности, последняя страница - строгий дубль морды, который находясь в индексе ни разу не добавляет "веса" "настоящей" главной странице...

Нужно ещё раз отметить, что этот способ не поможет выявить все дубли и наиболее удачно показывает дубли главной, однако, во-первых, и это уже само по себе важно (ведь "главная" - она и есть главная), во-вторых, увидев проблемы, можно их устранить и для всех других сайта, прописав универсальные правила в robots.txt.

 

п.с. Видео по теме использования канонических линков (rel="canonical") в борьбе с дублями. Это не в плане поиска, а в качестве профилактики, т.е. уже после нахождения дубликатов - предотвращение их последующего появления.

Сталкивался и я с таким врагом правда не только у себя, а и у других блоггеров.

 

Читающим в сей момент данную статью:

Предупреждение: команды с "-site:noindex.by/*" нонче (пока) не работают. Можно (нужно) использовать "заменитель" в виде "-site:/noindex.by" .
Гугль захворал.  Ждём-с.

 

И вправду болеет(?) Семь дней уже пищу новые файлы не кушает не индексирует.

 

Я поле после хитрой командной проверки в гугл проверил и оказалось что не одного дубля нет и это у меня блог на блогспот. Тут что-то не чисто...Может у меня вообще к индексации запрет?

 

Отправить комментарий

Содержание этого поля является приватным и не предназначено к показу.

Подробнее о форматировании

Image CAPTCHA
Тут буквоцифры
Яндекс.Метрика
Яндекс.Метрика




Рейтинг блогов
Подписаться на статьи NOINDEX.by
Твиттер Тутбайкиллера