Проверка на дубли - поиск дублей страниц сайта с помощью Google

Проверка на дубли - поиск дублей страниц сайта с помощью Google

Как найти дубли страниц на сайте и убрать их из индекса (запретив найденное в robotx.txt) - частый вопрос, которым задаются после того, как понимают, что наличие дублей ведёт к штрафным санкциям от поисковиков - от понижения в выдаче (в качестве "наказания за не оригинальность") до совсем "суровых" вещей, например,  АГС от Яндекса.

Запрещаем дубли в гуглоадминке

Для этого, как видно на картинке, заходим в "Настройки" - "Обработка параметров" и напротив найденных Гуглём параметров, которые вы считаете дублями в колонке "Действие" ставим "Пропустить". Если не знаете или не уверены (точно ли параметр используется движком сайта или это именно "зловредный дубликат") - выбираем "На усмотрение Google".

Однако нужно учесть, что отметив в данном разделе страницы с такими "дубликатными" параметрами, вы их запретите лишь для Google и то, достаточно условно. Потому, чтобы "уж точно убить", нужно прописать данные параметры в роботах. /* В качестве примера - мой robots.txt (друпал). */

Проверка на дубли с помощью основного индекса Google

Есть простая хитрая команда, которая поможет найти дубли:

site:noindex.by/& -site:noindex.by/*

Update:  Некоторое время назад данная комбинация перестала работать, используйте аналог:

site:noindex.by/& -site:/noindex.by

Не все страницы будут дублями по ней, но многие - вполне. Особенно хорошо показывает дубли главной страницы, просто полистайте все найденные и присмотритесь к ссылкам. Например, у меня она помогла найти вражеские дубли, которые находились в индексе (даже в основном индексе Google, который /&), сделанные каким-то врагом, добавившим к адресам бессмысленные многоциферные параметры:

Поиск дублей страниц с помощью основного индекса Google

В частности, последняя страница - строгий дубль морды, который находясь в индексе ни разу не добавляет "веса" "настоящей" главной странице...

Нужно ещё раз отметить, что этот способ не поможет выявить все дубли и наиболее удачно показывает дубли главной, однако, во-первых, и это уже само по себе важно (ведь "главная" - она и есть главная), во-вторых, увидев проблемы, можно их устранить и для всех других сайта, прописав универсальные правила в robots.txt.

п.с. Видео по теме использования канонических линков (rel="canonical") в борьбе с дублями. Это не в плане поиска, а в качестве профилактики, т.е. уже после нахождения дубликатов - предотвращение их последующего появления.

Если вам помогла или просто понравилась статья - плюсаните/поделитесь, пожалуйста.

Комментарии

Сталкивался и я с таким врагом правда не только у себя, а и у других блоггеров.

Читающим в сей момент данную статью:

Предупреждение: команды с "-site:noindex.by/*" нонче (пока) не работают. Можно (нужно) использовать "заменитель" в виде "-site:/noindex.by" .
Гугль захворал.  Ждём-с.

И вправду болеет(?) Семь дней уже пищу новые файлы не кушает не индексирует.

Я поле после хитрой командной проверки в гугл проверил и оказалось что не одного дубля нет и это у меня блог на блогспот. Тут что-то не чисто...Может у меня вообще к индексации запрет?

Есть ли такая программа, которая анализирует сайт на дубли и на ссылки?

Навскидку по-быстрому могу посоветовать бесплатную программу xenu и/или "платно-бесплатный" сервис сайтрепорт.рф.

Как вы думаете, а могут давать дубли страниц плагин link? Я вот такое заподозрила, может конечно не права. Просто адреса на сайте чпу, а перелинковку делаю через tynce и встроенный link.

Видимо речь о Joomla и редакторе tinymce (видимо, очепяточка, у вас "tynce"), в котором есть плагин No External Links (что, скорей всего, снова с очепяточкой у вас как link), преобразующим внешние ссылки во внутренние (также у этого плагина есть и другой функционал, в т.ч. различные варианты "закрытия внешних ссылок" - добавление к ним атрибута rel=nofollow или тега noindex).

Результатом работы которого, действительно, тут вы правы, будут "дублеобразные" ссылки вида:

http://noindex.by/?goto=http://www.yandex.ru/

Соответственно, чтобы не было никаких проблем, просто запретите все подобные добавлением простой директивы в robots.txt:

Disallow: /?goto=

Можно добавить сайт в Google Webmasters, там в предложениях html все проиндексированные дубли вылезут и можно легко поправить.

Хороший вариант, а есть отдельные сервисы, которые показывают список дублей конкретных страниц?

Сильно-ли влияют дубли на позицию сайта? Я неделю назад запретил дубли и сайт по некоторым ключевым фразам просел. У меня из не так много, может страниц 300. В свое время хотел сделать многоязыковой сайт, так его не перевел, и теперь по каждому языку одни статьи.

Добавить комментарий

Подписка на Комментарии к "Проверка на дубли - поиск дублей страниц сайта с помощью Google" Подписка на NOINDEX.by - Все комментарии