Дубли в Гугле из-за комментариев

Дубли страниц в Google могут быть и "из-за комментариев", как видно на картинке. Для того, чтобы увидеть подобные проблемы - заглядывайте в гуглоадминку в раздел "Диагностика"-"Предложения HTML" и прошерстить "Повторяющиеся заголовки (теги title)".

Например, вот сейчас у меня была такая картина:

Дубли страниц в гуглоадминке

Видно, что хэш-страницы комментариев "превратились" (по не вполне понятным причинам - глюки Google) в "полноценные" страницы (путём замены хэшевого # на %23), т.е. стали дублями.

Потому для борьбы с подобным явлением стоит запретить все такие гуглоглюки путём добавления в robots.txt:

Disallow: /*%23comment

 

п.с. Данный способ актуален для любой CMS (а не только Drupal, как в случае данного сайта).

Комментарии

Спасибо. Ещё одна директива robots.txt по отлову дублей в копилку добавлена.

Я пользуюсь WP, может, читателям будет интересно, какие проблемы я у себя находил. Примеры для структуры без ЧПУ. Пара дублей: "?p=24&cpage=1" и "?p=24".

Дополнительный параметр - comment page. Вызывал недоумение какое-то время: я не мог понять, где ПС находит такую ссылку, ведь я не использую страницы комментариев. Потом нашёл - в RSS есть такие ссылки. Использую директиву

Disallow: /*cpage

Следующий глюк: "?subscribe-page&srp=500&sra=s" - такую ссылку создаёт плагин подписки на комментарии. Лечу так:

Disallow: /*subscribe

Ещё: "?p=1562&utm_source=twitterfeed&utm_medium=twitter" и "?feed=rss2&p=3641" - лечу в общем случае так:

Disallow: /*feed

Да и "Disallow: /*trackback" мне тоже в выдаче видеть незачем.

Напоминаю, что это для структуры без ЧПУ. Если так отфильтровать сайт на ЧПУ, то из индекса вылетят посты, содержащие в URL слова: cpage, subscribe, feed, trackback - если такие имеются.

Кстати, недавно заметил в инструментах вебмастера Google, что он позволяет указать те параметры в ссылках, страницы с которыми не надо индексировать. Например, можно указать параметры сортировки. Или как в моём случае: subscribe-page, cpage, feed, utm_source.

...заметил в инструментах вебмастера Google, что он позволяет указать те параметры в ссылках, страницы с которыми не надо индексировать...

Ага и ещё раз ага.

Я, вот, поразмышлял и пришел к выводу, что если ссылка имеет вид: "/dsfsdfs/#hash", то всё в поряде. И даже если такой: "/dsfsdfs.html#hash" - тоже всё в поряде. А вот все остальные, как у вас - делают палево!

Я тоже замечал такой прикол в индексации Гугла. В результате у меня выходило в 2-3 раза больше проиндексировано страниц, чем есть на самом деле.

Добавить комментарий