Анти-АГС или боремся с дублями, часть первая - проверяем параметры URL-ов индекса

Настройка параметров URL в Google
Продолжаем оптимизировать свой сайт (на примере данного). Ранее мы уже (с)делали:
Теперь, чтобы не загреметь под АГС - проверим и настроим параметры URL-ов на сайте.

Google в помощь!

Для этого не нужны никакие "специальные" инструменты/утилиты. Сначала идём в админку Google (см.рис.) и в разделе Конфигурация сайта -> Настройки -> Обработка параметров - раскрываем подменюшку "Отрегулировать настройки параметров".
В случае данного сайта (и на данный момент) Google нашёл следующие параметры на страницах сайта:
Обнаруженные параметры: page utm_campaign utm_medium utm_source order sort 1272019644
И если параметр page - является "значимым" (при разных его значениях отдаются разные страницы многостраничных тем), то остальные от "незначимых" (как параметры сортировки), до "паразитных" (utm_ххх - взявшееся от ссылающихся RSS-приёмников) и даже "фиг знает откуда взявшихся" (1272019644 - ???).
Поэтому за исключением page все остальные командуем удалять (пропускать страницы с ними в URL-е):
Аудит сайта - обработка параметров URL
Почему? Всё просто. При таких параметрах, страницы, типа:
http://noindex.by/seo/nofollow?utm_source=123
http://noindex.by/seo/nofollow?utm_medium=345
http://noindex.by/seo/nofollow
?127201944=567
...в реальности - есть одна и та же страница http://noindex.by/seo/nofollow. Т.е. в индексе поисковика будет энное количество одинаковых страниц или по-простому - "дублей". А нонче дубли никто не любит. Точней любит - АГС...
Запретив вышеобозначенным способом данные вредоносные параметры - вспоминаем, что это запрет только для Google (точней, и это важная поправочка - настройка параметров есть лишь рекомендация для него, которую он запросто может не соблюдать), потому открываем robots.txt и прописываем вышенайденные условия и там:
Disallow: /*?utm_
Disallow: /*?sort
Disallow: /*?order
Disallow: /*?
127201944
Теперь все поисковики должны игнорировать (найденные гуглём) дубли.
В общем - не стесняемся использовать "халяву", "готовое" - уже сделанный Google общий анализ структуры URL сайта. Даже на этом относительно небольшом сайте выявились немало "непоняток", которые в реале (бы) наплодили виртуальных дублей (в индексе). Не всегда они есть результат работы используемой CMS, не редко это именно "глюки", так сказать - "чисто глючной воды". Особенно бывает кошмарно у более старых сайтов и ещё более кошмарно, когда на сайте был один движок,  а после использовался другой. Тогда старые параметры накладываются на страницы нового движка, что может дать просто гигантское количество дубляжа, в результате чего сайт попадёт под фильтр, а хозяин будет винить "кривой движок" и/или обивать пороги различных саппортов в попытке понять "За что?!?"...

Индекс в помощь!

Кроме "автоматизации гуглём" - обязательно нужно постараться "вычитать" индекс (глазами). Для этого просто внимательно просмотрите как можно больше страниц (своего сайта) в индексе поисковиков. Например, заходим в админку Яндекса -> Индексирование сайта -> Страницы в поиске и пролистываем, вглядываясь в урлы, пытаясь найти что-нибудь "эдакое" и/или "неправильное"/"нелогичное".
Вот, в частности, что обнаружилось на примере данного сайта:
Аудит сайта - страницы в поиске

Казалось бы, что тут особенно, как выше было отмечено - "вполне допустимый" параметр page. Однако вопрос: почему статья, которая (заведомо) состоит из одной страницы (больше получается, когда много комментариев к ней) - имеет такое их количество??? Ответа на этот вопрос дать нельзя, можно лишь списать на глюки Яндекса и/или возмущений на Солнце. Однако от этого не изменится главное - в индексе дубли! С ними обязательно нужно бороться. Иначе они будут бороться с вами.
Обидно, но используемый параметр page - вполне "законный" со всех сторон. Потому пока видится лишь "тупое" перечисление найденных "проблемных" стратей:
Disallow: /seo/preimushchestva-zony-by?
Disallow: /meta/najti-svoe
?
/* т.е. все (варианты замеченных "проблемных" статей с вопросами (а значит с параметрами) - удаляем из индекса. */
В данном случае (на этом сайте) - это всего пару статей. Но в случае крупных сайтов - этом могут быть совсем другие объёмы. И чтобы, опять же, не наступить на дубляжные грабли - лучше позаботиться об этом как можно скорей.

п.с. В случае сайтов на сотни тысяч страниц - тоже работает проверка индекса "глазами". По простой причине - если есть описанные в статье проблемы дубляжа из-за вражеских параметров в URL, то тогда и их объём обычно позволяет его выявить даже на таких больших сайтах. Т.е. процент, грубо говоря, примерно тот же - пролистав на угад сотню страниц - обычно достаточно верно покажет размеры проблем (если она есть).

Если вам помогла или просто понравилась статья - плюсаните/поделитесь, пожалуйста.

Комментарии

А подскажите, пожалуйста - как такое сделать с DLE-сайтами?

Спасибо очень полезно.
Автору предыдущего коммента - это идет обработка robots.txt:
  1. В ДЛЕ, в корне сайта, делаешь сам этот самый робот.ткст
  2. Ищешь по запросу у гугла robot.txt для DLE, и прописываешь. Сразу на 70-80% снизится выдача неправильных ссылок.
  3. Читаешь статью с начала и делаешь в настройках поисковика для индексирования сайта.
Для ДЛЕ погрешность ниже, за счет включения ЧПУ.
Автору спасибо.
Вы, наверное, забыли про Disallow: /index.php?*

Донен ветер как говорят немцы. Я тоже с этим столкнулся. Дело не в том, что одна страница отображается несколькими вариантами адресных строк, а в том что какой-нибудь компонентишка и модулище действительно формирует именно так адресную строку, править придется именно код, который отвечает за формирование. Нам вроде помогло, хоть работа и хлопотная.

Добавить комментарий

Подписка на Комментарии к "Анти-АГС или боремся с дублями, часть первая - проверяем параметры URL-ов индекса" Подписка на NOINDEX.by - Все комментарии