Опубликовано nofollow в 01:09 21.05.2010
Продолжаем оптимизировать свой сайт (на примере данного). Ранее мы уже (с)делали:
В случае данного сайта (и на данный момент) Google нашёл следующие параметры на страницах сайта:
Поэтому за исключением page все остальные командуем удалять (пропускать страницы с ними в URL-е):

Почему? Всё просто. При таких параметрах, страницы, типа:
Запретив вышеобозначенным способом данные вредоносные параметры - вспоминаем, что это запрет только для Google (точней, и это важная поправочка - настройка параметров есть лишь рекомендация для него, которую он запросто может не соблюдать), потому открываем robots.txt и прописываем вышенайденные условия и там:
В общем - не стесняемся использовать "халяву", "готовое" - уже сделанный Google общий анализ структуры URL сайта. Даже на этом относительно небольшом сайте выявились немало "непоняток", которые в реале (бы) наплодили виртуальных дублей (в индексе). Не всегда они есть результат работы используемой CMS, не редко это именно "глюки", так сказать - "чисто глючной воды". Особенно бывает кошмарно у более старых сайтов и ещё более кошмарно, когда на сайте был один движок, а после использовался другой. Тогда старые параметры накладываются на страницы нового движка, что может дать просто гигантское количество дубляжа, в результате чего сайт попадёт под фильтр, а хозяин будет винить "кривой движок" и/или обивать пороги различных саппортов в попытке понять "За что?!?"...
Вот, в частности, что обнаружилось на примере данного сайта:

Казалось бы, что тут особенно, как выше было отмечено - "вполне допустимый" параметр page. Однако вопрос: почему статья, которая (заведомо) состоит из одной страницы (больше получается, когда много комментариев к ней) - имеет такое их количество??? Ответа на этот вопрос дать нельзя, можно лишь списать на глюки Яндекса и/или возмущений на Солнце. Однако от этого не изменится главное - в индексе дубли! С ними обязательно нужно бороться. Иначе они будут бороться с вами.
Обидно, но используемый параметр page - вполне "законный" со всех сторон. Потому пока видится лишь "тупое" перечисление найденных "проблемных" стратей:
В данном случае (на этом сайте) - это всего пару статей. Но в случае крупных сайтов - этом могут быть совсем другие объёмы. И чтобы, опять же, не наступить на дубляжные грабли - лучше позаботиться об этом как можно скорей.
п.с. В случае сайтов на сотни тысяч страниц - тоже работает проверка индекса "глазами". По простой причине - если есть описанные в статье проблемы дубляжа из-за вражеских параметров в URL, то тогда и их объём обычно позволяет его выявить даже на таких больших сайтах. Т.е. процент, грубо говоря, примерно тот же - пролистав на угад сотню страниц - обычно достаточно верно покажет размеры проблем (если она есть).
- Поставили на сайт "правильные счётчики"
- Переделали настройки дат и шаблон для того, чтобы (самые частотные) ключевые слова были адекватны тематике сайта
- Правильно оформили статьи на сайте - постарались к каждой добавить картинку и использовали ссылки на другие материалы на сайте (задействовали внутреннюю перелинковку)
- Кроме того, используемые картинки - сделали уникальными
- Чтобы не будить в посетителях зверей - использовали лишь "не вызывающие раздражение" реферальные ссылки
- Озаботились скоростью загрузки страниц сайта, чтобы и приятней (всем) было и не упасть в "глазах" Google
- Раз и навсегда решили, какой вариант использовать в написании домена - с WWW или без WWW
Google в помощь!
Для этого не нужны никакие "специальные" инструменты/утилиты. Сначала идём в админку Google (см.рис.) и в разделе Конфигурация сайта -> Настройки -> Обработка параметров - раскрываем подменюшку "Отрегулировать настройки параметров".В случае данного сайта (и на данный момент) Google нашёл следующие параметры на страницах сайта:
И если параметр page - является "значимым" (при разных его значениях отдаются разные страницы многостраничных тем), то остальные от "незначимых" (как параметры сортировки), до "паразитных" (utm_ххх - взявшееся от ссылающихся RSS-приёмников) и даже "фиг знает откуда взявшихся" (1272019644 - ???).Обнаруженные параметры: page utm_campaign utm_medium utm_source order sort 1272019644
Поэтому за исключением page все остальные командуем удалять (пропускать страницы с ними в URL-е):

Почему? Всё просто. При таких параметрах, страницы, типа:
http://noindex.by/seo/nofollow?utm_source=123
http://noindex.by/seo/nofollow?utm_medium=345
http://noindex.by/seo/nofollow?127201944=567
...в реальности - есть одна и та же страница http://noindex.by/seo/nofollow. Т.е. в индексе поисковика будет энное количество одинаковых страниц или по-простому - "дублей". А нонче дубли никто не любит. Точней любит - АГС...http://noindex.by/seo/nofollow?utm_medium=345
http://noindex.by/seo/nofollow?127201944=567
Запретив вышеобозначенным способом данные вредоносные параметры - вспоминаем, что это запрет только для Google (точней, и это важная поправочка - настройка параметров есть лишь рекомендация для него, которую он запросто может не соблюдать), потому открываем robots.txt и прописываем вышенайденные условия и там:
Теперь все поисковики должны игнорировать (найденные гуглём) дубли.Disallow: /*?utm_
Disallow: /*?sort
Disallow: /*?order
Disallow: /*?127201944
В общем - не стесняемся использовать "халяву", "готовое" - уже сделанный Google общий анализ структуры URL сайта. Даже на этом относительно небольшом сайте выявились немало "непоняток", которые в реале (бы) наплодили виртуальных дублей (в индексе). Не всегда они есть результат работы используемой CMS, не редко это именно "глюки", так сказать - "чисто глючной воды". Особенно бывает кошмарно у более старых сайтов и ещё более кошмарно, когда на сайте был один движок, а после использовался другой. Тогда старые параметры накладываются на страницы нового движка, что может дать просто гигантское количество дубляжа, в результате чего сайт попадёт под фильтр, а хозяин будет винить "кривой движок" и/или обивать пороги различных саппортов в попытке понять "За что?!?"...
Индекс в помощь!
Кроме "автоматизации гуглём" - обязательно нужно постараться "вычитать" индекс (глазами). Для этого просто внимательно просмотрите как можно больше страниц (своего сайта) в индексе поисковиков. Например, заходим в админку Яндекса -> Индексирование сайта -> Страницы в поиске и пролистываем, вглядываясь в урлы, пытаясь найти что-нибудь "эдакое" и/или "неправильное"/"нелогичное".Вот, в частности, что обнаружилось на примере данного сайта:

Казалось бы, что тут особенно, как выше было отмечено - "вполне допустимый" параметр page. Однако вопрос: почему статья, которая (заведомо) состоит из одной страницы (больше получается, когда много комментариев к ней) - имеет такое их количество??? Ответа на этот вопрос дать нельзя, можно лишь списать на глюки Яндекса и/или возмущений на Солнце. Однако от этого не изменится главное - в индексе дубли! С ними обязательно нужно бороться. Иначе они будут бороться с вами.
Обидно, но используемый параметр page - вполне "законный" со всех сторон. Потому пока видится лишь "тупое" перечисление найденных "проблемных" стратей:
/* т.е. все (варианты замеченных "проблемных" статей с вопросами (а значит с параметрами) - удаляем из индекса. */Disallow: /seo/preimushchestva-zony-by?
Disallow: /meta/najti-svoe?
В данном случае (на этом сайте) - это всего пару статей. Но в случае крупных сайтов - этом могут быть совсем другие объёмы. И чтобы, опять же, не наступить на дубляжные грабли - лучше позаботиться об этом как можно скорей.
п.с. В случае сайтов на сотни тысяч страниц - тоже работает проверка индекса "глазами". По простой причине - если есть описанные в статье проблемы дубляжа из-за вражеских параметров в URL, то тогда и их объём обычно позволяет его выявить даже на таких больших сайтах. Т.е. процент, грубо говоря, примерно тот же - пролистав на угад сотню страниц - обычно достаточно верно покажет размеры проблем (если она есть).
»
- 4952 просмотра


А подскажите, пожалуйста - как такое сделать с DLE-сайтами?
Автору предыдущего коммента - это идет обработка robots.txt:
- В ДЛЕ, в корне сайта, делаешь сам этот самый робот.ткст
- Ищешь по запросу у гугла robot.txt для DLE, и прописываешь. Сразу на 70-80% снизится выдача неправильных ссылок.
- Читаешь статью с начала и делаешь в настройках поисковика для индексирования сайта.
Для ДЛЕ погрешность ниже, за счет включения ЧПУ.Автору спасибо.
Отправить комментарий