Индексация сайта в Яндексе, в Google и других поисковиках - тонкости проверки

Тонкости индексации сайта в Яндекс, Google, Rambler

Проверка индексации сайта в поисковиках - самая популярная операция у любого, связанного с SEO. Обычно это выполняют различные плагины типа SeoQuake, позволяющие просматривать значения индекса Яндекс/Google при загрузке текущей страницы сайта в броузере либо специальные утилиты, чаще используемые для массовой проверки индексации. В любом случае стоит знать тонкости, которые имеют различные поисковики, чтобы понимать и учитывать особенности отображаемых на экране цифирей индексации.

Индексация сайта в Яндекс

Индексацию сайта в Яндексе можно проверить следующим запросом:

serverurl=noindex.by
* добавляющаяся автоматически в конце конструкция типа &lr=213 - обозначает конкретный регион, который у вас установлен (или он определяется автоматически по IP, откуда был запрос).

При попытке аналогичного запроса, только используя домен с www:

serverurl=www.noindex.by

...получим аналогичные цифры. Дело в том, что Яндекс отображает индексацию домена с учётом его "основного написания" ("склейки" - то, что обычно указано в robots.txt с помощью директивы Host). В редких случаях эти цифры (для случаев с www и без www) отличаются - это обозначает, что домен "расклеен" (или ещё "не склеен"), т.е. пока не пришёл волшебный робот-зеркальщик, который объединяет их в один вариант.

Update: Наиболее "правильный" вариант проверки индексации в Яндексе на данный момент:

http://yandex.ru/yandsearch?text=url:noindex.by*%20|%20url:www.noindex.by*
Комментарий: запрос вводить непосредственно в адресную строку броузера, в самом поиске Яндекса не получится.

Индексация сайта в Google

Индексацию сайта в Google можно проверить следующим запросом:

site:noindex.by
* обычно тоже автоматически добавляются всякие параметры (при использовании плагинов), но можно и без них - в "чистом виде", как в данном примере.

А вот при попытке проверить аналогичный вариант, но с www (в отличие от Яндекса - для Гугля) уже получим совсем другие цифры:

site:www.noindex.by

В частности для данного сайта - это: Не найдено ни одного документа, соответствующего запросу site:www.noindex.by.

(Обозначающее, что домен/сайт абсолютно корректно "склеен" и в Яндексе и в Google.)

Дело в том, что Google показывает индексацию отдельно для обоих вариантов написания, не учитывая значение варианта отображения основного домена, что устанавливается в его админке.
Эту особенность обязательно нужно помнить и учитывать. Например, когда вы фильтруете в Sape своих акцепторов (или наоборот - отбираете потенциальных доноров для покупки ссылок), то очень часто оптимизаторы ставят ссылки не корректно - на отличный от "основного варианта написания домена". Это значит, что если по www.сайт в индексе Google будет 1-10 страниц, а "без www" - тысячи. И ссылка стоит как раз "на www". Что в свою очередь обозначает (для горе-оптимизатора), как минимум, её эффективность может быть ниже, а как максимум, при переусердствовании и некорректном robots.txt (где Яндекс не сможет корректно отловить директиву Host) - можно, вообще, "переклеить" сайт на противоположный вариант (обнаружив кучу ссылок на обратный вариант написания и отсутствии/некорректном Host  - Яндекс "может передумать").

Кроме того, нужно также учитывать, что при проверке "без www" - Google включит в индекс и сумму всех значений имеющихся поддоменов. Потому чтобы получить точное значение проиндексированных страниц в Google при наличии поддоменов - нужно сложить варианты с www + без www и вычесть из них сумму индексаций всех поддоменов, что, логично, совсем не просто и не очевидно.

Последнее (неточность значения индексации Google при наличии поддоменов) - может сильно искажать цифры, что вы получаете от утилит и сервисов (той же упомянутой массовой проверки). Потому в идеале для определения индексации сайта в Google нужно проверять сразу оба варианта - и с www и без www. Однако такой подход в два раза увеличивает объём проверки и пока я не знаю ни сервисов ни ПО, что так  умеет/делает (например, чтобы хотя бы примитивно выдавать сумму значений обоих вариантов)

Индексация сайта в Rambler

Индексацию сайта в Rambler можно проверить следующим запросом:

Update: Как и предполагалось, Рамблер лишился собственного поискового движка, потому информация о "индексации в Рамблере" в реале является "индексацией в Яндексе", лишь с некоторыми техническими особенностями. Если всё же нужно "именно Rambler", то текущий код индексации в нём будет:

http://nova.rambler.ru/search?news=0&filter=noindex.by

Возможно совсем скоро данная информация будет лишней :) (т.к. Рамблер, как известно, хочет присоединиться к судьбе Yahoo!, которого про-Bing-овали), однако всё же. Рамблер не умеет различать "основной-неосновной", потому в индексе у него "все" варианты. Это значит, что при адекватной индексации значение Rambler-индекса обычно должно быть где-то примерно в два раза больше, нежели значение индексации сайта в Yandex. Банально потому, что там будут два варианта. Его обычно нельзя сравнивать с индексацией в Google, т.к. из-за слишком уж отличающегося подхода/возможностей у Гугля это значение как правило выше (или много выше).

P.S. Абзац выше уже не актуален, см. Update.

Если вам помогла или просто понравилась статья - плюсаните/поделитесь, пожалуйста.

Комментарии

[offtopic]Статья - красивый пример сео-оптимизированного текста.[/offtopic]

С склейкой парятся те, кто переживает за правильную индексацию, поэтому наблюдаю "хороший тон", что многие биржи, которым это и не нужно- на склейку забивают. Я как-то выборочно прошелся и посмотрел кто и как у себя это сделал:
http://1-sites.info/page/skleivanie-domena-bez-www-c-www

Я вот не могу понять, есть ли значение проиндексирован сайт с www или без?

Если в качестве основного варианта отображения домена выбран вариант с ввв, то (при отсутствии поддоменов) в идеале количество проиндексированных в Google без www должно совпадать с количеством проиндексированных с www.

И наоборот, в случае выбора основного варианта без ввв, то при правильном подходе - проиндексированных с www быть не должно (запрос должен возвращать ноль).

На счет Рамблера не знала даже, спасибо! Хотя Рамблер и не так важен, конечно.

Подскажите, почему Рамблер первым проиндексировал все станицы, а потом за сутки абсолютно всё выкинул?

Рамблер - первым... Вынужден усомниться в корректности вопроса, ибо, условно говоря - "так не бывает". :)

Serverurl дает неправильное количество страниц:

http://yandex.ru/yandsearch?serverurl=bychess.com
Нашлось 1143 ответа

А в Яндекс.Вебмастере я вижу 1849 страниц.

Вот правильный запрос (подсмотрел на pr-cy.ru):

http://yandex.ru/yandsearch?text=url:bychess.com*%20|%20url:www.bychess.com*

Спасибо за поправку - верно, такой вариант учитывает специфику вечной проблемы "с www и/или без www".

Что-то не пойму, какая разница между www и без. Яндекс, к примеру, сам выберет, что ему надо.

В этом и разница - некоторые хотят сами выбирать (указывать), а не принимать то, что выберет (и укажет им) Яндекс.

Подскажите, кто знает, как в Гугле посчитать кол-во проиндексированных страниц домена НЕ учитывая страницы поддоменов?

Попробуйте site-auditor может поможет...

Добавить комментарий

Подписка на Комментарии к "Индексация сайта в Яндексе, в Google и других поисковиках - тонкости проверки" Подписка на NOINDEX.by - Все комментарии