Статус индексирования - Инструменты для веб-мастеров Google

Статус индексирования

Весьма полезное обновление произошло недавно в админке Google - в разделе "Состояние" появился подраздел "Статус индексирования", показывающий историю индексации сайта за последний год ("глазами" гуглороботов).

Проиндексировано всего

Данное значение как раз и отображается в поиске при использовании site: или близко к тому. Как особенно хорошо видно из представленного графика данного сайта, это значение "весьма условно", что лишь дополнительно отражает известную (может не всем) истину, что "количество в индексе - не главное".

Просканировано за все время

Все страницы, которые когда-то находил Google. Значение может быть негуманно большим (на порядки больше "нормальных" значений), радоваться этому не стоит, а, скорей, даже наоборот, т.к. это наверняка обозначает, что у вас "что-то плодит дубли" или тучи страниц с "бесполезной информацией". Например, недавний скачок на графике данного сайта характеризуется ошибкой модуля views при создании ссылки на pager, который я стал использовать для вывода справа снизу youtube-видеоролика.

Не выбрано

Если коротко - дубли. Как раз те, что запросто могут стать причиной АГС. Это значение обязательно стоит учитывать (в проценте к "проиндексировано всего"). Если оно "почти равно" ему, то "стреляться не стоит" (ведь они таки фильтруются Google), но задуматься точно нужно. Наверняка у вас "что-то не так" с движком, который "плодит дубли".

Заблокировано в файле robots.txt

Самый понятный термин, хотя его влияние не столь очевидно. Например, видно, что после перехода на седьмой друпал это значение резко выросло (при чём, если верить графику - запрещено было даже больше чем просканировано:). Однако это не привело к тому, что количество проиндексированных страниц ("проиндексировано всего") упало. Дело в том, что Google будет упорно "забивать на роботы", если страница "существует", а значит сервер по урлу, который когда-то попал в индекс, не отдаёт error404. В Друпал7 это именно так (этой теме я посвящу отдельную статью), потому Гугл по-прежнему "держит в индексе" в том числе "нормально запрещённые" в robots.txt страницы.

Анализ статуса индексирования

Этому посвящу отдельные статьи, т.к. есть набор "типовых примеров". В том числе можно присылать сюда в комменты свои скриншоты - разберу и посоветую.


п.с. официальное описание статуса индексирования.

Комментарии

Пример статуса индексирования популярного сайта (15k/сутки) на самописном движке:

Видны миллионы(!) "просканированных" страниц и очень близкая к ней линия "не выбранных" (дубли). Сложно назвать подобную ситуацию "нормальной", хоть и Гугл справляется - "выкапывает" среди всего этого "дубляжа" нужное.
Чем плоха такая ситуация? Всё просто - скорость индексации! Ведь чтобы "обойти" весь сайт гуглороботу придётся "перекопать" всю эту кучу дублей в том числе, прежде чем найти новый контент. Не говоря уже про не нужную дополнительную нагрузку на сайт.

Пример статуса индексирования сопоставимого (в т.ч. сходная тематика) предыдущему сайту (15-20k/сутки) на движке Drupal 6:

Видны те же миллионы "просканированных" страниц, однако количество "не выбранных" при этом "стремится к нулю". Причин много - от движка, который "знает" (и хорошо) Google до использования "правильных robots.txt для Друпала". А также многочисленные рекомендации на данном сайте по избавлению от дублей - всё применялось и откатывалось на "данном примере" и он получился весьма показательным.

Пример статуса индексирования маленького (~10уников/сутки), не раз упомянутого здесь минисайтика на Друпале:

Видно "странное" превышение (почти в два раза) количества проиндексированных по сравнению с количеством "просканированных за всё время". Понятно, что такого быть не может, потому к данным сего показателя, всё же, нужно относиться с некоторым допущением.

Подскажите, а когда он начинает индексацию?? Я подтвердил права на свой сайт пару дней назад. В разделе ВБ мастера "Сканирование" все нормально,сканирует. А вот в индексации ничего. Сам Гугл говорит мол нужно время.

Что можете сказать по этому поводу?

Google обычно быстро запрягает. Потому в зависимости от вашего опыта в данной области, обычно это от двух-трёх дней до двух-трёх недель.

Добавить комментарий