Расширенный индекс Google: allinurl + site

Оператор site показывает лишь надводную часть индекса Google. А знать расширенный индекс тоже важно. Для этого используется связка из операторов allinurl и site:

allinurl:noindex.by site:noindex.by

allinurl

Оператор allinurl расширенного поиска Google предназначен для поиска документов, включающих в себя ключевые слова из фразы, следующей за оператором. Пунктуация игнорируется, т.е. вышеприведенная команда точно также отработает и для варианта allinurl:noindex-by site:noindex.by или просто allinurl:"noindex by" site:noindex.by.

Использование оператора site заставляет выдавать документы лишь принадлежащие к указываемому домену. В результате использования их связки - мы получаем расширенный индекс Google для данного домена.

Расширенный индекс Google

Чтобы не возникло путаницы, сразу оговорюсь, что под словом "индекс" я понимаю значение, отдаваемое гуглом на команду site, которая, собственно, и предназначена для этого. Команда индекс, запущенная "без параметров" (лишь с указанием домена) - это тот "привычный" индекс Google, который мы все привыкли лицезрить. Если речь идёт о индексе, получаемом с параметрами (т.е. больше, чем "просто" команда site:домен), то данный индекс уже как-то "обзывается" - основной (main), дополнительный (supplement), а для данного вполне логично использовать "расширенный индекс Google" (extended index).

Что обозначает расширенный индекс?

Он показывает количество страниц сайта в индексе Google с учётом текущей ситуации и отражает различные фильтрующие и/или запрещающие факторы, применяемые к сайту. Это могут быть и запреты в файле robots.txt, и обрабатываемые параметры (всяческие сессии и пр.) и просто фильтры, налагаемые на сайт (например, за чрезмерную торговлю ссылками). Обычно имеет тенденцию к нарастанию с периодическими резким изменениями, которые происходят перманентно для многих сайтов (т.е. централизованно). Большинство изменений вполне выраженно связано с апдейтом PR, выходом новых фич или апгрейдом движка Google. Как правило кореллирует с динамикой "обычного" индекса и, по логике, обычно больше его, за исключением случаев применения к сайту штрафных санкций или упомянутого периода изменений в самом Гугле (например, в период апдейта).

"Единичное" измерение расширенного индекса Google обычно бессмысленно, т.к. может нести слишком большую составляющую случайности. Например, как раз сегодня отмечено резкое изменение показателя расширенного индекса на крупных старых сайтах (что, опять же, кореллируется с тем, что как раз вчера Гугл натравил свою новую Панду на буржуев). Да, существует отличие поведения данного параметра для старых и новых, мелких и крупных сайтов, что и не удивительно.

Потому не стоит спрашивать "Мне allinurl+site показало столько-то - это хорошо или плохо?" Помониторьте с полгодика и тогда делайте выводы. А иначе - даже не парьтесь, это удел таких цифроманов, как я. Удачных гуглоковыряний!

Комментарии

Здравствуйте. Спасибо за серию статей. Возник вопрос, если гугл показывает страницы в дополнительном индексе, но они запрещенны в robots.txt - это нормально? Например, в соплях показывает страницы тагов. Причем директива прописана

Disallow: /tag/

В панеле вебмастера.

Ошибки сканирования
Заблокирован файлом robots.txt     135

Спасибо.

Это не нормально. С другой стороны, всё же, проверьте, нет ли ошибок "на вашей стороне". Например, правильно ли составлен файл robots.txt. Или, наоборот - точно ли этот роботс.тхт отдаётся гуглу? Не заблокирован ли, например, робот гугла? Вообще - насколько качественно работает хостинг? Такие и прочие, далеко не всегда очевидные факторы - их тоже нужно учитывать, ведь прописанное правило должно дойти до "гугломозга", только тогда уж можно "писать предъявы".

Правильней всего проверить в гуглоадминке статус роботов (менюшка "Доступ для сканера") - убедиться, что он равен 200 (успешно). Кроме того, можно напрямую ввести адрес вашдомен/tag/ в окно для проверки ("URL-адреса Укажите URL-адреса и роботов User Agent для проверки.") и при корректно настроенном robots.txt в результатах проверки гугл должен выдать директиву и её номер строки, где заблокированы тэги.

Заранее спасибо за быстрый ответ. Всё в норме:

Файл robots.txt загружен 54 мин. назад, статус 200 (Успешно).

Проверка. Заблокировано по строке 12: Disallow: /tag/

Значит, все работает и дело совсем в другом.

Могу предположить, что данные страницы попали в индекс, поскольку раньше не было запрета на индексацию в robots.txt, и теперь, после применения новых правил, Гугл никак не хочет их выплевывать. Причем прошло достаточно много времени. Примерно целый год, возможно даже больше.

По этой причине много страниц из данного списка имеют одинаковый title или открываются с ошибкой 404, что логично отправить их все в дополнительный индекс.

Не знаю, что делать. Возможно через htaccess прописать к каждой странице 301 редирект или придумать, что то вроде этого:

<?php if ( is_category('XX') || in_category('XX') ) {
         echo 'meta name="robots" content="noindex"';
      }
?>

Поскольку есть информация, что страница закрытая через метатег noindex передает PR, чем страница закрытая через robots.txt.

Спасибо.

Причем прошло достаточно много времени. Примерно целый год, возможно даже больше.

Сильно усомнюсь. Где-то ошибка. Если есть желание - можно скинуть сюда адрес пациента (публиковаться не будет), чтобы была возможность посмотреть.

Источник ******.ru.

User-agent: Yandex
Disallow: /


User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /author/
Disallow: /2008/
Disallow: /2009/
Disallow: /2010/
Disallow: /tag/
Disallow: /xmlrpc.php
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Host: ******.ru
Sitemap: http://******.ru/sitemap.xml

Судя по первому блоку можно было бы решить, что вам наплевать на Яндекс (в плане запрета на индексацию). Однако с учётом того, что в общем блоке таки прописан Host - получается, что это не так (зачем банить Яндекс и мучаться-прописывать хост). Возможно сайт влетел под АГС - слишком уж "гс-образный" вид имеет сайт на WP (без претензий на анализ контента - не читал). Т.е. я не говорю, что сайт - гс, а о том, что не удивлюсь, если Яндекс бы его таковым посчитает. Но, ладно, мы здесь, вообще-то, про Google.

Итак, по роботам можно сказать лишь про две пустые строки между блоками - не страшно, но и не нужно. Теперь, собственно, по вопросу:

site:******.ru/tag
1 result (0.06 seconds)

Лишь один результат ******.ru/tag/2009/  и тот без кэша, т.е. "условно-недобитый".

При попытке просмотра опущенных ("слишком похожих") - ещё 260 также "незакэшированных" страниц. Итого 261 шт., при этом индекс - 732 шт.

Не вижу ничего "страшного" и ничего "не обычного". Особенно если раньше, к примеру, сайт жил на www и лишь после получил вариант "без www". Или, к примеру, сильно менялась структура сайта (урлы внутренних страниц), допустим, в попытке выбраться из предполагаемого АГС. В общем, честно говоря, в отношении индексации Google - у вас точно нет проблем.

Вопрос плавно перешел в сторону Яндекса. И здесь, возникают большие проблемы с фильтрами. Начиная с санкций за использование кликандер, которые сохранились до последнего момента, до момента попадания под АГС. В обоих случаях трафик от Яндекса стремился к 0. Поэтому многого не потерял.

Несколько месяцев назад, я уже обращался за помошью к одному популярному блогеру, который провел полный анализ и дал некоторые рекомендации.

Рекомендации были выполнены, но фильтр сохранился. Вижу, что наметанный глаз увидел причины. Был бы очень благодарен за дополнительные советы или рекомендации по выходу из под действия АГС. Конечно же, по возможности. Еще раз спасибо.

Я не спец по выводу из-под АГС уже просто потому, что никогда под него не попадал. И вышесказанное было лишь с учётом чужого опыта, местами успешного, местами не очень (как, в частности, и у блогера, к которому обращались). Как получу опыт - сразу же начну советовать. А пока - развивайте свой сайт и быть может...

Я попадал под АГС с одним из сайтов. Сайт полезный, потому, не долго думая, написал в поддержку. Скорее всего, хостинг был виноват. Через несколько дней пришёл ответ, что в течение 2-х недель всё станет норм. Так и получилось.

Другой чел попал под АГС с сайтом с сомнительным содержимым (не особо интересный, да и копипаста много). Тоже написал в поддержку. Ему ответили что-то типа: "в выдаче находятся те страницы сайта, которые мы считаем полезными, новые страницы индексируются и попадают в выдачу по мере надобности - пишите хорошие статьи". Короче, отмазка. В этом случае, если вы уверены в качестве сайта, надо настаивать на рассмотре вашего случая новыми письмами в поддержу - рано или поздно сайт посмотрит живой человек. А если не уверены, то сделайте сайт лучше: интересней и полезней, не забыв также об удобстве просмотра. Если гугловские посетители активно ведут себя на сайте, можно поставить Яндекс.Метрику - может это убедит Яндекс в полезности сайта.

А по теме статьи. Автор, как всегда, на высоте!

Добавить комментарий