Google supplemental index - история, практика, загадки и разгадки

Google supplemental index

Индексация Google и вопрос о дополнительном индексе (Supplemental Index) уже не один год (с момента официального отказа от его показа в выдаче Google) является предметом дискуссий, схожих с поиском снежного человека. Имея некоторую склонность к цифромании я уже не один год веду наблюдения за всеми такими спорно-недоказанными темами и хочу поделиться некоторыми мыслями, данными и мыслями о данных.

Памяти Google Supplemental Results (2003 - 2007) посвящается.

Google Supplemental Results

Так называемый Supplemental Index (он же "не основной индекс",  "дополнительный индекс" или по-простому "сопли") Google появился на свет в самом конце лета 2003-го года без особых анонсов в виде пометки "supplemental results" справа от результатов выдачи.

Кончина Supplemental Index

Только все привыкли жить и бороться с дополнительным индексом Гугла, как летом 2007-го года его спровадили на пенсию, а 2007.12.18 окончательно похоронили. В частности, некролог из текущего хелпа об этом гласит:

Дополнительные результаты

Мы удалили ярлык "Дополнительные результаты" со страниц результатов поиска. Раньше с помощью ярлыка "Дополнительные результаты" пользователи могли находить результаты по запросам, не входящие в наш основной индекс. Однако так как эти результаты были "дополнительными", соответствующие им URL-адреса сканировались реже, чем URL-адреса из нашего основного индекса.

Со временем технологии Google были усовершенствованы, и теперь мы можем сканировать и индексировать сайты чаще, чем раньше. Благодаря этому весь наш веб-индекс стал более актуальным, а ярлык "Дополнительные результаты" стал ненужным.

Тем веб-мастерам, которые использовали ярлык "Дополнительные результаты" в качестве средства диагностики, Google рекомендует использовать наши Инструменты для веб-мастеров, а также службу Google Analytics. Эти бесплатные службы предоставляют информацию о том, какие страницы могут быть менее релевантными для пользователей и Google.

обновлено 03/20/2011

Король умер - да здравствует король!

Однако согласно "закону сохранения индекса" - он не может никуда деться и из ниоткуда появиться. Если где-то перестало работать, значит где-то начало. Поэтому все, кто не смог смириться с кончиной "соплей" и не поверил Google, стали искать способы его вычислить и совсем скоро стали известны "секретные команды", с помощью которых можно узнать подробности о количестве страниц в дополнительном индексе Гугля, даже не смотря на то, что его (доп.индекса) официально как бы нет.

site:www.mysite.com *** -view

Ещё "при жизни" (2006-й год) наши забугорные коллеги научились вычислять "сопливость" сайта (количество страниц в supplemental index) с помощью (не)хитрой команды:

site:noindex.by *** -view

После стало ясно, что "вьюсы" ни при чём и правильней просто указать всякую ботву, аналогично тому, как "пробивается кэш":

site:noindex.by *** -vsyakayabotva

site:http://www.domain.com/&

Когда "дополнительные результаты" пропали из выдачи и команда "site:www.mysite.com *** -view" стала работать не корректно, было быстро найдено решение, которое показывало уже не "сопливость", а, наоборот, количество страниц в основном индексе Google (Main Index):

site:http://noindex.by/&

Соответственно, саплимент индекс вычислялся как разница:

site:noindex.by -site:noindex.by/&

Google main index - site:www.mysite.com/*

Совсем скоро нашлась и ещё одна "альтернативная" команда для определения количества страниц в основном индексе Гугла:

site:noindex.by/*

inallurl

И вот, апофеоз гуглореверсеинжиниринга, нашёлся секретный чудооператор inallurl (просьба не путать со стандартным allinurl), который тоже показывает основной индекс Google с помощью команды типа:

site:www.site.ru -inallurl:www.site.ru

На базе которого, в частности, был сделан сервис Supplemental Index Ratio Calculator, получивший достаточную известность для определения "процента сопливости" сайта (правда, уже некоторое время, как он не работает).

Сомневающиеся

Со временем, особенно с приходом "молодых" оптимизаторов, не заставших "эпоху соплей", процент тех, кто считает мифом деление индекса Google на запчасти (т.е. "основной" и "не основной") - всё больше. Особенно, в свете монотонного повторения гугловодами, что "индекс - один, а всё остальное - слухи и ересь".

Наблюдения

Я не один год собирал цифры (не большого количества сайтов, но за то - подробные данные). Часть их опубликовано в SEO-грамме. Пытался проверять разные данные, почему не сложилось стандартного подхода и выяснить причины расхождения в показаниях для различных способов. С учётом подобного опыта плюс, во многом, как говорил, страсти к цифротворчеству, получилось следующее.

Эволюция во времени и пространстве

Со временем работа команд изменяется. Бывает, они перестают работать, бывает, снова начинают. Часто это совпадает с выходом новых фич или апдейтом алгоритма поиска Google. Проявляется и "геозависимость" - данные, полученные с google.com и google.ru временами могут радикально отличаться (и это не будет зависить от языковых настроек). Все эти вещи плюс "официальное отрицание" приводят к тому, что единого стройного мнения, о том, существует ли вообще снежный человек основной и дополнительный индекс Google - нет.

Разгадки

Начну с разгадок. Пару лет назад (2009-й год) в гугловебмастерфоруме образовалась перепалка с гуглозаводчицой Оксаной, которую подловили на рекомендации ссылки вышеупомянутого Supplemental Index Ratio Calculator в контексте обсуждения Supplemental Index. После она признала лишь "советы развивать свой сайт", которые также есть на "соплекалькуляторе" и в очередной раз повториалась, что оператора "inallurl" не существует в природе и что она специально даже "Я поискала его в SOAP Search Api и также не нашла".

Так вот, Оксана не врёт, такого оператора - inallurl - не существует!

Это правда. И это одна из тех весомых причин, которая лила воду на мельницу "сумневающихся".

Загадки

А вот теперь - загадки. Собственно, с помощью которых, как  ни странно, и была получена только что озвученная разгадка.

inallurl inside

Те, у кого inallurl "работал" и кто "верил" в снежного человека - проверял с помощью данной команды сайты, у которых домен с www. Именно поэтому выше пример я привёл для www.site.ru, т.к. для данного сайта, который не имеет префикса www - данная команда работает не корректно (показывает тоже самое, что и без неё):

site:noindex.by -inallurl:noindex.by
Результатов: примерно 2 160 (0,11 сек.)

site:noindex.by
Результатов: примерно 2 160 (0,07 сек.)

Однако оказалось, что если, всё же, указать www (не смотря на то, что его нет и никогда не было), то всё работает:

site:noindex.by -inallurl:www.noindex.by
Результатов: примерно 187 (0,12 сек.)

site:noindex.by/&
Результатов: примерно 190 (0,07 сек.)

Небольшая разбежка вписывается в рамки отличий "методов измерения" (часто совпадает точно), важен смысл.

Подозрения заставили копать и тут вырисовалась загадка. Оказывается, не обязательно писать (тот же) домен:

site:noindex.by -inallurl:www.yandex.google.rambler.com
Результатов: примерно 200 (0,08 сек.)

Мало того, не обязательно писать (тот же) "чудо-оператор":

site:noindex.by -noindexbyisabestseosite:www.yandex.google.rambler.com
Результатов: примерно 200 (0,15 сек.)

Два раза выше в скобках "тот же", потому что их вообще не нужно писать!

site:noindex.by -gg:www.gg
Результатов: примерно 200 (0,11 сек.)

Или даже вообще лишь:

site:noindex.by -_:www._
Результатов: примерно 187 (0,17 сек.)
Возможно, вы имели в виду: site:noindex.by -_:www_

Там есть вариации, я их опустил, важно, что последний вариант показал, что главное наличие разделителей. Так и есть:

site:noindex.by -_.www._
Результатов: примерно 187 (0,17 сек.)
Возможно, вы имели в виду: site:noindex.by -_.www_

(Вместо двоеточия ":" можно использовать другие раделители, для простоты - точка.)

Почему?

Не знаю почему, но это чётко доказывает справедливость отсутствия inallurl-а в Гугле и природе. Это - факт, можете сами проверить на своих сайтах.

А что это значит?

С другой стороны - это что-то значит. Вряд ли это планы завоевания Гуглём Вселенной, но, как минимум, это обозначает, что есть берлога, вокруг которой много больших волосатых следов.

Клубничка

Напоследок, разминка для мозга. Оказалось, что это жжж www - неспроста. Предположив некую связь её "с доменами вообще", путём ручного брутфорсинга было выяснено, что аналогично работает и со следующими "доменами":

  • at
  • be
  • by
  • com
  • de
  • in
  • it
  • la
  • www

Итого, конечный "красивый" вариант для себя "выбрал" следующий:

site:noindex.by -_.by._
Результатов: примерно 187 (0,09 сек.)

 

На сиим прощаюсь, удачных гуглоковыряний!

 

Matt Cutts рассказывает о supplement results во времена, когда соплеиндекс ещё был жив:

Современные рекомендации по Supplement Index:

Комментарии

В чем практическая польза всех этих изысканий?

Чем может помочь знание "сколько страниц в основном индексе, а сколько в дополнительном"?

Практическая? Такой цели не ставил, т.к. повторюсь, мне - интересно. Потому тут больше правильней говорить как раз о теоретической, ибо подообная интертрепация данных постепенно, как мне кажется, проливает свет на принципы работы индекса Google. Как минимум - для меня. И когда мозаика соберётся - поговорим "о практической".

Что же - я получил ответ на вопрос, который тут однажды в комментариях оставлял. Но всё намного запутанней, чем я ожидал. Может быть, "сопли" - это лишь та часть сайта, которая не находится людьми в поиске (никто же не ходит за десятую страницу): не оптимизированные страницы или не выдерживающие конкуренцию. Такая вот догадка.

Только вот показатели разные если:
1. site:noindex.by Результатов: примерно 2 140 (0,15 сек.)
Листаем на 52 страницу и видим Результатов: примерно 2 130, страница 52 (0,27 сек.)
2. site:noindex.by с filter=0 Результатов: примерно 2 170 (0,11 сек.)
Листаем на 68стр. и видим Результатов: примерно 2 140, страница 68 (0,10 сек.)
Получается 3 показателя в индексе:
1.  2 140
2.  2 130
3.  2 170
По логике наибольший п.3 самый верный?

Теперь смотрим site:noindex.by -_.by._
1. site:noindex.by -_.by._ Результатов: примерно 197 (0,09 сек.)
Листаем на 18 стр. Результатов: 171, страница 18 (0,07 сек.)
2. site:noindex.by -_.by._ с filter=0 Результатов: примерно 197 (0,04 сек.)
Листаем на 19стр. Результатов: 182, страница 19 (0,10 сек.)

Получается опять 3 значения:
1. 197
2. 171
3. 182
Какое в этом случае верное значение?

Справедливое замечание. Не стал выгружать сразу всю имеющуюся информацию, чтобы не стало шибко тошно от скопища во многом кажущихся надуманными цифирей.

Для всех "критических" данных снимаю в обязательном порядке и "значение хвоста", т.е. с добавлением параметра &start=990:

http://www.google.com/search?q=site:noindex.by/%26&hl=ru&start=990

Во-первых, оно также имеет свою динамику и уже только по этому полезно. Во-вторых, обычно хорошо пробивает "кэш значения" - некоторые параметры снимаются лишь со второго (а иногда с третьего) раза. Это значит, что первое второй тест по одной и той же команде возвращает другое значение, которое с третьим и большим количеством тестов уже не меняется. В-третьих, он позволяет контролировать "адекватность" получаемого значения - ведь динамика и "полного" значения и "хвоста" по логике должна быть однонаправленной.

Короче, всякие "такие" моменты учитываются на сколько это возможно.

Далее, по "флуктациям" получаемых значений. Это есть и всегда. Но оно не отменяет динамики (подчёркнуто не зря) изменения получаемых параметров. Если получать значения одним и тем же способом, то динамика останется, именно она нас интересует, именно она даёт возможность отбросить случайные изменения и увидеть суть. И именно эти различия всегда мешали понять, что эта зависимость есть.

Чтобы не путать просто продолжу изрыгать цифроанализ гуглоиндекса в последующих статьях - думаю, так будет понятней.

Можно и так - по желанию. Я таки решил придерживаться "показательного" варианта c google.com.supplemental:

site:noindex.by -google.com.supplemental

Добрый день. Что делать со страницами, которые показываются как в основном индексе, так и в дополнительном?

Сначала используя форму запроса site:noindex.by -google.com.supplemental
потом site:noindex.by -site:noindex.by/&

Интересно, что супплемент часто включает в себя pdf-файлы. Или мне это показалось? :)

Несмотря на то, что прошло уже много лет с момента как не существует Supplemental Index, да и с момента написания этой статьи, прочитала с большим интересом. Мне тоже интересна теоретическая и статистическая часть.

Не знаю есть сопли или нет, но могу сказать, что когда сайт попадает под Пингвин, то происходит резкий выброс страниц из "основного" индекса.

Добавить комментарий