Google index параметры для SeoQuake, приведенные на сайте следующие:
[NAME]=Google index
[TITLE]=I
[URL_R]=http://www.google.com/search?hl=en&safe=off&q=site%3A{domain|encode}&btnG=Search
[REGEXP]=<div id=resultStats>About ([0-9,]+) results<nobr>
[ALTREGEXP]=<div id=resultStats>([0-9,]+) results<nobr>
Однако как я показывал в статье о проверке индексации сайта в Google, использование параметра "hl=en" искажает результат и порой принципиально, т.к. имеется специфика русского языка.
В то время, как причина выбора подобного способа для парсинга понятна и проста: так проще - ориентироваться на фиксированное "results<nobr>".
Google index SeoQuake
Пользоваться параметром google.ru (вместо google.com), как показала практика - тоже не корректно, т.к. время от времени логика выдачи параметров по данным командам у Google изменяется (и кардинально). Потому, как минимум на данный момент "правильным" параметром индексации сайта в Гугле (Google index) для сеоквейка будет:
[NAME]=Google index
[TITLE]=I
[URL_R]=http://www.google.com/search?hl=ru&q=site%3A{domain|encode}&safe=off
[REGEXP]=<div id=resultStats>[^<]+ ([0-9,]+)<nobr>
[ALTREGEXP]=<div id=resultStats>[^0-9]+([^<]+)<nobr>
Изменены REGEXP и ALTREGEXP, т.к. в отличие от английской версии выдачи с "About" / "results", в русской это "Результатов: примерно", что иначе парсится.
- 988 просмотров

А вот может поможете, я уже под для пытаюсь разобраться. Даю такой запрос, как у вас указан - получаю одну цифру 138к (количество проиндексированных страниц):
Делаю его же через api:
...и получаю совсем другую цифру - 4к.
И это 4к - не количество страниц в выдаче (их 8к), не количество проиндексированых страниц их сайтмапа... ниоткуда. Хотя должна быть та же самая...
Откуда отличие получилось, да еще такое?
Отправить комментарий