Главная

SeoQuake Google

Google index параметры  для SeoQuake, приведенные на сайте следующие:

[NAME]=Google index
[TITLE]=I
[URL_R]=http://www.google.com/search?hl=en&safe=off&q=site%3A{domain|encode}&btnG=Search
[REGEXP]=<div id=resultStats>About ([0-9,]+) results<nobr>
[ALTREGEXP]=<div id=resultStats>([0-9,]+) results<nobr>

Однако как я показывал в статье о проверке индексации сайта в Google, использование параметра "hl=en" искажает результат и порой принципиально, т.к. имеется специфика русского языка.

В то время, как причина выбора подобного способа для парсинга понятна и проста: так проще - ориентироваться на фиксированное "results<nobr>".

Google index SeoQuake

Пользоваться параметром google.ru (вместо google.com), как показала практика - тоже не корректно, т.к. время от времени логика выдачи параметров по данным командам у Google изменяется (и кардинально). Потому, как минимум на данный момент "правильным" параметром индексации сайта в Гугле (Google index) для сеоквейка будет:

[NAME]=Google index
[TITLE]=I
[URL_R]=http://www.google.com/search?hl=ru&q=site%3A{domain|encode}&safe=off
[REGEXP]=<div id=resultStats>[^<]+ ([0-9,]+)<nobr>
[ALTREGEXP]=<div id=resultStats>[^0-9]+([^<]+)<nobr>

Изменены REGEXP и ALTREGEXP, т.к. в отличие от английской версии выдачи с "About" / "results", в русской это "Результатов: примерно", что иначе парсится.

А вот может поможете, я уже под для пытаюсь разобраться. Даю такой запрос, как у вас указан - получаю одну цифру 138к (количество проиндексированных страниц):

http://www.google.com/search?hl=en&safe=off&q=site%3A{domain|encode}&btnG=Search

Делаю его же через api:

https://www.googleapis.com/customsearch/v1?key= cx= &q=site%3A{domain|encode}&btnG=Search

...и получаю совсем другую цифру - .

И это - не количество страниц в выдаче (их ), не количество проиндексированых страниц их сайтмапа... ниоткуда. Хотя должна быть та же самая...

Откуда отличие получилось, да еще такое?

 

Отправить комментарий

Содержание этого поля является приватным и не предназначено к показу.

Подробнее о форматировании

Image CAPTCHA
Тут буквоцифры
Яндекс.Метрика
Яндекс.Метрика




Рейтинг блогов
Подписаться на статьи NOINDEX.by
Твиттер Тутбайкиллера