Правильный файл robots.txt - одно из важных условий для эффективного продвижения сайта. Часто легче понять "как правильно" - разбирая именно неправильные случаи.
Потому буду публиковать здесь найденные на реальных сайтах подобные примеры неправильных или не совсем правильных вариантов роботс.тхт.
Здесь и далее примеры из реальной жизни, однако вебмастера могут (надеюсь данная статья этому также поможет :) ) их сменить, потому публикую именно исходники, пропуская слишком объёмные примеры).
- Пустая строка между User-agent и директивами robots.txt
- Пустые строки в блоке директив robots.txt для сайта на WordPress
- Директива Host в начале блока описаний для User-agent: *
- Ошибки самописанных движков
- Пустая строка после User-agent
- Все команды robots.txt в одну строку
- Злоупотребление командами в robots.txt
- Несколько строк User-agent подряд
- Имя файла "роботов": Robots.txt vs robots.txt
- Многократные пустые строки в robots.txt
- "Чересстрочная" конструкция robots.txt
- Повторение одинаковых блоков для разных юзер-агентов
- Отсутствие пустой строки между блоками директив robots.txt
- Роботс.тхт и специальные программы и сервисы для его создания
- Ускорение индексации и robots.txt
- Файл robots.txt в сайтах SEO-компаний Беларуси
- Неправильная последовательность директив в robots.txt
- Пустой блок директив в robots.txt
- Неудачный шаблон
- Горе от ума
- и др...
Пустая строка между User-agent и директивами robots.txt
http://www.shkaffkupe.ru/robots.txt - 2004 - Google - 183 / Yandex - 6 / Rambler - 2 *
User-agent: Yandex
Disallow: /index.php?menu_id=122
Disallow: /calc/
Disallow: /index.php?menu_id=188
Disallow: /index.1.htm
Disallow: /about.php
Disallow: /contact.php
Disallow: /gallery.php
Disallow: /index.1.php
Disallow: /inside.php
Disallow: /mater.php
Disallow: /price.php
Disallow: /zakaz.php
Disallow: /backlinks.html
Disallow: /linkexch.php
Disallow: /resurs.txt
Disallow: /inc/
Disallow: /gallery/
Disallow: /what_is_it.htm
Disallow: /index.php?menu_id=104
Host: www.shkaffkupe.ru
Sitemap: http://www.shkaffkupe.ru/sitemap.xml
User-agent: *
Disallow: /index.php?menu_id=122
Disallow: /index.php?menu_id=123
Disallow: /calc/
Disallow: /index.php?menu_id=188
Disallow: /index.1.htm
Disallow: /about.php
Disallow: /contact.php
Disallow: /gallery.php
Disallow: /index.1.php
Disallow: /inside.php
Disallow: /mater.php
Disallow: /price.php
Disallow: /zakaz.php
Disallow: /backlinks.html
Disallow: /linkexch.php
Disallow: /resurs.txt
Disallow: /inc/
Disallow: /gallery/
Disallow: /index.php?menu_id=104
Главная ошибка - между строкой User-agent: * и User-agent: * и следующей директивой имеется пустая строка, которая по правилам robots.txt считается "разделительной" (относительно блоков описаний).
Это значит, что спрогнозировать применимость следующих за пустой строкой директив - нельзя. Косвенно данную ошибку подтверждает значения индексации в Rambler.
Пустые строки в блоке директив robots.txt (сайт на WordPress)
http://professia.by/robots.txt - 78 / 59 / 68
User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments
User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments
Host: professia.by
Sitemap: http://professia.by/sitemap.xml.gz
Пустые строки между директивами также не допустимы, т.к. робот считает, что начинается описание для следующего юзер-агента, а его не находит и в результате спрогнозировать "восприятие" подобных "роботов" - сложно.
Директива Host в начале блока описаний для User-agent: *
http://www.lestshop.ru/robots.txt - 2006 - Google - 272 / Яндекс - 3 / Rambler - 43
User-agent: *
Host: www.lestshop.ru
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /img/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /old/
Disallow: /?
Disallow: /?2
Disallow: /*?
Disallow: /index.php
Disallow: /?2f4dc3cce5bb551a9523f9ea93d83623=6d17a4fd9dd8f05179f7246a97b6cac6
Disallow: /?2f4dc3cce5bb551a9523f9ea93d83623=0cbe8ec136812c2d85500fc632aa7247
Disallow: /stepladders.html?2f4dc3cce5bb551a9523f9ea93d83623=0cbe8ec136812c2d85500fc632aa7247
Disallow: /ladder.html?2f4dc3cce5bb551a9523f9ea93d83623=0cbe8ec136812c2d85500fc632aa7247
Disallow: /bridges.html?2f4dc3cce5bb551a9523f9ea93d83623=0cbe8ec136812c2d85500fc632aa7247
Disallow: /scaffolds.html?2f4dc3cce5bb551a9523f9ea93d83623=0cbe8ec136812c2d85500fc632aa7247
Disallow: /scaffolding.html?2f4dc3cce5bb551a9523f9ea93d83623=0cbe8ec136812c2d85500fc632aa7247
Disallow: /formwork.html?2f4dc3cce5bb551a9523f9ea93d83623=0cbe8ec136812c2d85500fc632aa7247
Disallow: /ladder.html?2f4dc3cce5bb551a9523f9ea93d83623=6a41b1bb6e46fb7581179cff70cbc3e6
Disallow: /stepladders.html?2f4dc3cce5bb551a9523f9ea93d83623=6a41b1bb6e46fb7581179cff70cbc3e6
Disallow: /bridges.html?2f4dc3cce5bb551a9523f9ea93d83623=6a41b1bb6e46fb7581179cff70cbc3e6
Disallow: /scaffolds.html?2f4dc3cce5bb551a9523f9ea93d83623=6a41b1bb6e46fb7581179cff70cbc3e6
Disallow: /scaffolding.html?2f4dc3cce5bb551a9523f9ea93d83623=6a41b1bb6e46fb7581179cff70cbc3e6
Disallow: /formwork.html?2f4dc3cce5bb551a9523f9ea93d83623=6a41b1bb6e46fb7581179cff70cbc3e6
Тонкий, но потенциально проблематичный момент - директивы, которые имеют "различное толкование" в разных поисковиках, тем более, если они не всеми поддерживаются - должны располагаться в конце блока. Это снизит вероятность того, что робот, встретив "ненормальную" по его мнению директиву, отбросит другие, следующие за ней директивы.
Соответственно, моя рекомендация - располагать "яндексовскую" директиву Host - максимально ближе к концу (в блоке описаний User-agent: * - "для всех роботов").
Ошибки самописанных движков
http://testo-sale.ru/robots.txt - Google - 13 / Яндекс - 34 / Rambler - 0
User-agent: *
Disallow: /http://testo-sale.ru/index.php
Disallow: /http://testo-sale.ru/catalog/index.php
При использовании "нестандартных" движков (в т.ч. "самописанных") - будьте внимательными, что за "роботов" вы "подсовываете" поисковикам, дабы после не удивляться и не пенять на яндексы-гугляндексы, что они "непонятно как" индексируют да и ранжируют ваш сайт.
Как видно в примере - путь для директив Disallow явно сгенерирован и сгенерирован неправильно - с добавлением "лишнего" префикса http://. Текущие значения индексации сайта в поисковиках косвенно подтверждают данные проблемы.
Продолжение следует (здесь, далее - в комментариях).
Комментарии
zusicks438
18:27 20.09.2010
Постоянная ссылка (Permalink)
А стоит ли вообще
А стоит ли вообще заморачиваться с такими директивами? В чем суть robots.txt как такового для обычного вебмастера?
Administrator
21:15 20.09.2010
Постоянная ссылка (Permalink)
Стоит ли учиться в школе,
Стоит ли учиться в школе, если "и так можно работать"? Стоит ли учиться SEO, если "и так, вроде, приходят"? Стоит ли "заморачиваться с роботами", если "и без них, вроде, нормально"?
Всё это из одного разряда. Да - можно без них. Некоторые живут без них и не задумываются. Но правильно - с ними. Потому для тех, кто привык делать правильно - однозначно стоит использовать роботов. При чём - правильных роботов.
wlad2
20:20 20.09.2010
Постоянная ссылка (Permalink)
Блин, жесть полная на
Блин, жесть полная на testo-sale. =)
Оптимизатор из Перми
07:59 21.09.2010
Постоянная ссылка (Permalink)
А вот позвольте не
Administrator
11:13 21.09.2010
Постоянная ссылка (Permalink)
Совершенно верно - после, а
Что и звучит в моей рекомендации - после всех директив, т.е. это и есть "конец файла robots.txt". :)
Оптимизатор из Перми
19:58 21.09.2010
Постоянная ссылка (Permalink)
Обратите внимание на слово
Administrator
20:28 21.09.2010
Постоянная ссылка (Permalink)
В данном случае мы говорим об
Андрей
10:03 21.09.2010
Постоянная ссылка (Permalink)
На счет пустых строк - тем не
Administrator
11:21 21.09.2010
Постоянная ссылка (Permalink)
Совершенно верно - поисковики
Совершенно верно - поисковики в курсе про орды "вебмастеров-двоечников", потому давно научились учитывать многие ошибки и несоблюдения общепринятых стандартов.
Однако, повторюсь, это не отменяет ошибки как таковой и другие поисковики (в другой ситуации и с другим сайтом) могут не проявить такого "расположения" и/или "понятливости" к вашим "роботоизлияниям". :)
Administrator
22:39 21.09.2010
Постоянная ссылка (Permalink)
Пустая строка после
Пустая строка после User-agent...
http://rspch.by/robots.txt - 2003 - Google - 313 / Яндекс - 31 / Rambler - 175dofollow
14:59 21.09.2010
Постоянная ссылка (Permalink)
А как сделать так, чтоб
А как сделать так, чтоб Яндекс и Гугл как можно быстрее проиндексировали сайт?
Administrator
20:14 21.09.2010
Постоянная ссылка (Permalink)
Роботами как правило
Роботами как правило замедляют скорость индексации - с помощью директивы Crawl-delay (все поисковики, кроме Google - он её не учитывает, т.к. у него в админке можно напрямую задать скорость сканирования сайта).
С другой стороны, правильно настроенный robots.txt позволяет не тратить время на индексацию "ненужных" страниц, в результате чего "нужные" индексируются быстрее (чаще). Таким образом можно считать, что правильный robots.txt может ускорить индексацию сайта в Яндексе, Гугле и других поисковиках.
Однако скорей всего подразумевалось "ускорение индексации нового сайта". В данном случае, ежели нет денег - помогут обычные соцзакладки или просто твиттер. Если есть - идём в Сапу и берём на недельку ссылочку с какой-нибудь кошерной морды PR 6 / тИЦ 10000. ;)
Владимир
21:43 21.09.2010
Постоянная ссылка (Permalink)
Может ускорить, а может и
Может ускорить, а может и нет.
Андрей
22:17 21.09.2010
Постоянная ссылка (Permalink)
Роман, спасибо за полезную
Роман, спасибо за полезную статью, нужно еще добавить, что не допустимо написание команд в строчку...
Administrator
15:51 7.10.2010
Постоянная ссылка (Permalink)
robots.txt в одну
robots.txt в одну строку
http://postup.brama.com/robots.txt - 2000 - Google - 16800 / Яндекс - 3312 / Rambler - 62Administrator
14:18 22.09.2010
Постоянная ссылка (Permalink)
robots.txt в стиле "Да я этих
robots.txt в стиле "Да я этих команд знаю - роботову тучу!..."
Роботы одного из комментаторов - люди, не стоит писать в robots.txt "всё что знаете". Наоборот - максимально консервативно относитесь к каждой новой (и старой) записи в данном файле.
http://www.izero.ru/robots.txt - Google - 411 / Яндекс - 40 / Rambler - 103
Administrator
18:21 22.09.2010
Постоянная ссылка (Permalink)
Несколько строк User-agent
Несколько строк User-agent подряд
Попытка "облегчить себе жизнь" или "усовершенствовать" robots.txt частенько приводит к различным "перлам":
http://agropromholod.ru/robots.txt - Google - 181 / Яндекс - 188 / Rambler - 210
Кто не понял: сделать "один" блок для "нескольких" роботов/поисковиков - нельзя. Иначе не учтётся никто (либо, сработает, как в данном случае, скорей всего - лишь для Рамблера, как последнего из "правильных строк" юзер-агентов).
А в общем случае - да, придётся, "как придурок", повторять одни и те же директивы для каждого из них. Либо же (что однозначно лучше) - ограничиться лишь "User-agent: *".
icbook
20:26 22.09.2010
Постоянная ссылка (Permalink)
Есть ли разница, файл
Administrator
20:38 22.09.2010
Постоянная ссылка (Permalink)
Есть и потому точно не стоит
Есть и потому точно не стоит экспериментировать.
Administrator
23:29 23.09.2010
Постоянная ссылка (Permalink)
Рекорд по "пустым строкам" в
Рекорд по "пустым строкам" в robots.txt :)
http://grate.ru/robots.txt - 2005 - Google - 232 / Яндекс - 2000 / Rambler - 3361Update: Новый найденный рекордсмен по "чересстрочной конструкции robots.txt":
http://www.220volter.ru/robots.txt - Google - 161 / Yandex - 266 / Rambler - 226
Administrator
14:47 24.09.2010
Постоянная ссылка (Permalink)
Повторение одинаковых блоков
Повторение одинаковых блоков для разных юзер-агент-ов
http://www.persokovr.ru/robots.txt - Google - 10 / Яндекс - 11 / Рамблер - 9Совершенно незачем повторять "для каждого" из роботов, от этого они не станут "более признательны", увидев "персональные настройки". :) То есть в данном случае однозначно правильней использовать лишь "общий" User-agent (хотя я такое рекомендую для всех случаев):
Administrator
13:14 26.09.2010
Постоянная ссылка (Permalink)
Отсутствие пустой строки
Отсутствие пустой строки между блоками директив robots.txt
Очередные роботы очередного комментатора (Wordpress).http://www.alchy.ru/robots.txt - Google - 143 / Яндекс - 62 / Рамблер - 65
Перед каждым новым юзер-агент-ом обязательно должна быть пустая строка ТЧК
alchy
16:55 27.09.2010
Постоянная ссылка (Permalink)
Та твою ж дивизию. :D Правда
Правда роботам сугубо пофиг, но поправил. :)
Administrator
17:36 27.09.2010
Постоянная ссылка (Permalink)
Верно, в таких случаях
Верно, в таких случаях роботам может быть "пофиг" на всё, что обнаружится после "неожиданной" инструкции User-agent, а результате чего тот же Яндекс может не признать "свою" директиву Host со всеми вытекающими. Т.е. в очередной раз не стоит утверждать "так и так ж работает", ибо, во-первых, вопрос "как и насколько корректно", а, во-вторых, если действительно всё работает и корректно, то это заслуга интеллекта роботов, а никак не Вашего. ;)
Дмитрий
10:12 6.05.2014
Постоянная ссылка (Permalink)
Да действительно, Яндекс
Да, действительно, Яндекс робот не индексирует, если нет перед user agent разрыва от предыдущего. Убедился лично. Будьте внимательны.
podvezu
15:54 29.09.2010
Постоянная ссылка (Permalink)
Объясните мне - зачем самому
Administrator
17:21 29.09.2010
Постоянная ссылка (Permalink)
"Специальные программы и
DeSeN
16:13 7.10.2010
Постоянная ссылка (Permalink)
Сам на личном опыте убедился
СерёжКа
17:56 23.10.2010
Постоянная ссылка (Permalink)
Роботсы реально важны! На
Administrator
20:14 22.11.2010
Постоянная ссылка (Permalink)
По результатам рейтинга
По результатам рейтинга SEO-компаний Беларуси 2010 решил провести тест их сайтов на правильность файла robots.txt, качество которого вполне можно считать одним из показателей "SEO-грамотности". Результаты - треть(!) сайтов оптимизаторских контор имеют проблемные (с точки зрения "классической правильности") robots.txt.
...
Сначала я хотел опубликовать всё в подробностях, однако передумал. :) (Кто таки хочет - может и сам пробежаться да посмотреть). В любом случае, могу лишь подтвердить, что данный фактор (грамотно составленный robots.txt) чётко подтвердил "справедливость" рейтинга, т.к. все "проблемные" - в нижней части таблицы. И что значительный отрыв лидирующей тройки - явно "не просто так". Они вполне прилично владеют искусством робототекстники. ;)
Administrator
12:06 15.12.2010
Постоянная ссылка (Permalink)
Неправильная
Неправильная последовательность директив в robots.txt
Нельзя забывать, что есть правило - первой директивой после User-agent должна идти директива Disallow. И вообще, любой блок (во главе с User-agent) без Disallow считается некорректным. Потому следующие роботы являются наглядным примером подобной ошибки:
http://avtoprofit.ru/robots.txt - Google - 26 / Яндекс - 46 / Rambler - 46
Внешне "нормальный" пример будет полностью корректным, если строчку с Host сделать последней, а с Disallow - второй.
Administrator
12:16 15.12.2010
Постоянная ссылка (Permalink)
Пустой блок директив в
Пустой блок директив в robots.txt
После строки с директивой User-agent обязательно должна быть минимум одна строка с Disallow, иначе подобная конструкция является некорректной и реакция поисковиков труднопредсказуемо. Вот следующий "печальный" пример:
http://rusantro.livejournal.com - Google - 603 / Яндекс - 0 / Rambler - 1
Последний "незаконченный" блок для всех поисковиков ("User-agent: *") ими может восприниматься по-разному. И даже просто судя по тому, что в Рамблере лишь одна страница, а в Яндексе вообще ноль - это вполне может быть причиной неправильных роботов. /* Сайту на момент написания коммендария - полтора года (информация от его автора). */
rusantro
12:06 14.01.2011
Постоянная ссылка (Permalink)
Можно подумать, что я сам
Можно подумать, что я сам этот файл писал. Что ЖЖ дало, с тем и живём.
У того же LJ user ibigdan такой же robots.txt
И, ничего - его замечательно индексирует.
Administrator
12:20 14.01.2011
Постоянная ссылка (Permalink)
Спасибо за комментарий, буду
Спасибо за комментарий, буду знать. Только вот с популярными сайтами - отдельное дело, и "качество" роботов к ним применять сложней. А то, что у "монстровидных" бывают проблемы по части их (роботс.тхт) качества - известная пестня, достаточно глянуть даже ту же русскую википедию:
AliveIT
10:56 16.02.2011
Постоянная ссылка (Permalink)
Подскажите, если Host написан
Подскажите, если Host написан после Sitemap - это считается как ошибка?
Пример:
Administrator
11:55 16.02.2011
Постоянная ссылка (Permalink)
Нет, это не ошибка, наоборот
Нет, это не ошибка, наоборот - всё правильно, именно так я и рекомендую оформлять. Т.к. директива Sitemap - поддерживается большинством поисковиков, а Host - лишь Яндексом., потому считается "нестандартной".
А всё "нестандартное" должно быть максимально "ниже" (в конце файла robots.txt), чтобы не сделать поводом для игнорирования роботами поисковиков (не знающих подобных инструкций) части директив после такого "нестандартного" кода.
dofollow
16:19 12.03.2011
Постоянная ссылка (Permalink)
Подскажите, если Host написан
Подскажите, если Host написан после Sitemap - это считается как ошибка?
А если у меня три блока, то как тогда лучше? Дублировать в каждом блоке директиву Sitemap или написать её один раз в самом низу, пропустив одну строку?
Заранее благодарен за ответ.
Administrator
08:45 17.03.2011
Постоянная ссылка (Permalink)
Host после Sitemap - это как
Host после Sitemap - это как раз правильно. Т.к. Host - "нестандартная" директива, а потому желательно должна быть "максимально в конце", в отличие от "стандартной" Sitemap.
Далее, дублировать Sitemap не надо - ведь у вас обязательно будет блок для всех ботов "User-agent: *" - в нём и стоит прописать Sitemap.
(без "пустой строки")
С другой стороны, практика показывает, что, похоже, robots.txt парсится поисковиками "в первую очередь" для поиска в нём всех записей о Sitemap, потому как бы вы не писали - вашу карту сайта "найдут и обезвредят".
Хотя, это не отменяет того, что "правильно" - делать "правильно", т.е. прописывать его в "общем" блоке.
carmods
17:35 8.06.2011
Постоянная ссылка (Permalink)
Спасибо за статью - глянул на
Спасибо за статью - глянул на свой файл robots.txt и сразу увидел ошибку, уже с год как висит...
Seogot
14:22 12.07.2011
Постоянная ссылка (Permalink)
Спасибо! очень обширная и
Спасибо! Очень обширная и полезная статья. Robots.txt мало кто составляет правильно, а некоторые вообще обходятся без него.
Administrator
23:41 8.09.2011
Постоянная ссылка (Permalink)
Неудачный шаблон для запрета
Неудачный шаблон для запрета служебных адресов
Попытка "оптимизировать" robots.txt может быть не совсем удачной, если не до конца понимать тонкости работы директив шаблонов (использование *). Вот подобный пример:
http://home-soft.com.ua/robots.txt - Google - 1260 / Яндекс - 5814 / Rambler - 6000
Жирным выделены "неудачные" директивы, которые преследуют, в принципе, "правильную" вещь - запретить дубликаты служебных страниц. Почему они не шибко удачные можно объяснить на следующих примерах.
Если на сайте будут следующие "обычные" материалы с адресами типа:
Как видно, вполне "нормальные" материалы при подобных директивах попадут под запрет индексации. Это и есть "неудачный шаблон".
Чтобы такого не было, достаточно было их оформить, указав "конец строки" (т.е. что они находятся в самом конце урла):
И хотя при таком раскладе тоже остаётся вероятность "неудачных совпадений", но это уже действительно - минимум.
продвижение-сай...
16:46 6.12.2011
Постоянная ссылка (Permalink)
Занимаюсь продвижением
Занимаюсь продвижением сайтов, поэтому приходится хорошо ориентироваться в robots.txt. Хотелось бы услышать Ваше мнение по конкретной ситуации. Мне перепала на продвижение пара сайтов, один из которых был зазеркален и скрыт от индексации. Мои предшественники много чего наворотили, но здесь есть интересный момент. robots.txt такой у сайта (назовем его "www.второстепенное-зеркало.ru"):
Яндекс не индексирует www.второстепенное-зеркало.ru, а Google индексирует все страницы.
Перед директивой User-agent: * мои предшественники не поставили пустую строку... Но Яндекс-то корректно его прочитал.
Это не единственный случай, когда Google индексирует сайты, закрытые от индексации.
Есть ли у Вас подобные интересные примеры? И прокомментируйте этот.
Administrator
21:09 8.12.2011
Постоянная ссылка (Permalink)
Яндекс не индексирует по
Яндекс не индексирует по причине наличия директивы Host, указывающей, что это не основное зеркало, что более важней, чем Disallow: /.
Почему всё индексирует Google - нужно видеть. Предположу по словам "Перед директивой User-agent: * мои предшественники не поставили пустую строку", что значит в роботах были и другие блоки директив, где индексация могла разрешаться, и которую Google счёл руководством к действию...
Тамара
14:45 10.12.2011
Постоянная ссылка (Permalink)
Просмотрела свой роботс, и не
Просмотрела свой роботс, и не пойму, почему Яндекс его уже 4 месяца игнорит.
Administrator
12:35 22.06.2012
Постоянная ссылка (Permalink)
Проверьте настройки хостинга,
Татьяна
01:46 31.01.2012
Постоянная ссылка (Permalink)
У меня вопрос по robots.txt
У меня вопрос по robots.txt. Дело в том, что как только были указаны ошибки сканирования AdSense и рекомендовано добавить следующие две строки в начало файла:
Я сразу же все так и проделала, но робот по-моему не находит все равно. Я попыталась проанализировать содержание файла robots.txt и убедилась, что роботу AdSense доступ закрыт. Что я не так делаю? Пожалуйста, ответьте новичку.
Administrator
12:53 22.06.2012
Постоянная ссылка (Permalink)
У вас ошибка "Отсутствие
У вас ошибка "Отсутствие пустой строки между блоками директив robots.txt", вот что сейчас показывает ваш роботс:
Проверьте и исправьте:
sever
10:23 16.05.2012
Постоянная ссылка (Permalink)
Подскажите... я на сайте c
Подскажите, я на сайте c движком UCOZ разместил следующий robots.txt:
...а показывает:
Administrator
12:45 22.06.2012
Постоянная ссылка (Permalink)
Значит ваш сайт на карантине
Значит ваш сайт на карантине (особенности хостинга Ucoz), вот цитата:
mataleao
19:14 1.07.2012
Постоянная ссылка (Permalink)
Здравствуйте! Составил robots
Здравствуйте! Составил robots.txt, на первый взгляд вполне нормальный, но Яндекс ругается - "Найдено несколько директив Host".
Оставляю директиву Host только в разделе Яндекса и мне выдает вот что:
А так выглядит мой robots.txt:
Заранее спасибо за ответ.
Administrator
21:05 1.07.2012
Постоянная ссылка (Permalink)
Правильно ругается Яндекс,
Правильно ругается Яндекс, ведь две директивы Host в приведенных роботах и есть (выделил жирным в вашем посте). Конкретно одна в блоке директив "персонально для Яндекса" (User-agent: Yandex) и ещё одна в блоке "для всех поисковиков" (User-agent: *).
Вообще, я всегда рекомендую использовать лишь один (общий - User-agent: *) блок, иначе как раз возможны вот подобные проблемы.
Итого, в вашем случае я бы просто свёл бы все ваши роботы в один блок, вот в таком виде:
Лишнее и дублирующееся выброшено, всё сделано на базе вашего примера (выше), просто "стандартизировано".
dofollow
00:06 5.07.2012
Постоянная ссылка (Permalink)
тут яндекс на пальцах
Тут Яндекс на пальцах объясняет по роботс:
Михаил
01:36 5.08.2012
Постоянная ссылка (Permalink)
Добрый вечер.
У меня возникла проблема с сайтом - ни Яндекс, ни Рамблер его не индексируют, хотя Гугл при этом видит всё нормально. Анализ робота на Яндексе показывает следующее:
Судя по описанию выше, с роботом всё ок. Может я не вижу какой-нибудь ошибки, просьба подсказать, в чём может быть проблема.
Administrator
12:41 5.08.2012
Постоянная ссылка (Permalink)
В данном случае проблема,
Михаил
01:46 6.08.2012
Постоянная ссылка (Permalink)
Определил для себя следующий
Нет, это был мой первый, обычный шаблон джумла, который был поставлен впервые, и всё наполнение сайта делалось вручную. Была ситуация, которая возможно и повлияла на дальнейшую судьбу индексации. В момент, когда робот должен был индексировать страницы, на сайт прокралась ошибка и он временно не был доступен, кроме главной страницы. К сожалению, ошибка была замечена и исправлена поздно. Робот так и проиндексировал, только первую страницу, но даже она в поисковике не выпадает. Как можно исправить ситуацию и заставить робот, проиндексировать ещё раз весь сайт?
Добавлено:
Определил для себя следующий план действий, просьба поправить, если что делаю неверно.
1) Создал файл .htaccess, прописал в нём.
Сделал так, потому что считаю, что это, тоже могло стать причиной, по которой Яндекс считает мой сайт плагиатом, т.к. www и аналог без www, были как совершенно разные сайты. Теперь, всё ссылается на один.
2) Генерирую, на бесплатных роботах, sitemap.xml, кидаю его в корневой каталог сайта.
3) Добавляю роботу строки:
4) Сообщу роботам об изменениях, начну с Яндекс sitemap.
Буду надеяться на лучшее.
P.S. Есть сомнение в правильности указания - Sitemap: http://moivelik.ru/sitemap.xml - подскажите, верно ли указан путь? И если нет, то как мне правильно определить путь для моего хмл фала?
Заранее благодарен.
Михаил
10:39 6.08.2012
Постоянная ссылка (Permalink)
Добрый день.
Administrator
16:03 6.08.2012
Постоянная ссылка (Permalink)
Яндекс точно проиндексировал
Яндекс точно проиндексировал (ссылка актуальна на момент написания комментария).
Чтобы исправить такую проблемы нужно поставить редирект (на сайте vindrnet.com):
Т.е. "включить" vindrnet.com, чтобы он был доступен поисковикам и чтобы они поняли, что "сайт переехал", а не "там плагиат".
Михаил
09:48 7.08.2012
Постоянная ссылка (Permalink)
Сразу хочу сказать огромное
Сразу хочу сказать огромное спасибо за помощь. В настоящий момент так и сделал. Всё идёт куда нужно. Но в процессе поиска ответа на основной вопрос, родилась хорошая идея, сделать новый сайт. )) Уже практически всё сделал. Если не ждать, пока робот переиндексирует сайт, а просто поставить новый и в Яндексе переиндексировать его самому, есть ли жизнь у такого варианта? Или всё таки стоит подождать, пока Яндекс проиндексирует его сам?
Administrator
15:23 7.08.2012
Постоянная ссылка (Permalink)
Сделать новый можно. Однако
Сделать новый можно. Однако если речь о том же (moivelik.ru) домене, то я бы дождался, пока Яндекс отработает переадресацию (с vindrnet.com) и он появится в индексе. Т.е. редирект ставить по-любому, а уже видоизменения - по желанию.
Administrator
12:24 15.10.2013
Постоянная ссылка (Permalink)
Необъяснимые директивы в
Необъяснимые директивы в robots.txt или "Горе от ума"
После подобной "оптимизации" владельцы сайта пожаловались на то, что их обновлённый подобным образом сайт не хочет индексироваться.
Что и не удивительно, ибо предположить, как подобная конструкция будет восприниматься поисковиками - сложно. Точней, наоборот, просто, это аналог:
...т.е. запрет индексации. Без комментариев. Действительно - горе от ума.
Игорь
13:41 17.11.2013
Постоянная ссылка (Permalink)
В гугл вэбмастер в столбце
В гугл вэбмастер в столбце Доступ к файлу robots.txt стоит восклицательный знак что это означает?
Вот мой робот:
Administrator
18:00 2.12.2013
Постоянная ссылка (Permalink)
Во-первых, зря вы используете
Во-первых, зря вы используете различные секции для разных поисковиков - причин такого использования крайне мало (будем надеяться, что у вас как раз исключение).
Во-вторых, судя по картинке и роботам - ваш сайт не использует www. Однако зайдя на сайт - перебрасывает на вариант с www. Соответственно на это и может ругаться Google - что по варианту без www отдаётся ошибка 301.
Игорь
20:00 2.12.2013
Постоянная ссылка (Permalink)
т.е. лучше использовать
Т.е. лучше использовать только User-agent: * ?
А эта строка - User-agent: Mediapartners-Google - нужна?
Вот мой .htaccess, в нем прописано без www.:
Administrator
22:07 3.12.2013
Постоянная ссылка (Permalink)
Да, лучше использовать один
Да, лучше использовать один блок директив - User-agent: * - общий для всех поисков.
Если нет особых требований, то и - User-agent: Mediapartners-Google - не нужно использовать.
По www - всё правильно, это перенаправление на вариант написания без www. Только сейчас заметил, что спутал ваш сайт с .ru-вариантом, который как раз с www.
Раз так (я ошибся на счёт www), значит стоит проверить, не забанены ли по какой-то причине айпишники роботов Google (на уровне сайта/хостинга). Ну или другие возможные причины ошибок.
п.с. Как вариант - просто обождать. Кстати - такая ошибка была "всегда" или появилась недавно?
Игорь
15:41 4.12.2013
Постоянная ссылка (Permalink)
Спасибо за ответ.
Такая ошибка появилась где-то с месяц назад. Оставил общую директиву для всех поисковиков, Mediapartners-Google убрал.
Проблема исчезла:
Не понятно с чем это связано. Ждем результата.
Administrator
17:47 4.12.2013
Постоянная ссылка (Permalink)
Последняя картинка как раз
Последняя картинка как раз подтверждает версию бана айпишников Гуглобота. Это могло произойти и на уровне хостера, который вовремя исправился.
Юрий
01:04 24.01.2014
Постоянная ссылка (Permalink)
Добрый день, подскажите как
Добрый день, подскажите как запретить правильно подобные числовые каталоги, например, "site/153", ответ "Disallow: /*153". А как "site/(от 1 до 10000)" - одной командой?
Administrator
18:13 24.01.2014
Постоянная ссылка (Permalink)
<p>
Никак - именно если одной. Используйте девять:
...и запретите (либо просто не используйте) названия каталогов, начинающихся с цифр. Я сделал именно так на одном из проектов - Drupal 6, работает много лет.
Добавить комментарий