[ОТВЕТИТЬ]
Опции темы
08.07.2015 11:51  
OlegON
Скорость сканирования пауками важна для поднятия его рейтинга в случае появления новых данных, т.е. если данные есть, то надо пользователей к ним приводить. Предлагаю складывать сюда идеи по ускорению скорости индексирования сайтов. Не обязательно подтвержденные.

Итак, какие рекомендации с моей стороны:
*) Sitemap, обязательно. Штатный, нормальный, проверенный, со всеми атрибутами. После обновления sitemap, его либо автоматом, либо вручную пингануть в поисковик. Как минимум, Яндекс, Google и Bing поддерживают пинги.
*) Автопост в твиттер и социальные сети. Особенно, если это не какие-то одинокие аккаунты, а с подписчиками и перепостами. Общая идея этого пункта в том, что если вы пауку подсунете ссылку на каком-то ресурсе, где скорость паука выше, чем на вашем сайте, то в итоге к вам он быстрее попадет.
*) Регулярность обновлений сайта сказывается на готовности бота прибежать вовремя. Как я понимаю, есть некоторый пул пауков, который занимается регулярным обходом, а есть приходящие по сигналам.
*) Пинг о появлении конкретного URL. Есть точно у Google и Яндекса. Пинаете паука в нужном направлении запросом или даже списком (в Яндексе есть), он приходит.
*) В Google есть возможность добавить в индекс через "Посмотреть, как Googlebot", недостаток - лимитированность количества попыток в месяц. Зато в индекс попадает практически за минуту.
*) Добавьте в качестве sitemap RSS сайта (в Google он принимается, в Яндексе - нет)
*) Исключение ненужных страниц. Дело в том, что боты настроены на то, чтобы не класть сайт. Как правило, один бот, может и с разных IP, но работает не быстрее 1 запроса/сек. Соответственно, если он залезет куда-то в расчетное, вроде календаря на этом форуме, то будет занят этим достаточно длительное время, пытаясь сосканировать календарь до его начала или конца. В это время другие страницы будут ожидать очереди. Соответственно, в sitemap не надо указывать частое пересканирование страниц, которые на самом деле не обновляются. Еще один нюанс - не надо от Google закрывать в robots.txt страницы, если они в индекс уже попали. Бот будет как минимум очень долго долбиться, чтобы проверить, не открыли ли вы их, утекшие лишние страницы должны либо 404 выдать, либо в итоге содержать noindex.

У кого еще какие идеи?
 
08.07.2015 12:08  
OlegON
Да, забыл дополнить настоятельную рекомендацию мониторить по логам, где у вас в настоящий момент бот копается... Я бы так и не узнал, что он у меня в календаре роется на старте еще форумного индексирования, если бы не посмотрел.
 
 
Опции темы



Часовой пояс GMT +3, время: 04:56.

Все в прочитанное - Календарь - RSS - - Карта - Вверх 👫 Яндекс.Метрика
Форум сделан на основе vBulletin®
Copyright ©2000 - 2016, Jelsoft Enterprises Ltd. Перевод: zCarot и OlegON
В случае заимствования информации гипертекстовая индексируемая ссылка на Форум обязательна.