Часто вебмастер рассматривает robots.txt, как панацею от всех своих проблем и начинает набивать его инструкциями всяческого рода, включать всех проходящих мимо ботов и т.п.
Не надо это делать.
Я рекомендую запрещать в robots.txt только пару страниц, вроде страниц регистрации, логина и разных форм отправки. Остальное все, что туда обычно запихивают, там размещать не нужно. Хорошо бы перечислить в robots.txt URI карт сайта, поскольку большинство ботов именно там их и находят. Все. Не надо писать многокилометровые инструкции куда надо ходить и куда не надо. Не надо поименно перечислять всех ботов мира.
Во-первых, robots.txt - рекомендательная инструкция для бота. Т.е. даже если вы там закрываете что-то, это что-то в некоторых случаях может попасть в индекс. Более того, если бот вдруг спохватится, то он эти страницы не сможет выкинуть, поскольку они закрыты в robots.txt и сканировать их запрещено. Такое вот противоречие.
Во-вторых, изменение robots.txt - стресс для сайта, поскольку считается изменением сайта, в некоторых случаях можно внезапно словить переоценку.
В-третьих, момент изменения в случае неудачного кеширования может выдать боту совсем не тот robots.txt, который бы вы хотели. Более того, бот сам может глюкануть. И будет robots.txt не старый, и не новый, а что-то из разряда фантазий Малевича.
Ну и, наконец, большинство любителей многостраничных robots.txt в итоге сами в инструкциях и путаются, запрещая что-то не сразу заметное, но ломающее индексацию сайта.
Учитесь оперировать другими средствами. В их число входят canonical, noindex, nofollow и правильные коды ответов страниц.