Форум OlegON > Компьютеры и Программное обеспечение > Сеть > Создание сайтов и поисковая оптимизация (SEO)

Как бороться с ботами, копирующими сайт : Создание сайтов и поисковая оптимизация (SEO)

22.11.2024 18:18


04.01.2018 22:05
Бич современного интернета - боты, копирующие содержимое сайтов или его часть (например, цены интернет-магазинов).

Война идет, увы, с переменным успехом, поскольку в итоге пользователь использует технические средства, чтобы смотреть на сайт, а эти средства можно автоматизировать, чтобы копировать.

Ситуация ухудшается тем, что сканирующие сайт могут использовать прокси, я, например, столкнулся с одним из таких сканеров, в распоряжении которого были сотни тысяч IP-адресов. Банить такого после первого захода и то уже мало смысла. Банить надо до того, как он вообще какие-то данные получил.

Отсюда открытый до сих пор вопрос, как же отличить человека от бота и как можно не дать скопировать содержимое боту, но дать посмотреть его человеку.

Какие можно устраивать ловушки. Рассмотрю известные мне варианты и прошу добавлять свои идеи.

Для начала можно рассмотреть шифровку содержимого. В этом случае можно попрощаться с поисковыми ботами, хотя Яндекс и Google, например, простейшие скрипты пережевывают без проблем. Для усложнения жизни копирующим можно обфусцировать JS-код, например, .

Еще один вариант - ловушка для ботов, которые переходят по всем ссылкам на сайте. Делаете незаметный прозрачный GIF, кликабельный. В точке назначения определяете, например, что это не хост Google или Яндекса и баните бота. Люди по такой ссылке переходить не должны.

Еще один способ - редирект на какую-то страницу через JS. Отмечу, что способ очень древний и отлавливает только самых тупых ботов. Суть простая и расчитывать приходится только на то, что бот не исполнит JS. В заголовок страницы пихаете что-то вроде
Код:
<script>window.location.href = 'https://olegon.ru/pr/';</script>
люди переходят куда надо, боты остаются на старой странице. Беда в том, что большинство ботов это уже палят.

Вариант этого же - клик с редиректом
Код:
<script>
function redirect(){
window.location.href = 'https://olegon.ru/pr/';
}</script>
...
<body onload='setTimeout(redirect, 200);'></body>
Увы, сканирующий все ссылки бот это тоже попалит. Однако, на странице с редиректом можно поставить какие-то еще ссылки, по которым пойдет бот, но люди просто не успеют. Тут маленький нюанс, люди с GPRS видят очень много таких страниц :)
Часовой пояс GMT +3, время: 18:18.

Форум на базе vBulletin®
Copyright © Jelsoft Enterprises Ltd.
В случае заимствования информации гипертекстовая индексируемая ссылка на Форум обязательна.