Многие российские интернет-ресурсы страдают крайне низким качеством. Например, портал ЕГАИС не поддерживает RSS, зато в странице вкрячены часы и какая-то еще ересь. Чисто из академического интереса поставил перед собой задачу отследить появление новостей на этой странице. Решил просто:
Код:
#!/bin/bash
egais=`curl -s 'http://egais.ru/news' | grep 'doc-link' | md5sum | cut -f1 -d' '`
egais2=`cat /tmp/egais`
if [[ ! "$egais" == "$egais2" ]]
then
echo $egais>/tmp/egais
echo Новости на http://egais.ru/news
... всякие доп. уведомлялки (я кидаю в Телеграм)
fi
Сначала сливаем контрольную сумму только ссылок (иначе изменение часов будет постоянно орать об изменении страницы), если не сходится с сохраненной - кричим о новости и записываем сумму. Можно кроме "echo Новости" никак не уведомлять, при правильно настроенном кроне это сообщение придет почтой.