November 11th, 2006

два граббера

Доброго времени суток!

Хочу сделать два аналитических граббера, но не знаю - как.

1)Первый должен периодически (раз в 5 минут, скажем) анализировать некую web-страницу, скажем - запрос к поисковику, и отправлять по почте на заданные адреса новые страницы, найденные на исходной, целиком. За исключением страниц, в урлах которых содержатся определенные фразы (например - собственные страницы поисковика)

2)Второй должен анализировать (скажем, раз в сутки) рейтинг типа top100.rambler.ru и складывать в файл/базу мускула некие данные оттуда (например, сайт + число посетителей).

Оказалось, западные товарищи сделали ряд систем, и довольно мощных - как десктопных, так и серверных (мне бы такое, чтобы на свой сервер поставить), так и решений по подписке с оплатой за количество. Ряд таких решений - здесь: http://www.kdnuggets.com/solutions/web-mining.html. Потихоньку их изучаю (QL2 интересная, Visual Web Task тоже), но вот пока не знаю - стоит ли стрелять из пушки по воробьям? Может, есть что-то более простое, русскоязычное, дешевое/бесплатное (поломанное), или кто делал уже подобное серверное кастом-решение? Поделитесь опытом!
  • Current Mood
    curious