Foros Club Delphi - Ver Mensaje Individual

mamcx · #7 08-11-2006

El temor #1 es que automatizar un sitio puede destrozarlo en pocos segundos, si se hace bajo la filosofia normal (hacer el programa lo *mas* rapido posible).

Lo que estas haciendo es un webcrawler / screen scraping. No hay nada extraño alli, pero es importante que conozcas las buenas costumbres que deben seguir quienes hacemos de esto:

http://www.searchtools.com/robots/robot-checklist.html

He hecho unos cuantos programas de estos (o usado) y mientras mantengas las normas de cortesia y mantengas los gastos de recuersos a un nivel aceptable, todo bien.

Por ejemplo, para un trabajo reciente monte mi crawler en un servidor VPS y lo deje corriendo por dias. DIAS. El codigo pudo barrer con el sitio en unos 70 minutos pero la verdad? Es innecesario.

Por otro lado, si esta seriamente pensando en hacer un crawler generico date varias bofetadas en la cara y mirate todas las peliculas de terror que puedas haber si escarmentas

Es un asunto muy serio y, mejor dicho, muy complicado (pero no necesariamente muy demorado, algo complicado se puede resolver rapido).... empezando por el hecho que la mayoria de los sitios se hacen con desconocimiento de los estandares a todo nivel (html, http, dns, y sentido comun) y que la mayoria de los sitios presumen que seran vistos por un humano y no por una maquina, lo que conlleva a varias "sorpresas" que reversan los conceptos que uno suponen aplicarian a este tipo de software.

Entre otros, seria muy buena idea mezclar un crawler con un saneador html y otra serie de programas de ayuda...

Este libro me parecio excelente:

http://www.amazon.com/Mining-Web-Hyp.../dp/1558607544

Y seria bueno que leyeras bastante antes de entrarle serio.