PDA

Ver la Versión Completa : Sobre Automatización y WebBots (Spiders)


Chris
14-01-2009, 20:51:12
Hola compañeros!

Primero, creo que ese es el término para referirse a los robots de la Web (WebBots) ó "Spiders" ????

Voy directo al grano. La cosa es que administro un pequeño sitio en donde intercambiamos enlaces (http://www.terramark-ip.com), la cosa es que ya estoy harto de estar metiendo cada enlace a mano, y más ahorita tengo como cincuenta que no he metido porque ese trabajo me parece aburrido y tampoco he tenido mucho tiempo. (algunos deben saber lo que implica hacer todo esto a mano)

Lo que ando buscando es hacer un sistema de automatización con PHP. Ya sé cómo hacer un sistema de registro de enlace conectados a una DB y cómo adnistrarlos y presentarlos en una página Web.

Ahora, invito a la señora "Complicación", o mejor, a la señora "Ignorancia" a que se haga presente: ¿Cómo puedo hacer un robot que verifique que el otro sitio tenga un enlace hacía mi sitio?

Y además, ¿Cómo puedo programar a un robot para que haga el checkeo de todos los sitios registrados para ver si éstos aún contienen un enlace hacía el mío? (Programar este checkeo semanalmente, por ejemplo. Tengo que recalcar que mi sitio está en un servidor compartido (1and1.com).

Les agradecería muchísimo cualquier ayuda al respecto. Ojalá esto sea un poco fácil y pequeño pues tengo planeado escribir código durante mis ratos libres.

Saludos.

PD.: Si el trabajo final vale la pena y puede ser de utilidad a alguien más, loo publicaré bajo GNU/GPL.

dec
22-02-2009, 11:01:12
Hola,

Para saber si una página web enlaza con otra, personalmente, no se me ocurre sino averiguar si dicha página web contiene una determinada URL. Es decir, se trata de obtener la página web (su código HTML) y utilizar una "simple" función que busque la URL que nos interesa. Si existe la URL, la página nos está enlazando. Si no exista la URL, consideramos que la página no nos enlaza. Todo esto acaso se complique un poco, puesto que habría que saber, para empezar, qué página del sitio web hemos de revisar. ¿La portada? ¿Quizá alguna otra página "interior"? ¿Todas las páginas del sitio? El asunto puede complicarse...

Ahora bien, sobre cómo automatizar todo este asunto, lo cierto es que no he tenido la oportunidad de trabajar con "CRON" o algo similar en un servidor, una especie de "sistema" que permita la ejecución de ciertas tareas cada determinado tiempo. Si obviamos este asunto, lo que es seguro es que podrías preparar un "script" que hiciera lo dicho en el primer párrafo no ya con un sitio web, sino con los que fuera menester. Tal vez, digo, pueda omitir el uso algo como "CRON", puesto que uno mismo podría encargarse de ejecutar el "script" en cuestión una vez a la semana, por ejemplo.

En definitiva, yo investigaría más acerca de "CRON", de si es posible usarlo en tu servidor, o si se cuenta con algo parecido. Luego, a la hora de llevar a cabo el "script" que compruebe lo de los enlaces en los sitios web... creo que podríamos echarte una mano: sería cuestión de que te pusieras a ello, y de que se acotasen un poco más las especificaciones. Está claro que no debe ser lo mismo preparar un "script" que revise un par de sitios web en busca de ciertas URLs, que programar un "robot" como el que use Google o sitios así... eso ya es harina de otro costal, como suele decirse.