FTP | CCD | Buscar | Trucos | Trabajo | Foros |
|
Registrarse | FAQ | Miembros | Calendario | Guía de estilo | Temas de Hoy |
|
Herramientas | Buscar en Tema | Desplegado |
|
#1
|
||||
|
||||
El título del libro es ya es de por si 100% explícito "Webbots, spiders and screen crapers".
Por lo que todo lo que puedas aportar será bienvenido. En mi caso comentaré, que el tema de usar parseadores de texto, no siempre me funciona. ¿Que te parece usar DOMelement para ello? Permite cargar un trozo de código HTML en una objeto de esa clase y luego tratarlo y demás. El único problema es la poca documentación que he encontrado al respecto, pero tanto trabajar con DOM en javascript, hace que me resulte mas cómodo Supongo que cuantos mas métodos mejor.
__________________
"El aprendizaje potencia la intuición" Yo mismo, en un momento de inspiración. v2.0 |
#2
|
||||
|
||||
analizador sintáctico
análisis de sintaxis analizar sintaxis |
#3
|
||||
|
||||
Primero y luego .
Buenas Al ¿podrías explayarte un poco mas? Por favor.
__________________
"El aprendizaje potencia la intuición" Yo mismo, en un momento de inspiración. v2.0 |
#4
|
||||
|
||||
Creo que el Maestro Al se refiere a que uses "analizar (etc.)" en vez de "parsear". Yo no quería decir nada, porque luego me sacáis lo de la letra "x" y...
Respecto a extraer la información, hay que tener en cuenta que los documentos SGML tienen unas normas que facilitan el poder trocearlo para luego analizarlo. Y si partimos de XML, que es más estricto y gerárquico, pues la cosa es incluso más fácil. El último HTML es casi XML, mientras que los anteriores son SGML. El problema que veo es que la mayor parte de los documentos que hay en la WWW no están bien formateados, porque o no cumplen con el HTML que le corresponde (y a veces ni siquiera con SGML), o no usan correctamente las etiquetas (por ejemplo, usar <table /> como complemente cosmético, o usar <ul /> en vez de <dl />, etc.). Y con HTML5 (que incluye <nav />, <sumary />, <article /> y demás) no creo que lo hagan mucho mejor... Última edición por Ñuño Martínez fecha: 09-05-2011 a las 17:26:36. |
#5
|
||||
|
||||
Cita:
Cita:
Por eso sopeso cargar en el objeto DOM el código y luego iterar entre las distintas tablas hasta encontrar los indicadores correctos que me marquen el tesoro (o datos a buscar ) Realmente la gente maqueta con los pies, madre de dios cuantas tablas se usan para que quede "bonito"
__________________
"El aprendizaje potencia la intuición" Yo mismo, en un momento de inspiración. v2.0 |
#6
|
||||
|
||||
Primero y luego
Je, je, // Saludos |
#7
|
||||
|
||||
Bendita dislexia
Tengo problemas con la jerarquía, siempre los he tenido.
Y para colmo, últimamente, mi antes superficial dislexia ha aumentado exponencialmente. Tengo que releer mis textos como diecisiete veces, y aun así se me escapan errores (ni el rojo del corrector automático veo, ya). |
#8
|
||||
|
||||
Bueno bueno,
como lo haríais para analizar tablas dentro de tablas dentro de tablas (repetir n veces), la forma que tengo de analizar las webs, es primero buscar una "marca del tesoro", una cadena de texto que identifique el elemento contenedor de los datos que necesito extraer; puede ser un título o una cosa similar, exclusiva al 100%. Adjunto un fichero de ejemplo, donde quiero sacar los datos "Equivalencias": Código:
<td valign="top" colspan="2" class="textos"> HITACHI:<br> S114-850, -A,-B,-C<br> OPEL:<br> 1202033<br> 1202146<br> 1202161</td> De hecho, ahora usaba la función Código PHP:
Un ejemplo de programa en PHP: Código PHP:
__________________
"El aprendizaje potencia la intuición" Yo mismo, en un momento de inspiración. v2.0 Última edición por papulo fecha: 10-05-2011 a las 12:50:56. |
|
|
Temas Similares | ||||
Tema | Autor | Foro | Respuestas | Último mensaje |
Tipo desconocido en SQL | Pedro-Juan | SQL | 5 | 06-03-2008 22:52:18 |
El Ministerio de Agricultura y Pesca de Francia cambia a Linux | Casimiro Notevi | Noticias | 6 | 16-07-2007 19:49:12 |
StarTeam, ese desconocido | [Gunman] | Varios | 5 | 31-01-2007 18:10:54 |
DLL con nombre desconocido | ixMike | Varios | 2 | 28-06-2006 11:05:02 |
Es un camino desconocido | Oxa78 | Varios | 11 | 25-11-2004 09:47:03 |
|