FTP | CCD | Buscar | Trucos | Trabajo | Foros |
|
Registrarse | FAQ | Miembros | Calendario | Guía de estilo | Temas de Hoy |
|
Herramientas | Buscar en Tema | Desplegado |
#6
|
||||
|
||||
Creo que el Maestro Al se refiere a que uses "analizar (etc.)" en vez de "parsear". Yo no quería decir nada, porque luego me sacáis lo de la letra "x" y...
Respecto a extraer la información, hay que tener en cuenta que los documentos SGML tienen unas normas que facilitan el poder trocearlo para luego analizarlo. Y si partimos de XML, que es más estricto y gerárquico, pues la cosa es incluso más fácil. El último HTML es casi XML, mientras que los anteriores son SGML. El problema que veo es que la mayor parte de los documentos que hay en la WWW no están bien formateados, porque o no cumplen con el HTML que le corresponde (y a veces ni siquiera con SGML), o no usan correctamente las etiquetas (por ejemplo, usar <table /> como complemente cosmético, o usar <ul /> en vez de <dl />, etc.). Y con HTML5 (que incluye <nav />, <sumary />, <article /> y demás) no creo que lo hagan mucho mejor... Última edición por Ñuño Martínez fecha: 09-05-2011 a las 17:26:36. |
|
|
Temas Similares | ||||
Tema | Autor | Foro | Respuestas | Último mensaje |
Tipo desconocido en SQL | Pedro-Juan | SQL | 5 | 06-03-2008 22:52:18 |
El Ministerio de Agricultura y Pesca de Francia cambia a Linux | Casimiro Notevi | Noticias | 6 | 16-07-2007 19:49:12 |
StarTeam, ese desconocido | [Gunman] | Varios | 5 | 31-01-2007 18:10:54 |
DLL con nombre desconocido | ixMike | Varios | 2 | 28-06-2006 11:05:02 |
Es un camino desconocido | Oxa78 | Varios | 11 | 25-11-2004 09:47:03 |
|