![]() |
![]() |
| Paypal | FTP | CCD | Buscar | Trucos | Trabajo | Foros |
|
|||||||
| Registrarse | FAQ | Miembros | Calendario | Guía de estilo | Buscar | Temas de Hoy | Marcar Foros Como Leídos |
|
|
Herramientas | Buscar en Tema | Desplegado |
|
#4
|
||||
|
||||
|
Lo que quiero al final es un sistema que genere clustering automatico, como en www.clusty.com (denle una busqueda)
Uno de los algoritmos mas prometedores es: http://www.knowledgesearch.org/lsi/lsa_explanation.htm Miren la explicacion..... La trampa es que se hace una matriz de palabras VS documentos y se pone un valor que puede ser el numero de veces que aparece o un dato que lo da MUTIS. Sobre ese valor, se corre SVD, que da una matriz lista. Sobre ella se corre la busqueda de palabra y luego se saca un top 10 de cluster. Porque tan grande? MUTIS es el fundamento de un buscador para LAN. Mi meta es poder indexar hasta 50 computadores con sus archivos, base de datos, correos, todo eso. Supongamos que hay 50.000 archivos con informacion de texto x 50 computadores eso da unos 2'500.000 de documentos y que cada documento tenga unas 50 palabras (despues de quitarles las stop words y reducir los fonemas) 50*50.000*50 = 12'500.000. Es muy bravo, lo se. El problema es que llevo como mas de 1 año buscando como hacer esto... pero todo el codigo que consigo es de cientificos que a) No se entiende b) Es absurdamente ineficiente, cuando se entiende... c) Otros frameworks me salen en Java que son muy monstruosos o de soluciones que no me convencen. Hay un tipo frances que me remitio una tipa de MS del grupo de research del motor de busqueda de MS que dice tiene una solucion escalable y me mando algo de codigo en C y Perl, pero todavia no le veo como es que funciona... En fin, la solucion ideal es un algoritmo que genere clusters, automaticos. O algo que me permita moler esa informacion...
__________________
El malabarista. |
| Herramientas | Buscar en Tema |
| Desplegado | |
|
|
Temas Similares
|
||||
| Tema | Autor | Foro | Respuestas | Último mensaje |
| arrays | nenufer | Varios | 7 | 13-05-2006 21:44:51 |
| ¿Cómo Modificar un Registro de Tabla más Eficiente? | MartinC | MySQL | 1 | 16-03-2005 14:04:31 |
| ¿ Qué tan eficiente es Delphi? | MARVIALI | Conexión con bases de datos | 1 | 07-12-2004 18:35:52 |
| ¿q es màs eficiente? | TURING | Varios | 2 | 12-05-2004 07:11:44 |
| Que es más eficiente, un procedimiento almacenado o un select de una vista | Carlitos | Firebird e Interbase | 7 | 27-10-2003 11:12:09 |
|