FTP | CCD | Buscar | Trucos | Trabajo | Foros |
|
Registrarse | FAQ | Miembros | Calendario | Guía de estilo | Temas de Hoy |
|
Herramientas | Buscar en Tema | Desplegado |
#1
|
||||
|
||||
BD muy grandes ¿Qué criterio usar?
Hola gente!
Estoy trabajando en un sistema de administración documental, donde se manejan imágenes escaneadas con un tamaño total que superan los 50 GB (entre texto e imágen). El sistema deberá ser multiusuario y web. Supongo que las mejores opciones para desarrollarlo serían con Java, Visual Studio o alguna de las versiones de Delphi .Net. Las dudas que se me plantean con este problema son las siguientes: ¿Qué motor es es que más me conviene usar? ¿Conviene (o posible), guardar las imágenes en la BD? Suponiendo que cada colección documental esté en un promedio de 50 GB, y tenga alrededor de 9 colecciones ¿Conviene tener una BD para cada colección o es preferible tener una sola BD para todas, ya que debo realizar búsquedas cruzadas entre las colecciones ? ¿Suponiendo que el texto escaneado esté entre 1 GB y 2 GB (creo que exagerando un poco), cuál es el tipo de campo que debo usar para lograr la mejor performance de búsqueda? Creo que por ahora es sólo eso. Seguramente se me plantearán más dudas todavía. Muchas gracias y saludos! |
#2
|
|||
|
|||
Hola, no se si te valdria mas la pena crearte tu propio sistema, dejando las imagenes en archivos comprimidos tal cual y de igual manera el texto, mientras que en la base de datos tansolo poner las referencias a estos archivos. Podrias, por ejemplo, por cada entrada de la base de datos tener un directorio y dentro de este la información en archivos mas optimizados segun el tipo de dato. saludos.
|
#3
|
||||
|
||||
Hola PaFernan99,
Estoy con coso, no creo que sea tan viable empezar un sistema de cero. A menos que sea demasiado a la medida, y tengas los recursos, el presupuesto y el tiempo necesario me parece que es mejor buscar algo ya hecho. ¿Es para ti el sistema? ¿Para un cliente en particular? O por el contrario... ¿Un desarrollo genérico y con posibilidad de licenciamiento a muchas empresas? Aqui en Salta, PLUMADA ofrece un servicio de gestión y resguardo de información tanto física como digital. ¿No hay una empresa así por allí? Eso si, los servicios de PLUMADA no son tan baratitos que digamos. Saludos, |
#4
|
|||
|
|||
Cita:
|
#5
|
||||
|
||||
Juraría haber leído un "Pero" entre "...tu propio sistema," y "dejando las imágenes..."
No más digo que tal vez lo mejor, como una opción o alternativa a contemplar es emplear algo ya hecho. En este caso, yo di el ejemplo de PLUMADA, que ofrece el servicio de resguardo y gestión de documentos físicos y digitales (que no es lo único que hace). En fin, ya nos dirá PaFernan99 que es lo que se está buscando. Saludos, |
#6
|
|||
|
|||
No no, mi idea era que creara un sistema de carpetas, correspondiendo cada directorio a una entrada en la base de datos. Si pone imagenes de 10Gb y cosas por el estilo (por otra parte, que lo veo muy exagerado) lo mejor seria trabajar con el formato nativo de las imagenes, ya que tendran su propio tipo de compresion, etc...si se pone raw data en la base de datos, quiza cada entrada te ocupa ...no se...230 Gb. Hacer un browse a una base de datos asi seria lentisimo. Te recomiendo otra vez eso mismo: usar en tu bd tansolo las referencias a los archivos, y crear un sistema fijo de directorios,etc...cargando y haciendo previews segun necesites. De todas maneras, si se opta por un alojamiento externo, la velocidad de subida y bajada de red tendra que ser mas que aceptable para que tu programa no se vaya estancando cada segundo.
|
#7
|
||||
|
||||
Cita:
En este punto si estamos de acuerdo. No es viable estar guardando en la base de datos imágenes o documentos que pesen tanto... En este caso creo que lo mejor es tener la ruta guardada, y en un/os directorio/s específico las imágenes y documentos. Ahora que leo bien lo que nos aportó PaFernan99, no se si los servicios de PLUMADA sean tan orientados a la web Saludos, |
#8
|
||||
|
||||
Hola coso y Delphius!
Gracias por vuestras opiniones. Con respecto a lo que decías Delphius, desarrollar el sistema no solo es viable, sino imprescindible. Estoy trabajando en un archivo documental muy importante en cuando a volumen (el más importante de sudamérica, está aca en Argentina ). Tu propuesta es valedera, coso, ya que actualmente tienen un sistema funcionando así, pero que fue desarrollado a principios del 2000, y les ha quedado muy chico (8 de las 9 colecciones quedaron afuera). Utilizan un motor SQL server. ¿Tu sugerencia es que haga las búsquedas en los archivos de texto directamente, o utilice la BD para almacenar el texto, realizar las búsquedas sobre este y recuperar las imágenes por medio de la referencia? Olvidemonos ya de cargar las imágenes en la BD, eso queda descartado. Gracias por la ayuda! |
#9
|
|||
|
|||
Bueno, quiza seria mejor usar la bd unicamente para referenciar los archivos (aunque de la manera que hablas, con solo 9 "colecciones", tampoco haria mucha falta usar una base de datos). En cuanto a buscar texto dentro de cada coleccion, etc, usaria mas bien codigo propio, o bien llamando a programas externos (por ejemplo, crear un grep.exe o usar alguno existente, pues es algo antiguo y los hay de muy muy buenos) que escanearan los archivos, recogiendo su resultado y que lo mostrase tu programa
Última edición por coso fecha: 07-11-2008 a las 17:08:47. |
#10
|
||||
|
||||
Y que contiene cada coleccion? Se les hace OCR a las imagenes? Que es lo que se busca?
__________________
El malabarista. |
#11
|
||||
|
||||
A mi me falta información para poder decidir sobre este tema:
- Cada colección tiene 50GB de qué? (qué tipo de imagen, texto, video, audio, etc.) - Esa colección es un solo archivo o está separado en miles de archivos (imágenes, textos, etc.) Si son miles de archivos, podrás utilizar la base de datos para buscarlos, si son solo 9 archivos, no vale la pena. Cuando quieras seleccionar algo que haz encontrado, y quieras traértelo, - ¿Te traerás 50GB? - ¿Te traerás 1 o 2 GB de texto? - ¿Te traerás pocos megas de una imagen o un archivo? - ¿Te traerás solo el nombre y la descripción del archivo? Una base de datos, con un campo blob que tenga que traerse mas de 100MB supongo que será muy lento. También te puedes hacer un diccionario en una base de datos que te dijera que palabra de más de 4 letras está en qué archivo y así poder hacer búsquedas. Todo esto, también hay que pensarlo en cuanto a velocidad de subida/bajada. - Si es a travez de internet y tienes que bajar una colección serán 50GB. - Si es a travez de internet y tienes que bajar un texto serán 1-2GB. - Si es a travez de internet y tienes que bajar parte de un texto. |
#12
|
||||
|
||||
Ejem, un punto de vista diferente: Los campos Blob no se guardan como un campo más del registro. En realidad, en el registro se guarda un IDBlob, el blob físico por tanto, quedará en otra parte del archivo. Por ello la "eficiencia" no tiene nada que ver con la longitud del campo Blob.
Incrustar imágenes en la BBDD está justificado para no lidiar con rutas que algún avispado, pueda cambiar el nombre del archivo/carpeta. Dejar los archivos fuera está justificado para no lidiar con un sólo archivo de 500 GB, por ejemplo. Para más información consultar el buscador, ya hay discusiones suficientes como para empezar otra, además veo que PaFernan99 ya tomó una decisión al respecto. Volviendo al tema: yo opino de forma distinta a coso. Yo Incluiría todos los textos dentro de la BBDD; fuera de ella sólo los archivos de gran tamaño. Esto te permite: - hacer búsquedas flexibles sin necesidad de herramientas externas. - Unir la información de varias tablas (muy posiblemente distintos archivos) haciendo la búsqueda más compacta y eficiente. - filtros muy especializados. - etc. En cuanto al texto no lo tengo claro, dices que la imagen escaneada es de 1 GB pero, ¿tienes posibilidad de pasarlo al bloc de notas y guardarlo para saber el tamaño real del texto? Si son grandes descripciones o artículos de revista, te sería de gran utilidad guardar palabras de referencia para las búsquedas (algo así como los tags de las páginas web o Youtube), en lugar de buscar en el texto del artículo, buscas en esas referencias. Sin duda acortaría las búsquedas muchísimo. OFFTOPIC: coso, yo sólo tengo 9 propiedades... no es mucho, algunas son: BP, CARREFOUR, EL CORTE INGLÉS, GM, SPAINAIR... ¿tendré volumen de información que guardar . Saludos
__________________
Si usted entendió mi comentario, contácteme y gustosamente, se lo volveré a explicar hasta que no lo entienda, Gracias. |
#13
|
|||||
|
|||||
bueno, la polemica esta servida:
se guarda el id y el raw data, si tienes una imagen jpeg de 25 gb comprimida y la guardas tipo raw (o sea el estilo BLOB habitual, a no ser que quieras trabajar un poco) probablemente te crecera a unos 125 gb. Creo que es mejor dejarlo en formato jpg, no? Cita:
Cita:
Cita:
Cita:
Cita:
Última edición por coso fecha: 07-11-2008 a las 17:50:06. |
#14
|
||||
|
||||
No, no lo está porque no estoy por la labor de crear polémica .
[/quote] Me refería a cuanto ocupa en modo texto ese giga escaneado en forma bitmap. Saludos
__________________
Si usted entendió mi comentario, contácteme y gustosamente, se lo volveré a explicar hasta que no lo entienda, Gracias. |
#15
|
|||
|
|||
Cita:
Última edición por coso fecha: 08-11-2008 a las 00:17:16. |
#16
|
||||
|
||||
Buena respuesta .
Volvamos al topic, según algunos compañeros faltan datos (estoy de acuerdo), si fuera posible concretar un poco más, quizás tengan algún As escondido debajo de la manga. Saludos
__________________
Si usted entendió mi comentario, contácteme y gustosamente, se lo volveré a explicar hasta que no lo entienda, Gracias. |
#17
|
||||
|
||||
Perdón por la tardanza...
Perdón por la tardanza pero estuve fuera unos días.
En las próximas horas voy a revisar leer este topic y a responder a las preguntas realizadas para profundizar mas en este tema. En este momento no me es posible... Saludos y mil gracias a todos! |
#18
|
||||
|
||||
Bueno, ahora mismo estoy evaluando la implantación de un sistema de Gestión Documental; Con otras características y más pequeño, pero al final un sistema documental, así que el temame interesa. En nuestro caso, no lo vamos a implementar, pero tal vez sí tengamos que hacer módulos de integración.
Cita:
El tema de las imágenes, yo recomendaría fuera. Si Suponemos que todo el peso de las imágenes va a estar fuera de la Base de Datos, yo optaría por tener todas las colecciones en la misma DB. El tema del texto, no me queda claro cómo lo vas a hacer. No se si quieres escanear TODOS los documentos y guardar TODAS las palabras para luego poder buscar o escanear documentos y guardar lo que serían TAG's asociados a cada documento para luego poder buscar por esos TAG's. Dependiendo de lo que necesites tal vez sea mejor tirar por un sitio o por otro. Nuestro caso es el segundo. Escaneamos documentos a PDF y se guardan (se deben guardar) algunas referencias a ese documento para después buscar. En este caso, los documentos van fuera (PDF firmado) y las palabras se guardan dentro. Otras opciones, aunque no las he evaluado odavía son motores de búsqueda externos que permiten buscar dentro de documentos escaneados en PDF.
__________________
Germán Estévez => Web/Blog Guía de estilo, Guía alternativa Utiliza TAG's en tus mensajes. Contactar con el Clubdelphi P.D: Más tiempo dedicado a la pregunta=Mejores respuestas. |
#19
|
||||
|
||||
Cita:
Tal vez deba aclararlo. Una imagen de 25 GB debe ser la luna escaneada palmo a palmo... Podría ser una foto de 40x30 metros escaneada a 5 Megapixels.
__________________
Germán Estévez => Web/Blog Guía de estilo, Guía alternativa Utiliza TAG's en tus mensajes. Contactar con el Clubdelphi P.D: Más tiempo dedicado a la pregunta=Mejores respuestas. Última edición por Neftali [Germán.Estévez] fecha: 13-11-2008 a las 12:11:35. |
#20
|
|||
|
|||
si, ahora mismo estaba releyendo y lo seguia encontrando exagerado...hasta que vi la palabra total voy a tener que graduarme las gafas
|
|
|
Temas Similares | ||||
Tema | Autor | Foro | Respuestas | Último mensaje |
Propiedad tableName,al criterio | look | SQL | 2 | 16-10-2007 01:54:32 |
Busquedas por cualquier criterio, sin especificar ninguno | Wonni | SQL | 15 | 14-03-2007 19:30:13 |
Una jábega de cantamañanas se pasa por el forro, cuando le conviene, el criterio.. | marcoszorrilla | La Taberna | 4 | 02-01-2007 11:15:25 |
Grandes frases de grandes personas | Nuria | Humor | 7 | 18-04-2004 05:40:17 |
tablas grandes | Giniromero | Firebird e Interbase | 4 | 14-04-2004 18:18:48 |
|