Club Delphi  
    FTP   CCD     Buscar   Trucos   Trabajo   Foros

Retroceder   Foros Club Delphi > Otros entornos y lenguajes > Lazarus, FreePascal, Kylix, etc.
Registrarse FAQ Miembros Calendario Guía de estilo Buscar Temas de Hoy Marcar Foros Como Leídos

Respuesta
 
Herramientas Buscar en Tema Desplegado
  #1  
Antiguo 23-11-2017
Avatar de anubis
anubis anubis is offline
Miembro
 
Registrado: mar 2007
Posts: 863
Poder: 18
anubis Va por buen camino
Sacar datos de un pdf

Buenas amigos,

Tenía tiempo que no entraba al foro porque, por motivos personales, no he tocado la programación .
Vuelvo un poco a la carga a ver si es posible hacer lo siguiente:

Necesito saber si es posible sacar los datos de un archivo pdf que no ha sido escaneado. Si lo abro puedo copiar, pero necesitaba ver si, al abrirlo de alguna forma con lazarus, sacar los datos sin tener que recurrir a seleccionar texto.

Igual no se puede, pero me resultaría muy útil.

Saludos y gracias
Responder Con Cita
  #2  
Antiguo 23-11-2017
Avatar de Casimiro Notevi
Casimiro Notevi Casimiro Notevi is offline
Moderador
 
Registrado: sep 2004
Ubicación: En algún lugar.
Posts: 32.021
Poder: 10
Casimiro Notevi Tiene un aura espectacularCasimiro Notevi Tiene un aura espectacular
Depende, poder se puede, pero si quieres automatizarlo tendrás que buscar una referencia en texto del mismo, por ejemplo, si en el pdf pone algo así como: "Reunidos de una parte D. xxxxxxxxxx ......"
Y quieres extraer el nombre después de "D.", podrás automatizarlo leyendo el pdf y buscando la cadena: "Reunidos de una parte D." y copiando el texto que venga después.
Si es algo "aleatorio" y sin referencias fijas para buscar, difícil lo veo.
Responder Con Cita
  #3  
Antiguo 23-11-2017
Avatar de Neftali [Germán.Estévez]
Neftali [Germán.Estévez] Neftali [Germán.Estévez] is offline
[becario]
 
Registrado: jul 2004
Ubicación: Barcelona - España
Posts: 18.233
Poder: 10
Neftali [Germán.Estévez] Es un diamante en brutoNeftali [Germán.Estévez] Es un diamante en brutoNeftali [Germán.Estévez] Es un diamante en bruto
Recuerdo haber mirado esto hace tiempo, y hay algunas herramientas gratuítas que te permiten, por ejemplo, extraer el texto de un PDF.
Si esto te sirve puedes llamar a alguna de estas herramientas (de consola algunas) y una vez obtenido el texto, parsear los datos que necesites.
__________________
Germán Estévez => Web/Blog
Guía de estilo, Guía alternativa
Utiliza TAG's en tus mensajes.
Contactar con el Clubdelphi

P.D: Más tiempo dedicado a la pregunta=Mejores respuestas.
Responder Con Cita
  #4  
Antiguo 23-11-2017
bucanero bucanero is offline
Miembro
 
Registrado: nov 2013
Ubicación: Almería, España
Posts: 208
Poder: 11
bucanero Va camino a la fama
Hola,

Yo utilizo una DLL para extraer el contenido de los PDF, en concreto PDFtext.dll que es totalmente funcional en su versión shareware, solamente sale una ventana tipo popUp cada vez que se extrae el texto, por lo demas es bastante fácil de utilizar, sin dependencias a ADOBE o cualquier otro programa externo.

La web de descarga es http://www.is-soft.de/pdfanalyzer/mdownloads.html
y el uso es tan simple como:

Código Delphi [-]
 function GetPDFPageCount(const FileName:PWideChar):LongInt;  stdcall; external 'PDFtext.dll';
 function GetPDFText(const FileName: PWideChar;
    opt: LongInt=3;
    hw: LongInt=0;
    fast: LongInt=0;
    target: PWideChar=0;
    lspaces: LongInt=1;
    ptitel: PWideChar=0;
    pos:  LongInt=0;
    page: LongInt=0;
    clock: LongInt=0;
    blank: LongInt=0;
    ende: LongInt=0;
    wlist: LongInt=0): pWidechar; stdcall; external 'PDFtext.dll';

...

  texto:=GetPdfText(PWideChar(FileName));

Espero sea de utilidad
Un saludo
Responder Con Cita
  #5  
Antiguo 23-11-2017
Avatar de anubis
anubis anubis is offline
Miembro
 
Registrado: mar 2007
Posts: 863
Poder: 18
anubis Va por buen camino
Gracias amigos.
Si, los pdf provienen de archivos xml tal cual están. No tengo los xml por eso me interesaba "algo" que pudiera leerlos y de ahi extraer los textos que necesito.
Como tienen la estructura xml ya tengo las referencias a buscar.

Voy a probar la dll que me pone bucanero a ver que sale..

muchas gracias de nuevo
Responder Con Cita
  #6  
Antiguo 23-11-2017
Avatar de anubis
anubis anubis is offline
Miembro
 
Registrado: mar 2007
Posts: 863
Poder: 18
anubis Va por buen camino
Hola de nuevo,

Estoy intentando implementar el codigo de bucanero, pero me da error en la llamada.

Código Delphi [-]
unit Unit1;

{$mode objfpc}{$H+}

interface

uses
  Classes, SysUtils, FileUtil, Forms, Controls, Graphics, Dialogs, StdCtrls;

type

  { TForm1 }

  TForm1 = class(TForm)
    Button1: TButton;
    OpenDialog1: TOpenDialog;
    procedure Button1Click(Sender: TObject);

  private
    { private declarations }
  public

    { public declarations }

      function GetPDFPageCount(const FileName:PWideChar):LongInt;  stdcall;
 function GetPDFText(const FileName: PWideChar;
    opt: LongInt=3;
    hw: LongInt=0;
    fast: LongInt=0;
    target: PWideChar=0;
    lspaces: LongInt=1;
    ptitel: PWideChar=0;
    pos:  LongInt=0;
    page: LongInt=0;
    clock: LongInt=0;
    blank: LongInt=0;
    ende: LongInt=0;
    wlist: LongInt=0): pWidechar; stdcall;
  end;

var
  Form1: TForm1;

implementation

{$R *.lfm}

{ TForm1 }

procedure TForm1.Button1Click(Sender: TObject);
var
  filename:string;
  texto:string;
begin
 if opendialog1.Execute then
 begin
   filename:=opendialog1.FileName;
     texto:=GetPdfText(PWideChar(FileName));

 end;
end;
 function GetPDFPageCount(const FileName:PWideChar):LongInt;  stdcall; external 'PDFtext.dll';
 function GetPDFText(const FileName: PWideChar;
    opt: LongInt=3;
    hw: LongInt=0;
    fast: LongInt=0;
    target: PWideChar=0;
    lspaces: LongInt=1;
    ptitel: PWideChar=0;
    pos:  LongInt=0;
    page: LongInt=0;
    clock: LongInt=0;
    blank: LongInt=0;
    ende: LongInt=0;
    wlist: LongInt=0): pWidechar; stdcall; external 'PDFtext.dll';
end.
Cita:
unit1.pas(58,44) Error: Incompatible types: got "ShortInt" expected "PWideChar"
También busqué en el ejemplo de la propia dll pero lo maneja un poco diferente.
Responder Con Cita
  #7  
Antiguo 23-11-2017
bucanero bucanero is offline
Miembro
 
Registrado: nov 2013
Ubicación: Almería, España
Posts: 208
Poder: 11
bucanero Va camino a la fama
Hola Anubis

Tu código lo he probado y a mi me funciona correctamente, Imagino que si te da error podrá ser por la versión de la DLL, en mi caso estoy usando la 4.0.0, creo que en la web ya es posterior.

Voy a intentar hacer pruebas con la versión de la web y comento
Responder Con Cita
  #8  
Antiguo 23-11-2017
bucanero bucanero is offline
Miembro
 
Registrado: nov 2013
Ubicación: Almería, España
Posts: 208
Poder: 11
bucanero Va camino a la fama
La ultima versión de la DLL es la misma que estoy utilizando yo, las pruebas las hice con la versión de 32 bits y con este PDF de ejemplo, el cual conseguí leer sin problemas:

http://www.ite.educacion.es/formacio...pdf/html11.pdf

la única diferencia respecto de tu código y el mio es que yo solo declaro las funciones en la parte de la INTERFACE, fuera del FORM

Código Delphi [-]
type
  TForm1  
    ...
  end;

  function GetPDFPageCount(const FileName:PWideChar):LongInt;  stdcall; external 'PDFtext.dll';
  function GetPDFText(const FileName: PWideChar;
    opt: LongInt=3;
    hw: LongInt=0;
    fast: LongInt=0;
    target: PWideChar=0;
    lspaces: LongInt=1;
    ptitel: PWideChar=0;
    pos:  LongInt=0;
    page: LongInt=0;
    clock: LongInt=0;
    blank: LongInt=0;
    ende: LongInt=0;
    wlist: LongInt=0): pWidechar; stdcall; external 'PDFtext.dll';

var
  Form1: TForm1;

implementation

{$R *.dfm}

procedure TForm1.Button1Click(Sender: TObject);
var
  filename: string;
  texto: string;
begin
  if opendialog1.Execute then begin
    filename := opendialog1.FileName;
    texto := GetPdfText(PWideChar(filename));
    Memo1.Lines.Add(texto);
  end;
end;

end.
Responder Con Cita
  #9  
Antiguo 24-11-2017
Avatar de Neftali [Germán.Estévez]
Neftali [Germán.Estévez] Neftali [Germán.Estévez] is offline
[becario]
 
Registrado: jul 2004
Ubicación: Barcelona - España
Posts: 18.233
Poder: 10
Neftali [Germán.Estévez] Es un diamante en brutoNeftali [Germán.Estévez] Es un diamante en brutoNeftali [Germán.Estévez] Es un diamante en bruto
Así a primera vista, diría que las inicializaciones de target y ptitel son de un tipo incorrecto.
__________________
Germán Estévez => Web/Blog
Guía de estilo, Guía alternativa
Utiliza TAG's en tus mensajes.
Contactar con el Clubdelphi

P.D: Más tiempo dedicado a la pregunta=Mejores respuestas.
Responder Con Cita
  #10  
Antiguo 24-11-2017
jorge82 jorge82 is offline
Baneado
 
Registrado: jun 2005
Ubicación: Mérida, Yucatán, México
Posts: 75
Poder: 19
jorge82 Va por buen camino
Hola, adicional a lo que ya te dijeron, también podrías utilizar la herramienta pdftotext https://www.xpdfreader.com/dl/xpdf-tools-win-4.00.zip del buen xpdf, lo puedes invocar por línea de comandos desde código y te genera un archivo con el texto del documento pdf.

Cita:
pdftotext(1) General Commands Manual pdftotext(1)



NAME
pdftotext - Portable Document Format (PDF) to text converter (version
4.00)

SYNOPSIS
pdftotext [options] [PDF-file [text-file]]
__________________
Un saludito.
Responder Con Cita
  #11  
Antiguo 26-11-2017
Avatar de anubis
anubis anubis is offline
Miembro
 
Registrado: mar 2007
Posts: 863
Poder: 18
anubis Va por buen camino
Hola,
El programa me da error al ejecutar.
Creo saber que pasa, quiza tu estás usando delphi en vez de lazarus, puede ser?.

Respecto a xpdf todavia no lo pruebo, a ver si hay versión para lazarus.
Responder Con Cita
Respuesta


Herramientas Buscar en Tema
Buscar en Tema:

Búsqueda Avanzada
Desplegado

Normas de Publicación
no Puedes crear nuevos temas
no Puedes responder a temas
no Puedes adjuntar archivos
no Puedes editar tus mensajes

El código vB está habilitado
Las caritas están habilitado
Código [IMG] está habilitado
Código HTML está deshabilitado
Saltar a Foro

Temas Similares
Tema Autor Foro Respuestas Último mensaje
Sacar datos numericos jon_g461 MS SQL Server 3 18-11-2008 18:01:40
sacar los datos inversos de una tabla richy08 C++ Builder 0 17-07-2007 22:38:33
como sacar datos de una query todook SQL 3 06-12-2006 18:53:47
Como sacar datos de un DBgrid? Durbed Conexión con bases de datos 2 01-09-2004 09:29:06
de donde sacar Base de datos de provincias poblaciones y CP? Halfo Varios 1 23-07-2004 16:49:15


La franja horaria es GMT +2. Ahora son las 22:38:43.


Powered by vBulletin® Version 3.6.8
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Traducción al castellano por el equipo de moderadores del Club Delphi
Copyright 1996-2007 Club Delphi