Club Delphi  
    FTP   CCD     Buscar   Trucos   Trabajo   Foros

Retroceder   Foros Club Delphi > Principal > Varios
Registrarse FAQ Miembros Calendario Guía de estilo Temas de Hoy

Grupo de Teaming del ClubDelphi

Respuesta
 
Herramientas Buscar en Tema Desplegado
  #1  
Antiguo 17-06-2021
CFPA86 CFPA86 is offline
Miembro
 
Registrado: sep 2003
Ubicación: Medellin (Colombia)
Posts: 119
Poder: 21
CFPA86 Va por buen camino
Leer un PDF

Hola a todo@s, tengo una aplicacion propia, a la cual quiero crearle la funcionalidad de leer un archivo PDF y pasar algunos datos a TXT, para que dichos datos los pueda yo usar en la B.D. de mi aplicacion. He buscado tanto, en este club como en google y he dado con un codigo (uno de tantos) en esta direccion https://www.swissdelphicenter.com/en/showcode.php, el cual no me corre, asumo yo que es xq mi delphi7 no me reconoce el control que usa (Acrobat_TLB) instalo el que viene con el Delphi7 (Adobe acrobat 7.0 browser control type).y aun asi persiste el problema.
Tambien he dado con un programa gratuito (SumatraPdf) que realmente no se si para lo que lo necesito me sirve.
Agradezco el que me pueda colaborar diciendome de una forma para hacer esto, incluso si el programa SumatraPdf me sirve.
Chauuuuu
__________________
Siempre hay un primer momento para todo.
Responder Con Cita
  #2  
Antiguo 17-06-2021
bucanero bucanero is offline
Miembro
 
Registrado: nov 2013
Ubicación: Almería, España
Posts: 208
Poder: 11
bucanero Va camino a la fama
Si la aplicación es bajo windows puedes utilizar la dll PDFText, que puedes encontrar en este enlace: https://pdf-analyzer.com/mdownloads.html, yo la utilizo para extraer información de los PDF y funciona bien.

Aquí dejo el código de uso de esta DLL

Código Delphi [-]
type
  TPDFText = class
  public
    function GetPDFNumPages(const FileName:string):LongInt; overload;
    function GetPDFContent(fileName: string): string;
    function GetPDFErrorMsg(const CodeError: Integer): string;
  end;


implementation

uses System.SysUtils;

    function GetPDFPageCount(const FileName:PWideChar):LongInt; stdcall; external 'PDFtext.dll';
    function GetPDFText(const FileName: PWideChar;
      opt: LongInt=3;
      hw: LongInt=0;
      fast: LongInt=0;
      target: PWideChar=0;
      lspaces: LongInt=1;
      ptitel: PWideChar=0;
      pos:  LongInt=0;
      page: LongInt=0;
      clock: LongInt=0;
      blank: LongInt=0;
      ende: LongInt=0;
      wlist: LongInt=0): pWidechar; stdcall; external 'PDFtext.dll';



{ TPDFText }

function TPDFText.GetPDFErrorMsg(const CodeError: Integer): string;
begin
  case CodeError of
    0:
      result := 'General main error';
    9001:
      result := 'File not found';
    9002:
      result := 'No PDF file';
    9003:
      result := 'There´s a user password';
    9004:
      result := 'Invalid/damaged page structure';
    9005:
      result := 'Target drive/path is not valid';
    9006:
      result := 'Target drive/path is missing';
    9007:
      result := 'Source and target (for fileoutput) is the same';
    9015:
      result := 'The text is based on the rare codepage 1251.. extraction won''t work proper';
    9016:
      result := 'The text is based on the codepage CJK... extraction wont''t work proper';
  else
    result := 'Unknow error';
  end;
end;

function TPDFText.GetPDFNumPages(const FileName: string): LongInt;
begin
  result := GetPDFPageCount(PWideChar(FileName));
end;

function TPDFText.GetPDFContent(fileName: string): string;
var
  errorCode: integer;
begin
  result := GetPdfText(PWideChar(fileName));
  if (Length(result) <= 4) and TryStrToInt(result, errorCode) then
    result := GetPDFErrorMsg(errorCode);
end;

y para llamar a la clase:
Código Delphi [-]
uses PDFtext;

procedure TForm2.Button1Click(Sender: TObject);
var
  PDFText: TPDFText;
begin
  with OpenDialog1 do
    if execute then begin
      PDFText := TPDFText.Create;
      try
        memo1.lines.add(Format('%d pagina/s', [PDFText.GetPDFNumPages(filename)]));
        memo1.lines.add(Format('contenido:'#13'%s', [PDFText.GetPDFContent(filename)]));
      finally
        PDFText.Free;
      end;
    end;
end;

Los inconvenientes de este sistema son:
-La información obtenida del PDF no va en el mismo orden que se ve en el documento, aunque esto no es problema de la DLL si no mas bien de como está organizado el PDF internamente
-Y la DLL en su versión freeware, después de leer el PDF muestra una ventana con la información del autor

saludos
Responder Con Cita
  #3  
Antiguo 17-06-2021
CFPA86 CFPA86 is offline
Miembro
 
Registrado: sep 2003
Ubicación: Medellin (Colombia)
Posts: 119
Poder: 21
CFPA86 Va por buen camino
Les estaré informando como me fue con la solución que me da Bucanero, ademas navegando en el foro di con una respuesta de Neftali, donde sugería un programa A-PDF Text extractor, el cual efectivamente funciona creando el TXT, pero ahí me surge mi otra gran duda. Como identifico yo los campos?
Creía erróneamente que al extractar estos datos y al pasarlos al TXT estos venían identificados uno a uno.
Osea que ya no me basta con extractar los datos, si no también con identificarlos.
Les quedare muy agradecido donde un mago de este club me pueda sacar de este embrollo.
Chauuuuuu se cuidan
.
__________________
Siempre hay un primer momento para todo.
Responder Con Cita
  #4  
Antiguo 18-06-2021
CFPA86 CFPA86 is offline
Miembro
 
Registrado: sep 2003
Ubicación: Medellin (Colombia)
Posts: 119
Poder: 21
CFPA86 Va por buen camino
Amigos, nada que lo logro.
__________________
Siempre hay un primer momento para todo.
Responder Con Cita
Respuesta



Normas de Publicación
no Puedes crear nuevos temas
no Puedes responder a temas
no Puedes adjuntar archivos
no Puedes editar tus mensajes

El código vB está habilitado
Las caritas están habilitado
Código [IMG] está habilitado
Código HTML está deshabilitado
Saltar a Foro

Temas Similares
Tema Autor Foro Respuestas Último mensaje
leer csv aprendiz_delphi OOP 9 27-03-2020 23:42:37
Leer CSV Willo Varios 4 04-04-2017 20:06:21
Leer EAN 128 newtron La Taberna 3 29-08-2016 04:09:53
Leer XML chinchan C++ Builder 3 08-11-2012 23:45:24
Leer XML cmm07 Varios 4 02-02-2010 14:36:05


La franja horaria es GMT +2. Ahora son las 08:25:24.


Powered by vBulletin® Version 3.6.8
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Traducción al castellano por el equipo de moderadores del Club Delphi
Copyright 1996-2007 Club Delphi