Club Delphi  
    FTP   CCD     Buscar   Trucos   Trabajo   Foros

Retroceder   Foros Club Delphi > Principal > OOP
Registrarse FAQ Miembros Calendario Guía de estilo Buscar Temas de Hoy Marcar Foros Como Leídos

Grupo de Teaming del ClubDelphi

Respuesta
 
Herramientas Buscar en Tema Desplegado
  #1  
Antiguo 18-07-2019
bucanero bucanero is offline
Miembro
 
Registrado: nov 2013
Ubicación: Almería, España
Posts: 208
Poder: 11
bucanero Va camino a la fama
fichero con caracteres en múltiples codificaciones

Hola a todos

Con un fichero CSV de texto plano que descargo desde la web de un proveedor, me esta dando problemas para poder leerlo correctamente.

El problema viene porque va codificado en UTF8 pero mezcla algunos caracteres con otra codificación distinta, en particular la ñ y solo algunas veces no siempre, la codifica como UNICODE con el código 0x00F1. Y al intentar leerlo con DELPHI si no uso UTF8, no da error pero entonces no obtengo la representación de los caracteres correcta, y si utilizo UTF8 me da una excepción con el error: No mapping for the Unicode character exists in the target multi-byte code page

El código con el que estoy probando a leerlo es este:

Código Delphi [-]
procedure TForm2.Button1Click(Sender: TObject);
  procedure LoadText(const AFileName: string; AEncoding: TEncoding);
  begin
    try
      try
        memo1.Lines.add(AEncoding.EncodingName);
        memo1.Lines.Add(Format('"%s"', [TFile.ReadAllText(NameFile, AEncoding)]));
      except
        on E: Exception do
          Memo1.Lines.Add(Format('* Error: %s', [E.Message]));
      end;
    finally
      memo1.Lines.add('');
    end;
  end;

begin
  LoadText(NameFile, TEncoding.ANSI);
  LoadText(NameFile, TEncoding.UTF7);
  LoadText(NameFile, TEncoding.UTF8);
  LoadText(NameFile, TEncoding.Unicode);
end;

y los resultados que obtengo son estos:

Código:
1252  (ANSI - Latín I)
"Puño Negro: solución sustitucion  podrás. GarantÃ*a 2 años; puño-acelerador-derecho-izqu.jpg"

65000 (UTF-7)
"Puño Negro: solución sustitucion  podrás. GarantÃ*a 2 años; puño-acelerador-derecho-izqu.jpg"

65001 (UTF-8)
* Error: No mapping for the Unicode character exists in the target multi-byte code page

1200  (Unicode)
"뇃敎牧㩯猠汯捵썩溳猠獵楴畴楣湯†潰牤ꇃ⹳䜠牡湡썴憭㈠愠뇃獯※異濱愭散敬慲潤⵲敤敲档ⵯ穩畱樮杰"
Es cierto que el problema es el propio fichero, pues tampoco consigo leerlo correctamente ni incluso con otros programas, pues algunos ejemplos que obtengo son estos:

Código:
notepad:
Puño Negro: solución sustitucion  podrás. GarantÃ*a 2 años; puño-acelerador-derecho-izqu.jpg

notepad++
Puño Negro: solución sustitucion  podrás. Garantía 2 años; pu񯭡celerador-derecho-izqu.jpg

y con otros programas como OPENOFFICE es similar
El tema es ¿como puedo hacer para leer el fichero (o lo que buenamente pueda) en UTF8 y que al menos no me de la excepción?, Dejo el fichero de ejemplo con la parte que genera el error
https://www.clubdelphi.com/foros/att...1&d=1563448890

Gracias por vuestra ayuda
Un saludo
Archivos Adjuntos
Tipo de Archivo: rar csv_test3.rar (173 Bytes, 5 visitas)
Responder Con Cita
  #2  
Antiguo 18-07-2019
orodriguezca orodriguezca is offline
Miembro
 
Registrado: ene 2009
Posts: 221
Poder: 16
orodriguezca Va por buen camino
Lo que noto es que en el archivo hay por lo menos dos enconding diferentes: La parte que llega hasta el punto y coma ( tiene enconding UTF-8, y la parte despues del punto y coma tiene encoding ANSI.
Responder Con Cita
  #3  
Antiguo 18-07-2019
bucanero bucanero is offline
Miembro
 
Registrado: nov 2013
Ubicación: Almería, España
Posts: 208
Poder: 11
bucanero Va camino a la fama
Cita:
Empezado por orodriguezca Ver Mensaje
Lo que noto es que en el archivo hay por lo menos dos enconding diferentes: La parte que llega hasta el punto y coma ( tiene enconding UTF-8, y la parte despues del punto y coma tiene encoding ANSI.
Hola orodriguezca, gracias por responder

Si, ese es el problema exactamente.

Lo curioso es que la clase TEncondig, que en realidad es la causante de todo este problema, genere la excepción al encontrar esos caracteres, cuando lo lógico seria mostrar algún otro caracter extraño tipo rombo, cuadrado, interrogación, etc. como hacen los navegadores de internet al no codificar correctamente los caracteres.

Lo que ocurre es que el fichero lo genera un servidor de terceros y no tengo la posibilidad de cambiar la forma de generarlo. Entonces lo único que me queda es intentar leerlo de la mejor forma posible y en el peor de los casos, omitir los datos que puedan generar algún tipo de error.
Responder Con Cita
  #4  
Antiguo 18-07-2019
Avatar de Casimiro Notevi
Casimiro Notevi Casimiro Notevi is offline
Moderador
 
Registrado: sep 2004
Ubicación: En algún lugar.
Posts: 32.037
Poder: 10
Casimiro Notevi Tiene un aura espectacularCasimiro Notevi Tiene un aura espectacular
Si siempre son iguales y lo divide ese punto y coma, divides la cadena en dos partes y lo lees con distinta codificación cada parte
Responder Con Cita
  #5  
Antiguo 18-07-2019
bucanero bucanero is offline
Miembro
 
Registrado: nov 2013
Ubicación: Almería, España
Posts: 208
Poder: 11
bucanero Va camino a la fama
Cita:
Empezado por Casimiro Notevi Ver Mensaje
Si siempre son iguales y lo divide ese punto y coma, divides la cadena en dos partes y lo lees con distinta codificación cada parte
Gracias Casimiro por responder!!

la cadena no es tan simple como el ejemplo, que esta recortado para visualizar de forma fácil donde se genera el problema. De hecho el fichero completo son varios megas de texto con varios miles de lineas y en todo el fichero solo aparece el código problemático dos o tres veces.

Indagando un poco, he visto que en los foros de embarcadero ya hablan y explican en mas detalle el origen de este problema:
https://forums.embarcadero.com/messa...ssageID=707902
Responder Con Cita
  #6  
Antiguo 18-07-2019
Avatar de Casimiro Notevi
Casimiro Notevi Casimiro Notevi is offline
Moderador
 
Registrado: sep 2004
Ubicación: En algún lugar.
Posts: 32.037
Poder: 10
Casimiro Notevi Tiene un aura espectacularCasimiro Notevi Tiene un aura espectacular
Vaya, eso es de 2015.
Se me ocurre que también puedes hacer una sustitución de las ñ,á,é,í,ó,ú antes de importar las líneas.
Responder Con Cita
  #7  
Antiguo 19-07-2019
bucanero bucanero is offline
Miembro
 
Registrado: nov 2013
Ubicación: Almería, España
Posts: 208
Poder: 11
bucanero Va camino a la fama
Cita:
Empezado por Casimiro Notevi Ver Mensaje
Vaya, eso es de 2015.
Se me ocurre que también puedes hacer una sustitución de las ñ,á,é,í,ó,ú antes de importar las líneas.
Gracias Casimiro!! es la solución que al final he implementado. No es la mas optima, puesto que si el fichero en algún momento incluye otros caracteres en UTF8 tendré entonces que modificar nuevamente el código. Pero de momento me sirve como solución.

Aquí dejo el código que he implementado:

Código Delphi [-]

function UTF8ToAnsii(const value: string): string;
/// convierte los caracteres codificados en UTF8 a ANSI
const
  SpecialChars: array[0..5] of string = ('ñ', 'á', 'é', 'í', 'ó', 'ú');
var
  i: LongInt;
begin
  result := value;
  for i := 0 to High(SpecialChars) do
    result := StringReplace(result,
         // caracter especial en codificacion UTF8
      SpecialChars[i],
         // el mismo caracter en codificacion ANSII
      TEncoding.ANSI.GetString(TEncoding.UTF8.GetBytes(SpecialChars[i])), [rfReplaceAll]);
end;

function RepairFileUTF8(const AFileName: string): boolean;
/// Lee un fichero en formato ANSI y lo escribe en formato UTF8
var
  content: string;
begin
  try
    result := false;
    // lee el contenido del fichero en formato ANSII
    content := Tfile.ReadAllText(AFileName);
    //Sustituye los caracteres especiales codificados en UTF8 a codificacion ANSII
    // y convierte todo el contenido del fichero a UTF8
    content := UTF8Decode(UTF8ToAnsii(content));
    // guarda de nuevo el fichero ya con formato UTF8
    Tfile.WriteAllText(AFileName, content, TEncoding.UTF8);
    result := true;
  except
    on E: Exception do
      MessageDlg(E.message, mtError, [mbOK], 0);
  end;
end;

function IsValidUTF8Format(const AFileName: string): Boolean;
var
  intento: integer;
begin
  result := false;
  intento := 2;
  repeat
    try
      dec(intento);
      // se intenta leer el contenido del fichero en formato UTF8
      Tfile.ReadAllText(AFileName, TEncoding.UTF8);
      result := true;
    except
      on E: Exception do begin
        if (e.Message = SNoMappingForUnicodeCharacter) then begin
          if (intento > 0) then
            //si da error se intenta reparar. (solo lo hace la primera vez)
            RepairFileUTF8(AFileName)
          else
            // si diera error por segunda vez segunda vez, es porque el fichero
            // contiene mas caracteres especiales no incluidos en la lista de sustitucion
            MessageDlg('Revise caracteres especiales UTF8 en el fichero', mtError, [mbOK], 0);
        end;
      end;
    end;
  until result or (intento <= 0);
end;

y la forma de utilizarlo es:
Código Delphi [-]
  if not IsValidUTF8Format(NameFile) then
    MessageDlg('El fichero no tiene un formato valido ', mtError, [mbOK], 0)
  else
    OpenFile(NameFile);


Gracias por vuestro tiempo y las soluciones aportadas.
Un saludo
Responder Con Cita
Respuesta


Herramientas Buscar en Tema
Buscar en Tema:

Búsqueda Avanzada
Desplegado

Normas de Publicación
no Puedes crear nuevos temas
no Puedes responder a temas
no Puedes adjuntar archivos
no Puedes editar tus mensajes

El código vB está habilitado
Las caritas están habilitado
Código [IMG] está habilitado
Código HTML está deshabilitado
Saltar a Foro

Temas Similares
Tema Autor Foro Respuestas Último mensaje
Leer fichero con caracteres cirilicos en Delphi 6 jruinie Varios 5 06-02-2015 22:29:46
Agregar múltiples Campo de una tabla a múltiples TEdit y TdbEdit novato_erick Varios 21 21-08-2011 01:18:58
como generar ventas multiples (seleccionar multiples items) userdelphi Varios 4 30-12-2010 02:52:21
Caracteres raros al capturar fichero txt comba Varios 4 07-09-2010 17:59:07
Comparar cadenas de caracteres sacadas de un fichero papulo Varios 20 22-12-2006 14:43:33


La franja horaria es GMT +2. Ahora son las 15:12:05.


Powered by vBulletin® Version 3.6.8
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Traducción al castellano por el equipo de moderadores del Club Delphi
Copyright 1996-2007 Club Delphi