fichero con caracteres en múltiples codificaciones

bucanero · #1 18-07-2019

Hola a todos

Con un fichero CSV de texto plano que descargo desde la web de un proveedor, me esta dando problemas para poder leerlo correctamente.

El problema viene porque va codificado en UTF8 pero mezcla algunos caracteres con otra codificación distinta, en particular la ñ y solo algunas veces no siempre, la codifica como UNICODE con el código 0x00F1. Y al intentar leerlo con DELPHI si no uso UTF8, no da error pero entonces no obtengo la representación de los caracteres correcta, y si utilizo UTF8 me da una excepción con el error: No mapping for the Unicode character exists in the target multi-byte code page

El código con el que estoy probando a leerlo es este:

Código Delphi [-]procedure TForm2.Button1Click(Sender: TObject);
  procedure LoadText(const AFileName: string; AEncoding: TEncoding);
  begin
    try
      try
        memo1.Lines.add(AEncoding.EncodingName);
        memo1.Lines.Add(Format('"%s"', [TFile.ReadAllText(NameFile, AEncoding)]));
      except
        on E: Exception do
          Memo1.Lines.Add(Format('* Error: %s', [E.Message]));
      end;
    finally
      memo1.Lines.add('');
    end;
  end;

begin
  LoadText(NameFile, TEncoding.ANSI);
  LoadText(NameFile, TEncoding.UTF7);
  LoadText(NameFile, TEncoding.UTF8);
  LoadText(NameFile, TEncoding.Unicode);
end;

y los resultados que obtengo son estos:

Código:

1252  (ANSI - Latín I)
"PuÃ±o Negro: soluciÃ³n sustitucion  podrÃ¡s. GarantÃ*a 2 aÃ±os; puño-acelerador-derecho-izqu.jpg"

65000 (UTF-7)
"PuÃ±o Negro: soluciÃ³n sustitucion  podrÃ¡s. GarantÃ*a 2 aÃ±os; puño-acelerador-derecho-izqu.jpg"

65001 (UTF-8)
* Error: No mapping for the Unicode character exists in the target multi-byte code page

1200  (Unicode)
"뇃⁯敎牧㩯猠汯捵썩溳猠獵楴畴楣湯†潰牤ꇃ⹳䜠牡湡썴憭㈠愠뇃獯※異濱愭散敬慲潤⵲敤敲档ⵯ穩畱樮杰"

Es cierto que el problema es el propio fichero, pues tampoco consigo leerlo correctamente ni incluso con otros programas, pues algunos ejemplos que obtengo son estos:

Código:

notepad:
PuÃ±o Negro: soluciÃ³n sustitucion  podrÃ¡s. GarantÃ*a 2 aÃ±os; puño-acelerador-derecho-izqu.jpg

notepad++
Puño Negro: solución sustitucion  podrás. Garantía 2 años; pu񯭡celerador-derecho-izqu.jpg

y con otros programas como OPENOFFICE es similar

El tema es ¿como puedo hacer para leer el fichero (o lo que buenamente pueda) en UTF8 y que al menos no me de la excepción?, Dejo el fichero de ejemplo con la parte que genera el error
https://www.clubdelphi.com/foros/att...1&d=1563448890

Gracias por vuestra ayuda
Un saludo

Temas Similares
Tema	Autor	Foro	Respuestas	Último mensaje
Leer fichero con caracteres cirilicos en Delphi 6	jruinie	Varios	5	06-02-2015 22:29:46
Agregar múltiples Campo de una tabla a múltiples TEdit y TdbEdit	novato_erick	Varios	21	21-08-2011 01:18:58
como generar ventas multiples (seleccionar multiples items)	userdelphi	Varios	4	30-12-2010 02:52:21
Caracteres raros al capturar fichero txt	comba	Varios	4	07-09-2010 17:59:07
Comparar cadenas de caracteres sacadas de un fichero	papulo	Varios	20	22-12-2006 14:43:33