Foros Club Delphi - Ver Mensaje Individual

Ñuño Martínez · #8 19-04-2018

No es difícil de entender, pero sí un poco lioso de utilizar.

Básicamente UNICODE tiene tres tipos de codificación:

UTF-8: Los caracteres pueden ser de 8, 16 ó 32 bits. Los caracteres de 8bit son exactamente iguales a los caracteres ASCII-7 (es decir, los primeros 127 caracteres son iguales en los de ASCII, independientemente de la página utilizada). Además de esto, otra ventaja que tiene es que los idiomas que usan el abecedario latino ocupan mucho menos espacio, ya que la mayoría de sus caracteres necesitan sólo 8 bits y unos pocos (tildes) 16 bits y ninguno 32 bits.
UTF-16: Los caracteres pueden ser de 16 ó 32 bits. Los alfabetos más utilizados caben dentro de estos 16 bits, incluido el griego, árabe, cirílico y los caracteres del alfabeto chino simplificado más comunes. Sólo necesitarás 32 bits para los alfabetos menos comunes (dialectos indios, abecedarios arcaicos como el cuneiforme, etc.).
UTF-32: Los caracteres tienen un tamaño fijo de 32 bits.

Como dije en el mensaje anterior, creo que Delphi usa UTF-16 (WIDESTRING y WideCHAR). Esto supone un pequeño problema ya que Linux e Internet usan UTF-8 por defecto. Además, este último es un semi-compatible con el viejo ASCII, por lo que es más utilizado por la mayoría de los lenguajes (como C). Supongo que tomaron esa decisión ya que WIDESTRING estaba implementada desde hace mucho en Delphi.