PHP: Resumen de codificaciones soportadas

**Resumen de codificaciones soportadas**
Nombre en el registro de conjuntos de caracteres de la IANA	Conjunto de Caracteres	Descripción	Notas adicionales
ISO-10646-UCS-4	ISO 10646	Conjunto Universal de Caracteres con 31 bits de codificación, estandarizado como UCS-4 por ISO/IEC 10646. Se mantiene sincronizado con la última versión del mapa de códigos de Unicode.	Si se utiliza este nombre con la utilidad de conversión de codificación, el convertidor intentará identificar, mediante el byte de marca de orden (BOM) precedente, en qué formato (little-endian o big-endian) están representados los siguientes bytes.
ISO-10646-UCS-4	UCS-4	Véase más arriba.	A diferencia de `UCS-4`, las cadenas de caracteres siempre apareceran en formato big-endian.
ISO-10646-UCS-4	UCS-4	Véase más arriba.	A diferencia de `UCS-4`, las cadenas de caracteres siempre apareceran en formato little-endian.
ISO-10646-UCS-2	UCS-2	Conjunto Universal de Caracteres con 16 bits de codificación, estandarizado como UCS-2 por ISO/IEC 10646. Se mantiene sincronizado con la última versión del mapa de códigos de Unicode.	Si se utiliza este nombre con la utilidad de conversión de codificación, el convertidor intentará identificar, mediante el byte de marca de orden (BOM) precedente, en qué formato (little-endian o big-endian) están representados los siguientes bytes.
ISO-10646-UCS-2	UCS-2	Véase más arriba.	A diferencia de `UCS-2`, las cadenas de caracteres siempre apareceran en formato big-endian.
ISO-10646-UCS-2	UCS-2	Véase más arriba.	A diferencia de `UCS-2`, las cadenas de caracteres siempre apareceran en formato little-endian.
UTF-32	Unicode	Formato de Transformación Unicode de un ancho de unidad de 32 bits, cuya espacio de codificación está incluido en el estándar de conjunto de código de Unicode. Esta esquema de codificación no es igual al UCS-4, porque el espacio de codificación de Unicode estaba limitado a un valor de 21 bits.	Si se utiliza este nombre con la utilidad de conversión de codificación, el convertidor intentará identificar, mediante el byte de marca de orden (BOM) precedente, en qué formato (little-endian o big-endian) están representados los siguientes bytes.
UTF-32BE	Unicode	Ver más arriba	A diferencia de `UTF-32`, las cadenas de caracteres siempre apareceran en formato big-endian.
UTF-32LE	Unicode	Ver más arriba	A diferencia de `UTF-32`, las cadenas de caracteres siempre apareceran en formato little-endian.
UTF-16	Unicode	Formato de Transformación UCS de 16 bits de ancho. Hay que tener en cuenta que es muy parecido a UCS-2, gracias al mecanismo de subrogación introducido en Unicode 2.0 y UTF-16, por lo que se requiere un máximo de 21 bits para la representación de cualquier carácter.	Si se utiliza este nombre con la utilidad de conversión de codificación, el convertidor intentará identificar, mediante el byte de marca de orden (BOM) precedente, en qué formato (little-endian o big-endian) están representados los siguientes bytes.
UTF-16BE	Unicode	Véase más arriba.	A diferencia de `UTF-16`, las cadenas de caracteres siempre apareceran en formato big-endian.
UTF-16LE	Unicode	Véase más arriba.	A diferencia de `UTF-16`, las cadenas de caracteres siempre apareceran en formato little-endian.
UTF-8	Unicode / UCS	Formato de Transformación UCS de 8 bits de ancho..	Ninguna
UTF-7	Unicode	Formato de transformación UCS para el envío de correo electrónico seguro, especificado en » RFC2152.	Ninguno
(Ninguno)	Unicode	Variante de UTF-7 recomendado para usar con el » protocolo IMAP.	Ninguno
US-ASCII (preferred MIME name) / iso-ir-6 / ANSI_X3.4-1986 / ISO_646.irv:1991 / ASCII / ISO646-US / us / IBM367 / CP367 / csASCII	ASCII / ISO 646	Código Estándar Americano para el Intercambio de Información, de utilización muy extendida con una codifiación de 7 bits. Estandarizado a nivel Internacional, ISO 646.	(Ninguno)
EUC-JP (nombre preferido por MIME) / Extended_UNIX_Code_Packed_Format_for_Japanese / csEUCPkdFmtJapanese	Compuesto de US-ASCII / JIS X0201:1997 (hankaku kana part) / JIS X0208:1990 / JIS X0212:1990	Como se puede ver, el nombre está derivado de la abreviación de Formato de Código UNIX Extendido para el Japonés. Esta codificación se usa principalmente en UNIX o plataformas afines. El esquema de codificación original, Código UNIX Extendido, se diseñó sobre la base de ISO 2022.	El conjunto de caracteres llamado EUC-JP es diferente a IBM932 / CP932, que son utilizados por OS/2® y Microsoft® Windows®. Para el intercambio de información con estas plataformas es mejor utilizar EUCJP-WIN.
Shift_JIS (nombre preferido por MIME) / MS_Kanji / csShift_JIS	Compuesto de JIS X0201:1997 / JIS X0208:1997	Shift_JIS fue desarrollado a principios de los 80, al mismo tiempo que los procesadores de textos en Japonés llegaban al mercado para mantener la compatibilidad con los antiguos esquemas de codifiación JIS X 0201:1976. De acuerdo con la definición de la IANA, el conjunto de caracteres Shift_JIS es ligeramente diferente a IBM932 / CP932. Sin embargo, los nombres "SJIS" / "Shift_JIS" son utilizados de forma incorrecta para referirse a este conjunto de caracteres.	Para la codificación CP932, es recomendable utilizar SJIS-WIN.
(Ninguno)	Compuesto de JIS X0201:1997 / JIS X0208:1997 / IBM extensions / NEC extensions	Aunque esta "codificación" utiliza el mismo esquema de codificación que EUC-JP, el conjunto de caracteres es diferente. Esto es así porque algunos códigos del mapa apuntan a diferentes caracteres del conjunto de caracteres EUC-JP.	none
Windows-31J / csWindows31J	Compuesto de JIS X0201:1997 / JIS X0208:1997 / IBM extensions / NEC extensions	Aunque esta "codificación" utiliza el mismo esquema de codificación que Shift-JIS, el conjunto de caracteres es diferente. Esto es así porque algunos códigos del mapa apuntan a diferentes caracteres del conjunto de caracteres Shift-JIS.	(none)
ISO-2022-JP (nombre preferido por MIME) / csISO2022JP	US-ASCII / JIS X0201:1976 / JIS X0208:1978 / JIS X0208:1983	» RFC1468	(Ninguno)
JIS
ISO-8859-1
ISO-8859-2
ISO-8859-3
ISO-8859-4
ISO-8859-5
ISO-8859-6
ISO-8859-7
ISO-8859-8
ISO-8859-9
ISO-8859-10
ISO-8859-13
ISO-8859-14
ISO-8859-15
ISO-8859-16
byte2be
byte2le
byte4be
byte4le
BASE64
HTML-ENTITIES
7bit
8bit
EUC-CN
CP936
HZ
EUC-TW
CP950
BIG-5
EUC-KR
UHC (CP949)
ISO-2022-KR
Windows-1251 (CP1251)
Windows-1252 (CP1252)
CP866 (IBM866)
KOI8-R
KOI8-U

ISO-10646-UCS-4

ISO 10646

Conjunto Universal de Caracteres con 31 bits de codificación, estandarizado como UCS-4 por ISO/IEC 10646. Se mantiene sincronizado con la última versión del mapa de códigos de Unicode.

Si se utiliza este nombre con la utilidad de conversión de codificación, el convertidor intentará identificar, mediante el byte de marca de orden (BOM) precedente, en qué formato (little-endian o big-endian) están representados los siguientes bytes.

ISO-10646-UCS-4

UCS-4

Véase más arriba.

A diferencia de UCS-4, las cadenas de caracteres siempre apareceran en formato big-endian.

ISO-10646-UCS-4

UCS-4

Véase más arriba.

A diferencia de UCS-4, las cadenas de caracteres siempre apareceran en formato little-endian.

ISO-10646-UCS-2

UCS-2

Conjunto Universal de Caracteres con 16 bits de codificación, estandarizado como UCS-2 por ISO/IEC 10646. Se mantiene sincronizado con la última versión del mapa de códigos de Unicode.

Si se utiliza este nombre con la utilidad de conversión de codificación, el convertidor intentará identificar, mediante el byte de marca de orden (BOM) precedente, en qué formato (little-endian o big-endian) están representados los siguientes bytes.

ISO-10646-UCS-2

UCS-2

Véase más arriba.

A diferencia de UCS-2, las cadenas de caracteres siempre apareceran en formato big-endian.

ISO-10646-UCS-2

UCS-2

Véase más arriba.

A diferencia de UCS-2, las cadenas de caracteres siempre apareceran en formato little-endian.

UTF-32

Unicode

Formato de Transformación Unicode de un ancho de unidad de 32 bits, cuya espacio de codificación está incluido en el estándar de conjunto de código de Unicode. Esta esquema de codificación no es igual al UCS-4, porque el espacio de codificación de Unicode estaba limitado a un valor de 21 bits.

Si se utiliza este nombre con la utilidad de conversión de codificación, el convertidor intentará identificar, mediante el byte de marca de orden (BOM) precedente, en qué formato (little-endian o big-endian) están representados los siguientes bytes.

UTF-32BE

Unicode

Ver más arriba

A diferencia de UTF-32, las cadenas de caracteres siempre apareceran en formato big-endian.

UTF-32LE

Unicode

Ver más arriba

A diferencia de UTF-32, las cadenas de caracteres siempre apareceran en formato little-endian.

UTF-16

Unicode

Formato de Transformación UCS de 16 bits de ancho. Hay que tener en cuenta que es muy parecido a UCS-2, gracias al mecanismo de subrogación introducido en Unicode 2.0 y UTF-16, por lo que se requiere un máximo de 21 bits para la representación de cualquier carácter.

Si se utiliza este nombre con la utilidad de conversión de codificación, el convertidor intentará identificar, mediante el byte de marca de orden (BOM) precedente, en qué formato (little-endian o big-endian) están representados los siguientes bytes.

UTF-16BE

Unicode

Véase más arriba.

A diferencia de UTF-16, las cadenas de caracteres siempre apareceran en formato big-endian.

UTF-16LE

Unicode

Véase más arriba.

A diferencia de UTF-16, las cadenas de caracteres siempre apareceran en formato little-endian.

UTF-8

Unicode / UCS

Formato de Transformación UCS de 8 bits de ancho..

Ninguna

UTF-7

Unicode

Formato de transformación UCS para el envío de correo electrónico seguro, especificado en » RFC2152.

Ninguno

(Ninguno)

Unicode

Variante de UTF-7 recomendado para usar con el » protocolo IMAP.

Ninguno

US-ASCII (preferred MIME name) / iso-ir-6 / ANSI_X3.4-1986 / ISO_646.irv:1991 / ASCII / ISO646-US / us / IBM367 / CP367 / csASCII

ASCII / ISO 646

Código Estándar Americano para el Intercambio de Información, de utilización muy extendida con una codifiación de 7 bits. Estandarizado a nivel Internacional, ISO 646.

(Ninguno)

EUC-JP (nombre preferido por MIME) / Extended_UNIX_Code_Packed_Format_for_Japanese / csEUCPkdFmtJapanese

Compuesto de US-ASCII / JIS X0201:1997 (hankaku kana part) / JIS X0208:1990 / JIS X0212:1990

Como se puede ver, el nombre está derivado de la abreviación de Formato de Código UNIX Extendido para el Japonés. Esta codificación se usa principalmente en UNIX o plataformas afines. El esquema de codificación original, Código UNIX Extendido, se diseñó sobre la base de ISO 2022.

El conjunto de caracteres llamado EUC-JP es diferente a IBM932 / CP932, que son utilizados por OS/2® y Microsoft® Windows®. Para el intercambio de información con estas plataformas es mejor utilizar EUCJP-WIN.

Shift_JIS (nombre preferido por MIME) / MS_Kanji / csShift_JIS

Compuesto de JIS X0201:1997 / JIS X0208:1997

Shift_JIS fue desarrollado a principios de los 80, al mismo tiempo que los procesadores de textos en Japonés llegaban al mercado para mantener la compatibilidad con los antiguos esquemas de codifiación JIS X 0201:1976. De acuerdo con la definición de la IANA, el conjunto de caracteres Shift_JIS es ligeramente diferente a IBM932 / CP932. Sin embargo, los nombres "SJIS" / "Shift_JIS" son utilizados de forma incorrecta para referirse a este conjunto de caracteres.

Para la codificación CP932, es recomendable utilizar SJIS-WIN.

(Ninguno)

Compuesto de JIS X0201:1997 / JIS X0208:1997 / IBM extensions / NEC extensions

Aunque esta "codificación" utiliza el mismo esquema de codificación que EUC-JP, el conjunto de caracteres es diferente. Esto es así porque algunos códigos del mapa apuntan a diferentes caracteres del conjunto de caracteres EUC-JP.

none

Windows-31J / csWindows31J

Compuesto de JIS X0201:1997 / JIS X0208:1997 / IBM extensions / NEC extensions

Aunque esta "codificación" utiliza el mismo esquema de codificación que Shift-JIS, el conjunto de caracteres es diferente. Esto es así porque algunos códigos del mapa apuntan a diferentes caracteres del conjunto de caracteres Shift-JIS.

(none)

ISO-2022-JP (nombre preferido por MIME) / csISO2022JP

US-ASCII / JIS X0201:1976 / JIS X0208:1978 / JIS X0208:1983

» RFC1468

(Ninguno)

JIS

ISO-8859-1

ISO-8859-2

ISO-8859-3

ISO-8859-4

ISO-8859-5

ISO-8859-6

ISO-8859-7

ISO-8859-8

ISO-8859-9

ISO-8859-10

ISO-8859-13

ISO-8859-14

ISO-8859-15

ISO-8859-16

byte2be

byte2le

byte4be

byte4le

BASE64

HTML-ENTITIES

7bit

8bit

EUC-CN

CP936

HZ

EUC-TW

CP950

BIG-5

EUC-KR

UHC (CP949)

ISO-2022-KR

Windows-1251 (CP1251)

Windows-1252 (CP1252)

CP866 (IBM866)

KOI8-R

KOI8-U

Resumen de codificaciones soportadas

User Contributed Notes