Noções Básicas de Codificações Multibyte Japonesas

Os caracteres japoneses só podem ser representados por codificações multibyte, e vários padrões de codificação são usados dependendo da plataforma e da finalidade do texto. Para piorar, esses padrões de codificação diferem um pouco um do outro. Para criar uma aplicação web que possa ser usada em um ambiente japonês, um desenvolvedor deve manter essas complexidades em mente para garantir que as codificações de caracteres apropriadas sejam usadas.

  • O armazenamento para um caractere pode ter até seis bytes
  • A maioria dos caracteres multibyte japoneses aparece com o dobro da largura dos caracteres de byte único. Esses caracteres são chamados "zen-kaku" em japonês, que significa "largura total". Outros caracteres, mais estreitos, são chamados "han-kaku", que significa "meia largura". As propriedades gráficas dos caracteres, no entanto, dependem dos tipos das fontes usadas para exibi-los.
  • Algumas codificações de caracteres usam sequências com shift (escape) definidas na ISO-2022 para alternar o mapa de código da área de código específica (00h a 7fh).
  • A ISO-2022-JP deve ser usada no SMTP/NNTP e os cabeçalhos e entidades devem ser redefinidos de acordo com as exigências da RFC. Embora esses não sejam requisitos, isso ainda é uma boa idéia pois vários agentes de usuários populares não podem reconhecer nenhum outro método de codificação.
  • As páginas web criadas para serviços de telefonia móvel como » i-mode ou » EZweb devem usar Shift_JIS.
  • A partir do PHP 5.4.0, os caracteres de pictograma usados em serviços de telefonia móvel como » i-mode ou » EZweb são suportados.

add a note add a note

User Contributed Notes 1 note

up
-8
gullevek at gullevek dot org
13 years ago
For ISO-2022-JP encoding. If you convert data into this encoding it is highly recommended you use ISO-2022-JP-MS for the extended character set, eg the 1 in a circle ①.

For the mail header on the other hand you have to use ISO-2022-JP *without* the -MS extension.
To Top