XML - codificação

Encodingé o processo de conversão de caracteres Unicode em sua representação binária equivalente. Quando o processador XML lê um documento XML, ele codifica o documento dependendo do tipo de codificação. Portanto, precisamos especificar o tipo de codificação na declaração XML.

Tipos de codificação

Existem basicamente dois tipos de codificação -

  • UTF-8
  • UTF-16

UTF significa Formato de Transformação UCS e o próprio UCS significa Conjunto de Caracteres Universais . O número 8 ou 16 refere-se ao número de bits usados ​​para representar um caractere. Eles são 8 (1 a 4 bytes) ou 16 (2 ou 4 bytes). Para os documentos sem informações de codificação, UTF-8 é definido por padrão.

Sintaxe

O tipo de codificação está incluído na seção do prólogo do documento XML. A sintaxe para codificação UTF-8 é a seguinte -

<?xml version = "1.0" encoding = "UTF-8" standalone = "no" ?>

A sintaxe para codificação UTF-16 é a seguinte -

<?xml version = "1.0" encoding = "UTF-16" standalone = "no" ?>

Exemplo

O exemplo a seguir mostra a declaração de codificação -

<?xml version = "1.0" encoding = "UTF-8" standalone = "no" ?>
<contact-info>
   <name>Tanmay Patil</name>
   <company>TutorialsPoint</company>
   <phone>(011) 123-4567</phone>
</contact-info>

No exemplo acima encoding="UTF-8", especifica que 8 bits são usados ​​para representar os caracteres. Para representar caracteres de 16 bits,UTF-16 codificação pode ser usada.

Os arquivos XML codificados com UTF-8 tendem a ser menores em tamanho do que aqueles codificados com o formato UTF-16.