CISIS Unicode

611 palavras 3 páginas
CISIS UNICODE
PFT Parser e nível UNICODE
Versão 1.0

1. Apresentação
Este documento é parte integrante do acordo de serviço nº DOCBIBLASII/2012/Eds/1 entre Ernesto Spinak e o projeto do Prof. Dr. E. de Smet, University of Antwerp que descreve as necessidades de codificação na biblioteca CISIS para atuar com caracteres UNICODE.

2. Objetivo
Justificar porque o CISIS precisar ser recodificado para operar com caracteres UNICODE e em qual nível (UTF-8, UTF-16 ou completo).

3. Análise
Premissa do CISIS
O CISIS tem como premissa que 1 caractere ocupa no máximo 1 byte (8 bits). Esta premissa permite que ele possa ser utilizado com qualquer conjunto de caracteres cujos códigos estejam entre os valores de 0 a 255 como, por exemplo, na tabela ASCII.

Premissa do UNICODE
O Unicode tem como premissa que 1 caractere pode ocupar até 4 bytes (32 bits), com a possibilidade futura de chegar a 6 bytes. Esta premissa permite que qualquer conjunto de caracteres possa ser utilizado.

Efeito da premissa CISIS
Todo o código fonte em C do CISIS utiliza a premissa de 1 caractere é igual a 1 byte em sua implementação. A premissa é utilizada para que tudo seja mais eficiente e adeqüado à estrutura computacional existente até então e a linguagem de programação utilizada na época de seu desenvolvimento, o qual ocorreu por volta do ano de 1987.

Linguagem de formatação PFT
O interpretador da linguagem de formatação PFT precisa ser adaptado para desassociar 1 caractere de 1 byte. Nas instruções de seleção de parte do campo que considerem salto ou limite de caractere o PFT precisa ser modificado para considerar os caracteres UNICODE que ocupem mais de 1 byte.

Tabela de caixa alta – ISISUCTAB
A tabela ISISUCTAB é implementada no CISIS como um vetor em memória ocupando apenas o espaço de 256 bytes. Não é possível implementar toda as possibilidades da tabela UNICODE como um vetor em memória pois teríamos que considerar 4 bytes para cada caractere de um total de

Relacionados