Le Dico ISN

UTF8

Rappel : La norme ISO 8859-1, qui est souvent appelée Latin-1 ou Europe occidental, est une norme de l'Organisation internationale de normalisation pour le codage des caractères en informatique.
Il s'agit d'une extension d'ASCII qui comporte 128 caractères imprimables. Elle permet d'écrire la plupart des langues d'Europe de l'Ouest et presque tout les caractères du français à part le .
Elle définit ce qu'elle appelle l'alphabet latin numéro 1, qui consiste en 191 caractères de l'alphabet latin, chacun d'entre eux étant codé par un octet (soit 8 bits) contrairement à ASCII(7bits).

Cette norme est donc utilisée sur tous les continents, en Europe de lOuest, en Amérique, et dans une grande partie de l'Afrique ou de lOcéanie ainsi que certains pays dAsie du Sud-Est.

Sa propre extension ISO-8859-15 le modifie légèrement. Pour le français, on notera surtout lajout du caractère et du symbole monétaire (Euro).

Les 128 caractères dASCII restent cependant la base dune partie des codages modernes, créés comme des extensions dASCII et compatibles avec celui-ci.

La norme utf8

UTF-8 (abréviation de langlais Universal Character Set Transformation Format - 8 bits) est un codage de caractères informatiques conçu pour coder lensemble des caractères du « répertoire universel de caractères codés », initialement développé par lISO dans la norme internationale ISO/CEI 10646, aujourdhui totalement compatible avec le standard Unicode, en restant compatible avec la norme ASCII limitée à langlais de base (et quelques autres langues beaucoup moins fréquentes), mais très largement répandue depuis des décennies.

LUTF-8 est utilisé par 82,2 % des sites web en décembre 20141. De par sa nature, UTF-8 est dun usage de plus en plus courant sur Internet, et dans les systèmes devant échanger de l'information. Il sagit également du codage le plus utilisé dans les systèmes GNU, Linux et compatibles pour gérer le plus simplement possible des textes et leurs traductions dans tous les systèmes décritures et tous les alphabets du monde.

La principale caractéristique dUTF-8 est quelle est rétro-compatible avec la norme ASCII, cest-à-dire que tout caractère ASCII se code en UTF-8 sous forme dun unique octet, identique au code ASCII. Par exemple « A » (A majuscule) a pour code ASCII 65 et se code en UTF-8 par l'octet 65. Chaque caractère dont le point de code est supérieur à 127 (caractère non ASCII) se code sur 2 à 4 octets. Le caractère « » (euro) se code par exemple sur 3 octets : 226, 130, et 172.