Aller au contenu

« Point de code » : différence entre les versions

Un article de Wikipédia, l'encyclopédie libre.
Contenu supprimé Contenu ajouté
Sandrarossi (discuter | contributions)
Créé en traduisant la page « Code point »
Sandrarossi (discuter | contributions)
m Texte du lien vers UTF corrigé / Suppression "Liens externes"
Ligne 10 : Ligne 10 :
* d'encoder un même espace de codage de différentes façons, ou
* d'encoder un même espace de codage de différentes façons, ou
* d'afficher un même caractère en utilisant des glyphes différents.
* d'afficher un même caractère en utilisant des glyphes différents.
Pour Unicode, la séquence particulière des bits est appelée une ''[[Codage des caractères|code unit]]'' – pour le jeu de caractères codés [[UTF-32|UCS-4]], les points de code sont toujours encodés avec des [[Système binaire|nombres binaires]] de 4 [[Octet|octets]], alors que pour [[UTF-8]], les points de code sont encodés avec des séquences de 1 à 4 octets. Pour plus d'information, voir https://fr.wikipedia.org/wiki/Unicode#UTF.2C_Universal_Transformation_Format. Les points de code sont assignés à des [[Caractère (informatique)|caractères]] abstraits. Un caractère ''abstrait'' n'est pas un glyphe graphique mais une unité de donnée textuelle. Cependant, les points de code peuvent aussi ne pas être utilisés, et réservés pour des utilisations futures (la majorité de l'espace de code Unicode n'est pas utilisé), ou affectés à d'autres utilisations.
Pour Unicode, la séquence particulière des bits est appelée une ''[[Codage des caractères|code unit]]'' – pour le jeu de caractères codés [[UTF-32|UCS-4]], les points de code sont toujours encodés avec des [[Système binaire|nombres binaires]] de 4 [[Octet|octets]], alors que pour [[UTF-8]], les points de code sont encodés avec des séquences de 1 à 4 octets. Pour plus d'information, voir [[Unicode#UTF.2C Universal Transformation Format|UTF]]. Les points de code sont assignés à des [[Caractère (informatique)|caractères]] abstraits. Un caractère ''abstrait'' n'est pas un glyphe graphique mais une unité de donnée textuelle. Cependant, les points de code peuvent aussi ne pas être utilisés, et réservés pour des utilisations futures (la majorité de l'espace de code Unicode n'est pas utilisé), ou affectés à d'autres utilisations.


La distinction entre un point de code et le caractère abstrait correspondant n'est pas prononcée en Unicode, mais est évidente pour d'autres jeux de caractères codés, où de nombreuses [[Page de code|pages de code]] peuvent exister pour un seul espace de codage.
La distinction entre un point de code et le caractère abstrait correspondant n'est pas prononcée en Unicode, mais est évidente pour d'autres jeux de caractères codés, où de nombreuses [[Page de code|pages de code]] peuvent exister pour un seul espace de codage.

== Liens externes ==


[[Catégorie:Codage des caractères]]
[[Catégorie:Codage des caractères]]

Version du 27 juin 2015 à 22:00

Dans la terminologie de codage des caractères, un point de code est toute valeur numérique qui compose l'espace de codage. De nombreux points de code représentent de simples caractères mais ils peuvent aussi avoir d'autres significations, comme pour le formatage.

Par exemple, le jeu de caractères codés ASCII comprend 128 points de code dans l'intervalle 0hex à 7Fhex, l'ASCII étendu comprend 256 points de code dans l'intervalle 0hex to FFhex, et Unicode comprend 1 114 112 points de code dans l'intervalle 0hex to 10FFFFhex. L'espace de codage Unicode divisé en dix-sept plans (plan multilingue de base, et 16 plans supplémentaires), chacun avec 65 536 (= 216) ) points de code. Ainsi, la taille totale de l'espace de codage Unicode est 17 × 65 536 = 1 114 112.

Définition

La notion de point de code est utilisée pour l'abstraction, pour distinguer à la fois:

  • son numéro, de son encodage comme séquence de bits, et
  • sont caractère abstrait, d'une représentation graphique particulière (glyphe).

Cette abstraction permet ainsi:

  • d'encoder un même espace de codage de différentes façons, ou
  • d'afficher un même caractère en utilisant des glyphes différents.

Pour Unicode, la séquence particulière des bits est appelée une code unit – pour le jeu de caractères codés UCS-4, les points de code sont toujours encodés avec des nombres binaires de 4 octets, alors que pour UTF-8, les points de code sont encodés avec des séquences de 1 à 4 octets. Pour plus d'information, voir UTF. Les points de code sont assignés à des caractères abstraits. Un caractère abstrait n'est pas un glyphe graphique mais une unité de donnée textuelle. Cependant, les points de code peuvent aussi ne pas être utilisés, et réservés pour des utilisations futures (la majorité de l'espace de code Unicode n'est pas utilisé), ou affectés à d'autres utilisations.

La distinction entre un point de code et le caractère abstrait correspondant n'est pas prononcée en Unicode, mais est évidente pour d'autres jeux de caractères codés, où de nombreuses pages de code peuvent exister pour un seul espace de codage.