Voilà un touitte de l'ANRT qui annonce qu'Unicode a été complété des caractères nécessaires à 4 autres graphies qui n'y étaient pas encore, pour atteindre le total (fort honorable) de 150 graphies.

L'occasion de vous faire un petit fil pour parler typographie (et jouer les vieux cons).

Parlons donc d'Unicode.

Unicode, c'est un projet de fou. Une espèce de délire humaniste d'informaticiens typographes du 20e siècle. Un peu comme l'Encyclopédie, celle de Diderot et D’Alembert.

L'idée était d'avoir un schéma de codage des caractères qui permette de recouvrir tous les schémas connus auparavant, et idéalement, toutes les langues écrites de l'humanité.

Les règles qui ont été retenues sont, presque toujours, les plus exigeantes possibles, et accordant une place très importante aux questions techniques. Le but n'était pas de faire un annuaire de tous les caractères dont personne ne se serve. Il fallait que ça puisse devenir un standard industriel, universel. Alors il fallait absolument prendre en compte les contraintes techniques, pour que les industriels suivent.

C'est par exemple de là que vient la contrainte sur la bijection : pour tous les codages connus (genre, le big5, schéma de codage utilisé par l'industrie japonaise), il faut qu'on puisse convertir l'ancien schéma vers unicode, aller-retour, sans aucune perte.

Ça semble abstrait ? Si l'ancien schéma contient deux caractères X1 et X2, alors, on doit retrouver ces deux caractères à deux positions différentes dans Unicode, même si la logique disait que c'était le même.

Par exemple, si dans un codage on avait "a latin minuscule" et "a latin minuscule italique", alors il fallait qu'Unicode prévoit les deux. Ainsi, l'ancien fichier pouvait être transcodé vers Unicode, puis de nouveau vers le schéma d'origine, et le fichier retrouvé était absolument intact, à l'octet près.

Pourtant, Unicode, normalement, stocke des caractères, par des glyphes.

On retrouve donc, pour ce compromis technique important, quelques éléments un peu hérétiques dans Unicode. Des caractères qui n'ont rien à y faire, mais qui sont conservés, pour les vieux fichiers.

Il y avait aussi la volonté de représenter toutes les langues. Toutes. Vraiment. Y compris dans leurs formes rares.

C'est une des raisons pour lesquelles Unicode continue à évoluer. Lentement, par rapport à ses débuts, mais ça continue. Parce qu'il y a des langues qui sont tellement mal représentées dans les outils modernes qu'il n'existe aucun outil informatique. Mais qui sont parlées, hein.

J'ai souvenir de cette langue rare, d'Inde, qui pouvait se typographier au plomb, à la fin du 19e, et n'a pu être typographiée à l'ordinateur qu'au début du 21e siècle.

Follow

@bayartb Le Malayalam? L’orthographe a évolué a mesure des évolutions techniques. J’avais vu cette conférence super intéressante m.youtube.com/watch?v=-KvFuuVi

Sign in to participate in the conversation
Mastodon

Server run by the main developers of the project 🐘 It is not focused on any particular niche interest - everyone is welcome as long as you follow our code of conduct!