Traitement documentaire et Unicode, de quoi parle-t-on?

25 avril 2017

Philippe Filippi, DG Compart France

La version actuelle d’Unicode couvre presque tous les systèmes d’écriture au monde – en théorie tout du moins. Mais aucune police ne prend en charge tous les caractères. La question est donc de savoir comment les entreprises peuvent tirer profit d’Unicode.
En ce qui concerne le codage numérique des caractères, plusieurs défauts apparaissent rapidement. En fait, la plupart des entreprises utilisent Unicode ou plusieurs pages de code couvrant les lettres de base de l’alphabet latin. Cependant, les caractères spéciaux, les autres alphabets et les signes diacritiques rarement utilisés repoussent rapidement les limites habituelles.
Ceci pose un vrai problème car les noms de personnes ou les produits, marques, adresses, etc. qui contiennent des caractères spéciaux sont parfois saisis différemment voire même affichés incorrectement selon le jeu de caractères utilisé.
Il s’agit là d’une question délicate, en particulier dans l’administration publique, où l’orthographe peut avoir des implications juridiques importantes. Dans de nombreux pays de l’UE, les États-Unis et le Canada, les citoyens ont légalement droit à l’orthographe exacte de leur nom, et la transcription provoque parfois des difficultés.
Prenez le nom Møller, par exemple. Dans les sociétés dont le jeu de caractères ne comprend pas le ø, le nom peut être inscrit comme Möller ou Moller. Parce que le nom est écrit sous des formes différentes, une recherche de la base de données client ou dans le registre civil pourrait échouer.
Unicode: concentrez-vous sur ce qui est important !
À première vue, le problème semble pouvoir être résolu avec Unicode puisque sa version actuelle standard annonce couvrir presque tous les systèmes d’écriture. De fait, celle-ci a bien plus de 100.000 caractères. Seulement, à quoi bon disposer de plus d’un million de points de code si les polices utilisées ne les prennent pas en charge? Il ne suffit pas de coder les lettres ou les caractères, il est doivent également être affichés !
La plupart des polices classiques sont assez limitées, ne supportant que 400 à 500 caractères. Les limites s’étendent lorsque l’on considère que les autorités allemandes, pour prendre un exemple, ont déjà accepté l’utilisation de 700 lettres et symboles. Les entreprises et les organisations sont donc confrontées à la question de savoir quels sont les caractères Unicode dont ils ont besoin et comment ils vont faire pour les afficher. Le fait est qu’aucune police ne prend en charge tous les caractères Unicode, et encore moins les 700 mentionnés.
Pendant ce temps le sujet gagne du terrain car l’internationalisation affecte l’ensemble de la communication client. La pression du marché éveille les entreprises au fait que la langue du client est un facteur concurrentiel de plus en plus important, à commencer par l’orthographe correcte des noms et prénoms.
Le problème, cependant, est que de nombreuses entreprises n’en sont plus aux structures de pages de code mais elles s’appuient sur le traitement des dites pages. La conséquence est qu’elles sont incapables de cartographier plus de quelques 100 lettres et symboles différents. Les anciennes structures informatiques doivent donc devenir compatibles Unicode.
Définir les règles d’utilisation d’Unicode
Il n’y a pas de contournement possible à la norme Unicode. Mais sa mise en œuvre est une autre histoire ! Comment les entreprises peuvent-elles adapter efficacement leurs systèmes informatiques existants? La perplexité et la confusion règnent souvent dans les équipes car les prudents préfèrent jouer la sécurité tandis que d’autres choisissent de suivre leur intuition, aveugles aux conséquences de l’impasse sur les caractères Unicode. Une chose est sûre, avec Unicode, vous devez vous limiter à ce qui est essentiel !
Pionnier à cet égard, le secteur public Allemand a, dans sa décision d’Avril 2014, ratifié l’usage de caractères Unicode pour la tenue des registres et la transmission des données. Les noms des personnes sont ainsi conservés sous une forme identique dans tous les registres électroniques publics.
Fiez-vous aux spécialistes
D’autres secteurs d’activités comme les banques et les assurances sont à la traîne. Même si certains ont déjà converti leurs applications à la norme, ils ne savent pas forcément comment en tirer pleinement profit. Il manque aux utilisateurs des règles d’usage et de manipulation précises. Un rôle que d’ailleurs pourraient s’attribuer les associations professionnelles et les institutions ; celles-ci devraient également faire connaître leurs recommandations en la matière.
En attendant, même si l’alphabet latin et les pages de code ne suffisent plus, les entreprises ont besoin de démarrer leurs projets et définir leurs propres lignes directrices. Des années passent avant que les systèmes de création et de traitement de documents d’entreprise puissent supporter un large répertoire de caractères spécifiques avec un haut niveau de qualité. Et plus on avance, plus il devient compliqué de s’adapter. Cela fini par affecter tous les systèmes de traitement de documents – de la composition au formatage en passant par la conversion, la diffusion via les différents canaux de communication, etc. Le meilleur conseil est donc de faire appel à un spécialiste en gestion et traitement documentaire qui soit expérimenté dans les spécifications Unicode.
Comment tout a commencé : l’histoire d’Unicode en bref pour les curieux !
Les pages de code informatique classiques ne couvrent qu’un nombre limité de caractères. Dans les codages de caractères occidentaux, cette limite est habituellement de 128 points de code (7 bits) – comme dans le standard ASCII familier – ou 256 caractères (8 bits), comme dans l’ISO 8859-1 (également appelé latin 1) ou des variantes de EBCDIC. Après avoir soustrait les caractères de contrôle, il ne reste que 95 éléments pour afficher des lettres et des caractères spéciaux en ASCII et 191 éléments dans les jeux de caractères ISO 8 bits.
Le problème avec ces encodages de caractères est que l’affichage de caractères dans différentes langues, dans un même texte, est difficile voire impossible. Cela a considérablement handicapé l’échange international de données dans les années 1980 et 1990.
Ainsi, Unicode a été développé il y a un quart de siècle, en grande partie piloté par des entreprises telles que Microsoft et Apple. L’objectif était et reste de surmonter l’incompatibilité des différents codages. Tout d’abord, le jeu de caractères précédent des pages de codes classiques a été élargi de 256 caractères initialement à 65 636 (256 x 256).
La première version d’Unicode, version 1.0 (publiée en 1991), couvrait déjà plus de 50 000 caractères différents. Ils comprenaient les alphabets latin, arabe, cyrillique, hébreu et grec ainsi que plusieurs langues «exotiques» comme le thaïlandais, le laotien, le tamoul, le malayalam et le télougou. Unicode 1.0 inclut même les scripts CJK (chinois, japonais, coréen), mais pas jusqu’à la version 1.0.1 (juin 1992).
Des limitations ont été rencontrées encore et encore, ce qui a entraîné l’expansion continue d’Unicode à ce jour. Par exemple, la dernière version d’Unicode, version 9.0, comporte 135 systèmes d’écriture codés différents. Nous sommes encore loin de la fin de l’histoire. Les caractères d’autres systèmes d’écriture seront continuellement ajoutés à Unicode et gérés sous la désignation ISO 10646 en tant que jeu de caractères codés universel (UCS) de l’Organisation internationale de normalisation (ISO).
Le potentiel de développement d’Unicode est illimité. Les travaux actuels sont consacrés au soutien des émoticônes – ce qui peut sembler stupide pour certains, mais dans certaines industries comme les télécommunications, le sujet est incontournable car suscitant un grand intérêt de la part des consommateurs.

Pour accéder à la base de données Unicode de Compart : https://www.compart.com/en/unicode

Géraldine Cabon devient directrice du marketing chez SCT TELECOM