Accueil Les petits écueils de la reconnaissance

Les petits écueils de la reconnaissance

La reconnaissance de documents est une technique d’analyse d'images. Elle intègre un processus de conversion des données relatif aux enjeux du langage écrit et de sa transformation numérique : reconnaissance de caractères, formatage du texte, structuration du contenu et accès à l'information pour des applications d'indexation. Les systèmes de dématérialisation sont techniquement au point. Ils s’améliorent et percent dans le domaine de la reconnaissance cursive sur texte libre en s’appuyant sur les techniques utilisées pour les chèques. Mais malgré de franches avancées, l’automatisation des traitements n’a pas encore réussi à contourner tous les écueils de la reconnaissance. En particulier celui de la catégorisation “intelligente” des informations et de la formalisation du contenu. En étant capables de « comprendre » de mieux en mieux le sens des phrases identifiées, les meilleurs programmes versent déjà dans la sémantique sans parvenir toutefois à égaler notre cerveau. Certains processus de gestion de documents se passent en effet difficilement d’une intervention humaine. Le traitement et le classement des documents juridiques, par exemple, relèvent d’une expertise qu’aucune application ne possède encore totalement. CategoriX, une solution développée par les chercheurs de Xerox au XRCE (Xerox Research Centre Europe) à Grenoble, est en train de combler une part de ce vide technologique. CategoriX s’appuie sur un apprentissage du vocabulaire pour examiner et identifier l’information textuelle.Comme pour la reconnaissance vocale, sa “sensibilité” face aux termes spécialisés s’accroît avec le temps. Mais c’est surtout sa capacité à catégoriser qui en fait une application inédite. Cette technologie fournit déjà aux avocats le moyen d’affiner leurs activités d’ediscovery (administration de la preuve électronique). Elle pourrait bien être généralisée à l’ensemble des documents.