De l'OCR à la LAD

1 décembre 2011

Première étape dans le traitement des documents, la numérisation passe par un scanner personnel ou de production voire par un multifonction, le choix de la solution étant soumis à un facteur de volumétrie. Si une configuration modeste assure sans le moindre problème le traitement d'une centaine de courriers postaux par jour, il peut être plus rentable de miser rapidement sur des équipements dédiés, surtout si les documents renferment des informations complexes à extraire. “Dans toutes les approches, il y a une notion d'automatisation qui se révèle bénéfique seulement à partir d'un seuil, notamment à cause des coûts fixes de mise en oeuvre : il faut traiter au moins quelques centaines de documents par jour pour que le jeu en vaille la chandelle”, précise Vincent Ehrström, directeur marketing chez Itesoft. Il existe de multiples solutions de numérisation sur le marché qui sont techniquement au point. Couplées à des traitements d’indexation qui s’appuient sur des technologies d'OCR, ces solutions fournissent les bases d'une exploitation du courrier entrant. Elles varient d'un prestataire à l'autre, mais toutes assurent la conversion des documents numérisés en données compatibles avec le système de l'entreprise et leur intégration au département concerné. La fourchette de prix de ces solutions est importante, de 3 000 à 100 000 euros, voire au-delà. C’est dire s’il existe une gradation des offres en fonction des projets envisagés. L’OCR répond en général aux problématiques d’une gestion bureautique du document : la reconnaissance simple du texte se transforme dans la plupart des cas en envoi du fichier numérisé vers un traitement de texte. Les scanners et certains MFP automatisent la tâche, d’autres passent la main à une application stockée sur l’ordinateur de l’opérateur. Indispensable, l’océrisation donne aussi lieu à une indexation des documents qui facilitera après-coup leur recherche. Mais pour aller plus loin, il faut envisager des fonctions plus élaborées que délivrent les solutions de LAD (lecture automatique de document). Celles-ci sont équipées de moteurs puissants capables notamment de reconnaître un champ dans le document, par exemple un code barre, un tableau ou une signature, distinguer les uns des autres les éléments d’une page, les séparer et finalement les identifier. Les capacités d’analyse de contenu, de forme, de sens ou encore de reconnaissance de caractères manuscrits ou cursifs sont impressionnantes… mais au prix d’énormes budgets alloués aux départements R&D des éditeurs spécialistes de la LAD, qu’il faut évidemment amortir auprès des clients. Autre point crucial, ces solutions spécialisées assurent l'automatisation des process.

Innovations dans l'e-commerce