WP1 : Scan On Demand : Développement de technologies de Machine Learning pour instancier des chaînes de numérisation et des moteurs d’indexation de corpus écrits du patrimoine normand.
Les travaux menés dans cette tâche s’intéressent à développer des méthodes d’analyse d’images de documents pour Transformer les images (des pixels) en du texte informatique (des caractères). Cette transformation est indispensable pour pouvoir utiliser les technologies du Web (qui opèrent sur des textes numériques) sur des images de documents. C’est cette transformation qui permet de réaliser des bibliothèques numériques qui offrent des moyens de consultation des ouvrages à distance, et ce sans dégrader les originaux, parfois très fragiles.
Au cours de PlaIR 2.018 nous avons mis l’accent sur le développement de technologies de reconnaissance de textes manuscrits.
À partir de l’image obtenue pas scan du document (1) Le système détecte tout d’abord les lignes d’écriture présentes dans l’image (2), puis il détecte et reconnaît les caractères sur chaque ligne (2). Enfin, à l’aide d’un modèle de langage, il corrige en partie les erreurs de reconnaissance (4)