Cet ensemble de tâches vise à améliorer significativement deux outils : HeTOP (Health Terminology/Ontology Portal) et ECMT (Extracteur de Concept Multi-Terminologique).
HeTOP est une plateforme multi-terminologique multi-discipline multi-lingue offrant un accès à des dizaines de Systèmes d’Organisation des Connaissances (SOC) (terminologies, classifications, ontologies…). L’approche d’utilisation des SOC dans des systèmes apporte à la fois une standardisation (normes) et l’apport d’un aspect sémantique (porté par les concepts de SOC). Ceci permet à la fois de décrire précisément des documents (textes, liens, vidéos, images…) et de pouvoir les rechercher de la façon la plus précise et complète possible.
ECMT est un outil d’annotation automatique de textes en français. Il est spécialisé en Santé puisqu’il repose sur la base de données de SOC HeTOP, principalement axée dans le domaine médical. Identifier des concepts d’intérêt dans des textes en langage naturel est une tâche très complexe et fait intervenir plusieurs sous-disciplines (ingénierie des connaissances, traitement automatique du langage naturel…).
Le WP2 de PlaIR2.018 vise à améliorer ces outils autant sur le plan technologique (bases de données NoSQL) que sur les plans méthodologiques et algorithmiques (ajout de fonctionnalités pour les utilisateurs experts, amélioration des précision/rappel pour ECMT, etc.).