T3 – Conception, mise au point et validation de méthodes d’apprentissage profond faiblement supervisé

Objectif :

Proposer des réponses scientifiques à des problématiques métier correspondant aux marchés ciblés par Saagie.

Concevoir, mettre au point et valider des modèles d’apprentissage profond faiblement supervisé capables de répondre à des cas d’usage de clients de Saagie en s’appuyant sur des jeux de données réelles ou représentatives.

Approche :

L’angle d’attaque choisi pour aborder la problématique de l’apprentissage faiblement supervisé repose sur l’exploitation de l’apprentissage multitâche car son formalisme offre un cadre général élégant pour adjoindre au critère classique supervisé des tâches annexes potentiellement non supervisées (App. auto supervisé voir §2.2 et nos travaux précédents[1]). Étude de l’aspect multimodal des données par une combinaison de fonctions de pertes dédiées à chaque catégorie de données d’entrée.

Analyse de data sets complexes, hétérogènes et multi-domaines avec des recouvrements et des complémentarités entre domaines. Par exemple: pour un individu, on peut disposer ou pas de données dans différents domaines (images et/ou texte et/ou données tabulaires) et on propose d’utiliser des fonctions de transfert pour reconstruire, pour un individu, les données manquantes dans un domaine.

Planification :

T3.1 : Travaux préliminaires et préparation des données

Début :

01/07/2021

Fin :

30/06/2022

Description :

Étude, implémentation et apprentissage de modèles dynamiques pour appréhender les signaux : modèles récurrents ou réseaux totalement convolutifs (cf. travaux récents sur structures purement convolutives.

T3.2 : Étude de l’aspect séquentiel des données

Début :

01/07/2021

Fin :

30/06/2022

Description :

T3.3 : Étude de l’aspect multimodal des données

Début :

01/01/2022

Fin :

31/12/2023

Description :

Étude, implémentation et apprentissage de modèles de fusion de données permettant de combiner dans un modèle statistique des informations de natures variées (images, textes, données discrètes, etc.). Investigation des modèles profonds convolutionnels qui semblent désormais capables d’effectuer efficacement cette fusion d’information[1] [2]. Des comparatifs avec des méthodes d’ensemble telles que les random forests pourront également être considérés.

T3.4 : Étude de l’aspect incomplet, incertain et imparfait des données

Début :

01/07/2021

Fin :

31/12/2024

Description :

Étude et prototypage des différentes stratégies d’apprentissage profond faiblement supervisé évoquées au §2 dans un cadre général multitâche. Application de méthodes de régularisation et d’architectures optimisées en vue d’améliorer la robustesse.

T3.5 : Apprentissage des modèles complets et validation sur données réelles

Début :

01/01/2023

Fin :

30/06/2025

Description :

Conception et apprentissage d’un modèle global permettant de traiter des données multimodales et séquentielles, dans un contexte d’apprentissage profond faiblement supervisé. Préapprentissages probables sur des données annexes sur certaines modalités, image notamment. Combinaison des travaux de T3 + utilisation de l’ensemble des données CHB pour la réalisation de démonstrateurs de faisabilité.

[1] Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., & Ng, A. Y. (2019). Multimodal deep learning.

[2] Lin Ma, Zhengdong Lu, Lifeng Shang, Hang Li; in ICCV, 2015, pp. 2623-2631