offres d'emploi formations actualités contact accès annuaire intranet
Thèses >

Contributions à la classification et segmentation de séries temporelles par apprentissage statistique non supervisé ou guidé.

Habilitation à diriger des Recherche

Émilie Poisson-Caillault

vendredi 7 février 2020 à 14h00

Salle B014


Le découpage d’une série temporelle en segments d'intérêt, récurrents ou isolés, est un sujet de recherche en traitement du signal et fouille de données, qui trouve des applications dans de nombreux domaines comme l'analyse de signaux marins. Le projet scientifique développé dans mon mémoire d'habilitation à diriger des recherches concerne la classification et la segmentation de séries temporelles uni- ou multi-variées par des techniques d’apprentissage non supervisé à guidé. Les approches proposées dans ce cadre sont utilisées dans différentes applications comme la caractérisation des masses d’eau lors d’un transect de bateau ou la caractérisation de la dynamique phytoplanctonique à partir de signaux collectés. L'objectif de la segmentation de série est d'utiliser les informations ou mesures fournies par différents capteurs, pour offrir une meilleure connaissance des états du processus observé sans a priori sur leur nombre, leur distribution et la datation de leur apparition dans cette série. Un de nos apports dans ce domaine est de conserver la résolution des données et de proposer une comparaison des séries et une modélisation markovienne d’une série, par apprentissage totalement non supervisé combinant des techniques de classification spectrale. De nouvelles méthodes de complétion basées sur une recherche de segments redondants ont aussi été proposées. Ainsi, il devient possible d'interpréter en totalité une série temporelle complexe, caractérisée par un cycle saisonnier ou par des processus non stationnaires à forte variabilité, malgré de longues plages de valeurs manquantes ou aberrantes. Un autre apport a été de formaliser des techniques d’intégration de connaissance par paires selon le formalisme ML/CNL (deux observations doivent être liées, ou ne le doivent pas, formalisme de contraintes de Wagstaff). Ces connaissances sont obtenues soit par proposition d'une sélection d’observations représentatives à un expert humain, soit par introduction d'informations sur la dynamique du processus étudié. Ce travail a principalement été appliqué à la caractérisation de la dynamique phytoplanctonique avec des résolutions infra-horaires à partir de données physico-chimiques pluriannuelles issues de stations de mesures fixes instrumentées, ou de données issues d'embarcation mobile d’opportunité lors de transects. Des expérimentations sur signaux réels ont montré que les méthodes proposées génèrent des segmentations cohérentes, satisfaisantes pour l'expert humain. En particulier, leurs résultats ont permis de détecter des événements intermittents, mais aussi extrêmes tels que les efflorescences particulières d’espèces nuisibles ou toxiques ayant une forte réponse aux forçages environnementaux et anthropiques. L’étiquetage automatique obtenu est aussi une première réponse pour fournir une base d’apprentissage à des systèmes de classification supervisée, où la tache de labellisation par un expert humain est impossible compte tenu des technologies actuelles aux résolutions de plus en plus élevées. Ainsi, aujourd’hui les perspectives de ce travail sont l’apprentissage supervisé et incrémental de ces événements pour affiner des stratégies actives de correction de ces événements lorsqu’ils peuvent être nocifs.