offres d'emploi formations actualités contact accès annuaire intranet
Séminaires >

Un critère de Fisher à une classe pour l’identification d’observations aberrantes. Application à la détection d’objets en mouvement et à la détection de contours.

Franck Dufrenois, LISIC

jeudi 27 mars 2014 à 14h00

salle B014


La détection d’observations aberrantes ou « d’outliers » dans un jeu de données fait référence à des observations individuelles ou structurées qui apparaissent inconsistants avec la majorité des données. Leur détection ou leur élimination constitue un problème récurrent et important touchant une large variété d’applications telles que, pour en citer quelques une : l’économie, la bioinformatique, le web, l’astronomie, les applications issue de l’image…. Les données ainsi que les moyens utilisés pour les collecter sont généralement imparfaits, il est donc nécessaire de développer des outils statistiques performants ou « robuste »pour extraire l’information utile. Dans ce cadre, j’ai présenté l’année dernière un nouvel outil statistique permettant d’isoler un groupe d’observations dit « dominant » parmi des observations erronées. Son principe repose sur une reformulation du problème de la régression robuste comme un problème d’analyse discriminante linéaire à une classe. La maximisation du critère de séparation obtenue fournie à la fois le vecteur de régression et un vecteur indicateur binaire permettant de classer les données suivant la classe « dominant » ou suivant la classe « outliers ». Cette étude a été menée dans un cadre linéaire et a déjà reçu un écho favorable dans la communauté scientifique [1][2].

Je vous propose lors de ce séminaire d’étendre l’utilisation de cette mesure de contraste a des données non linéaires. Depuis quelques années, l’astuce du noyau (« kernel trick ») offre a de nombreux outils statistiques standards tels que l’analyse en composante principale, l’analyse discriminante, l’analyse canonique des corrélations … la possibilité d’étendre leur action aux données non linéaires et ceci de manière assez simple. Je présenterai donc dans cet exposé une version à noyau de ce critère.

Tout d’abord, nous verrons qu’il est possible d’extraire un encadrant supérieur permettant de séparer le calcul du vecteur des classes et du sous espace projectif optimal, qui dans la version linéaire se faisait de manière alternée et récursive. Cette propriété met en valeur deux problèmes indépendants :

  1. Le vecteur indicateur (le vecteur des classes) est obtenu comme la solution d’un problème de programmation linéaire à variable entière. Nous verrons une manière originale pour résoudre ce problème
  2. Le sous espace projectif optimal est calculé via la maximisation d’un problème aux valeurs propres généralisées.

A partir, de ces solutions, nous construirons une bande de décision assurant la capacité de généralisation de cet outil. En considérant un noyau gaussien, et sous hypothèse que la matrice de Gram à noyau du jeu de données est proche d’un partitionnement idéal, je montre que cette mesure de contraste est indicateur pertinent pour sélectionner de manière automatique la valeur de l’échelle du noyau. Cette propriété permet de résoudre le problème de la sélection du modèle sans phase d’apprentissage qui est une étape classique et couteuse de la plupart des approches d’apprentissage statistique. La convergence et la complexité algorithmique seront également étudiées. Le comportement de cet algorithme sera évalué et comparé sur des données synthétiques et réelles. Puis nous finirons par quelques illustrations en traitement des images.

  1. F.DUFRENOIS and J.C.NOYER. Discriminative kernel hat matrix : a new tool for automatic outlier identification. IJCNN’12 Proceedings of the 2012 international joint conference on Neural Networks (Brisbane, Australie)
  2. F. Dufrenois and J.C Noyer. Formulating robust linear regression estimation as a one class LDA criterion : Discriminative hat matrix. IEEE Transactions on Neural Networks and Learning Systems, 2013, vol 24 n° 2, pp. 262-273.