offres d'emploi formations actualités contact accès annuaire intranet
Séminaires >

Apprentissage à une classe en grande dimension : un critère de séparation basé sur la théorie de l’espace nulle

Franck Dufrenois, équipe Specifi, LISIC, Univ. du Littoral Côte d’Opale.

jeudi 16 juin 2016 à 13h30

B014


Résumé : L‘apprentissage à une classe désigne l’ensemble des méthodes ayant pour objectif d’identifier ou de séparer une classe d’objets particulière dite « cible » du reste des objets. Le « reste » ici, désigné communément par : « outliers », « nouveautés, « anomalies »,... ne présente pas de modèle statistique commun avec les objets cibles. La difficulté de la tâche de séparation est entièrement résumée autour des notions de représentativité et de dimensionnalité. En effet, dans de nombreuses applications, la représentativité des objets « outliers » reste généralement faible ou quasi nulle, ce qui complique l’étape de construction d’une frontière de décision cohérente, étape qui s’appuie généralement sur la connaissance ou la contribution équilibrée de 2 (ou n) classes. La dimensionnalité des données, c’est-à-dire le nombre d’attributs qu’elles transportent modifie la notion de distance en très grande dimension. C’est ce qu’on appelle le « fléau de la dimension » dans le domaine de l’apprentissage.

Dans cet exposé, je propose une extension de notre critère de séparation présentée précédemment pour répondre aux différents points exposés ci-dessus. Cette généralisation est basée sur la théorie de l’espace nulle qui constitue l’un des théorèmes fondamentaux de l’algèbre linéaire. En particulier, nous montrerons qu’il permet de résoudre le problème de singularité propre à l’inversion de la matrice de covariance lorsque la dimensionnalité des données est nettement plus grande que la taille de l’échantillon. Dans cet espace « nulle », notre échantillon d’apprentissage sera réduit à un seul point rendant du même coup la classification plus simple. Nous proposerons de construire notre frontière de décision à partir d’un jeu d’apprentissage comprenant un sous échantillon des données cibles préalablement collectées et un contre-exemple « artificiellement » placé à l’origine de notre espace de caractéristiques. Ensuite nous validerons et comparons notre méthodologie sur un grand nombre de jeux de données issus de différents domaines : médical, traitement du signal et de l’image. Enfin, nous appliquerons cette méthode pour la segmentation d’objets fixes/dynamiques dans les vidéos à arrière-plan fixe mais pouvant subir des variations de luminosité dans le temps.

Applications : Données médicales, données du traitement du signal, classification de catégories d’images, détection d’objets fixes ou animés dans les vidéos.