offres d'emploi formations actualités contact accès annuaire intranet
Sujets de thèses >

Méthodes étendues de factorisation informée de matrices ou tenseurs (semi-)non-négatifs pour l’analyse de données incomplètes et de grande dimension. Application au traitement de données issues du mobile crowdsensing.

équipe : Specifi / Encadrants : G. Roussel, M. Puigt / Financement envisagé : 50% région, 50 % ULCO - Télécharger le sujet détaillé


Nous vivons un véritable déluge de données numériques : leur nombre double chaque année et les outils statistiques classiques ne sont pas adaptés pour analyser de telles quantités. La littérature montre que les approches de factorisation en matrices (semi-)non-négatives – (semi-)NMF – ou leurs extensions tensorielles (NTF) offrent une grande efficacité et versatilité dans de nombreux problèmes en favorisant une interprétabilité accrue par rapport aux approches plus classiques d’analyse de données. Les travaux en cours concernent notamment l’accélération ou la distribution de telles techniques pour des problèmes de grande dimension. Récemment, des approches informées ont été proposées, notamment dans notre équipe : elles tiennent compte d’informations issues d’experts ou de contraintes du problème considéré pour améliorer la qualité de l’analyse par rapport aux approches classiques de factorisation. Ces approches sont par ailleurs suffisamment versatiles pour gérer l’absence locale de données dans la matrice à factoriser.

Nous avons développé ces méthodes notamment pour traiter des données fournies par une foule de capteurs mobiles géolocalisés et horodatés (mobile crowdsensing) pour la surveillance citoyenne de la qualité de l’air (projet chercheurs-citoyens financé par la Région). Or, dans la mouvance de l’internet des objets et des Big Data, les données que nous allons être amené à traiter seront trop volumineuses pour que les approches développées jusqu’alors puissent être appliquées.

Dans le cadre de cette thèse, nous chercherons à étendre ces dernières pour traiter des problèmes de grande taille, par exemple via des méthodes d’optimisation rapides, distribuées et/ou randomisées. Ces approches rapides et informées pourront être par ailleurs étendues au cas où les données collectées par mobile crowdsendsing seront stockées sous forme de tenseur à données manquantes.