- délégation INRAE (2020-2021)
- délégation CNRS (2019-2020)
- décharge d’enseignement financé par le LabEx Mathématique Hadamard, ANR-11-LABX-0056-LMH du Programme des Investissements d’Avenir, (2013)
Mots Clés
- classification non supervisée (clustering) et croisée (co-clustering)
- modèles de mélange, modèle des blocs latents
- graphes
- algorithmes d’estimation, méthodes variationnelles, modèles bayésiens
- sélection de variables, choix de modèles
- apprentissage statistique, grande dimension, données volumineuses
- apprentissage semi-supervisé : positive-unlabeled learning, multiple instance learning
- modélisation applicative: neuroimagerie, génomique, pharmacovigilance, fiabilité, données ferroviaires, géologie structurale, cytométrie en flux
Thèmes actuels
- Clustering, co-clustering et données de grande dimension avec Christophe Biernacki (Inria-Modal)
- Co-clustering, une méthode de régularisation du clustering en grande dimension
- Apprentissage non supervisé de données volumineuses sous contrainte de ressources limitées (bourse de thèse DGA Filippo Antonazzo)
- Etude des relations entre différentes méthodes de clustering de graphes ; robustesse (thèse Leonardo Martins-Bianco)
- Sélection de modèle
- Etude asymptotique des critères ICL et BIC dans le modèle de blocs latents
- Avec Maud Delattre (INRAE-MaIAGE Jouy en Josas): Consistance d’un critère BIC dans les modèles mixtes
- Cytométrie de flux
avec Pascal Massart (Laboratoire de mathématiques d’Orsay)- Multiple instance learning pour la détection de cellules tumorales (thèse Cifre (Metafora) de Pierre-André Mikem)
avec Zacharie Naulet (Laboratoire de mathématiques d’Orsay)
Modélisation de données applicatives
Avec Gilles Stoltz (CNRS LMO Paris-Saclay) et SNCF (thèse Cifre Rémi Coulaud)- Prévision du temps d’échange lors du stationnement des trains en gare
Avec Patrick Pamphile (LMO Paris-Saclay) et Stellantis (thèse Cifre Olivier Coudray)
- Construction d’un critère probabilisé de fatigue multiaxiale
Avec Antonio Benedicto (UMR GEOPS Paris-Saclay)
- Données massives en géologie structurale
Avec Béatrice Laroche (INRAE-MaIAGE Jouy en Josas)
- Détection d’espèces d’intérêt à partir de séries irrégulières temporelles d’abondance du microbiote
Théorie et méthodologie
- Modèle des blocs latents pour la classification croisée Avec Gilles Celeux (INRIA-SELECT) et Gérard Govaert (UTC):
- modèle des blocs latents multinomial, identifiabilité, algorithmes variationnels et bayésiens, sélection de variables et choix de modèles, ICL, applications à des données génomiques (projet SONATA, INRA et URGV)
- Propriétés asymptotiques des estimateurs dans le modèle de blocs latents
- Méthodes (bayésiennes) variationnelles De la théorie aux applications
Avec Vincent Brault (Université de Grenoble) et Mahendra Mariadassou (INRA-MaIAGE)
Sciences du vivant
- Détection d’effets secondaires médicamenteux à partir de
bases de pharmacovigilance
avec Gilles Celeux (INRIA-SELECT) et Pascale Tubert-Bitter (INSERM), thèse Valérie Robert- modèle des blocs latents multiples, propriétés et algorithmes d’estimation, sparsité et données massives
- Etude statistique des altérations génomiques tumorales
avec Yves Rozenholc (INRIA-SELECT) et Tatiana Popova (Institut Curie)- Estimation de la ploïdie et du degré de contamination à partir de données CGH , modélisation par modèle de mélange et algorithme d’estimation
- Application des statistiques aux neurosciences
avec Gilles Celeux (Inria-Select) et Bertrand Thirion (Inria-Parietal), thèse Vincent Michel- Décodage de l’activité cérébrale à partir de cartes d’activation d’IRM fonctionnelle; classification et régression en grande dimension
- Reconstruction d’arbres en phylogénie : inférence
statistique
et
algorithmes
avec Marie-Anne Poursat (LMO, Université Paris Sud)
Doctorant.e.s
- Pierre-André Mikem, co-direction avec Pascal Massart (Université Paris-Saclay)
Multiple instance learning pour la détection de cellules tumorales.
Thèse démarrée en mars 2023 - Leonardo Martins-Bianco, co-direction avec Zacharie Naulet (Université Paris-Saclay)
Disentangling the relationships between different community detection algorithms.
Thèse démarrée en octobre 2022 - Filippo Antonazzo, co-direction avec Christophe Biernacki (Inria-Modal)
Unsupervised learning of huge datasets with limited computer resources.
Thèse soutenue en septembre 2022 - Olivier Coudray, co-direction avec Patrick Pamphile (Université Paris-Saclay)
Construction d’un critère probabilisé de fatigue multiaxiale.
Thèse Cifre Stellantis (ex PSA), soutenue en décembre 2022 - Rémi Coulaud, co-direction avec Gilles Stoltz (Université Paris-Saclay)
Prévision de temps d’échange lors des stationnements de trains en gare.
Thèse Cifre SNCF, soutenue en décembre 2022
- Valérie
Robert,
codirection avec Gilles Celeux
Modèles statistiques pour la pharmacovigilance
Thèse soutenue le 06/06/2017 - Vincent
Brault, codirection avec Gilles Celeux
Estimation et sélection de modèle pour le modèle des blocs latents,
Thèse soutenue le 30/09/2014 - Vincent Michel, codirection avec Bertrand
Thirion et
Gilles Celeux
Understanding the visual cortex by using classification techniques,
Thèse soutenue en 12/2010
Organisation scientifique
- Co-organisatrice Frugalias : Workshop frugalité en IA et en statistique, Paris 4/10/2024
- Membre du comité d’organisation de l’événement satellite des JDS2022 : Apprentissage statistique pour les données temporelles, nouveaux horizons et applications industrielles (17/06/2022)
- Vice-Présidente scientifique du comité d’organisation des Workshops Federated Learning & Privacy, 2020-2021
- Membre de l’équipe d’organisation du séminaire de statistiques du LMO, 2019-2021
- Organisatrice de la session spéciale MALIA Apport des maths à l’IA, JDS Nancy, 2019
- Co-organisatrice de la session IPS273 Coclustering: model based or model free approaches? Kuala Lumpur ISI, 2019
- Membre du comité scientifique de la semaine SEME Orsay,14 au 18 janvier 2019
- Membre du comité d’organisation des 50èmes Journées de Statistique de la SFdS, Saclay 2018
- Membre du comité d’organisation de la journée Statistique et données massives: enjeux et perspectives, Paris 2015
- Créatrice et organisatrice des Rendez-vous Méthodes et Logiciels de la SFdS (entre 50 et 70 participants académiques, industriels et éditeurs de logiciels). Thèmes abordés : géomarketing, méthodes d’arbre, text-mining, visualisation, données massives, réseaux bayésiens, Paris 2012-2014.