Recherche

  • délégation INRAE (2020-2021)
  • délégation CNRS (2019-2020)
  • décharge d’enseignement financé par le LabEx Mathématique Hadamard, ANR-11-LABX-0056-LMH du Programme des Investissements d’Avenir, (2013)

Mots Clés

  • classification non supervisée (clustering) et croisée (co-clustering)
  • modèles de mélange, modèle des blocs latents
  • graphes
  • algorithmes d’estimation, méthodes variationnelles, modèles bayésiens 
  • sélection de variables, choix de modèles 
  • apprentissage statistique, grande dimension, données volumineuses
  • apprentissage semi-supervisé : positive-unlabeled learning, multiple instance learning
  • modélisation applicative: neuroimagerie, génomique, pharmacovigilance, fiabilité, données ferroviaires, géologie structurale, cytométrie en flux

Thèmes actuels

  • Clustering, co-clustering et données de grande dimension
  • avec Christophe Biernacki (Inria-Modal)
    • Co-clustering, une méthode de régularisation du clustering en grande dimension
    • Apprentissage non supervisé de données volumineuses sous contrainte de ressources limitées (bourse de thèse DGA Filippo Antonazzo)

    avec Zacharie Naulet (Laboratoire de mathématiques d’Orsay)
    • Etude des relations entre différentes méthodes de clustering de graphes ; robustesse (thèse Leonardo Martins-Bianco)

  • Sélection de modèle
    • Etude asymptotique des critères ICL et BIC dans le modèle de blocs latents
    • Avec Maud Delattre (INRAE-MaIAGE Jouy en Josas): Consistance d’un critère BIC dans les modèles mixtes

  • Cytométrie de flux
    avec Pascal Massart (Laboratoire de mathématiques d’Orsay)
    • Multiple instance learning pour la détection de cellules tumorales (thèse Cifre (Metafora) de Pierre-André Mikem)

Modélisation de données applicatives

Avec Gilles Stoltz (CNRS LMO Paris-Saclay) et SNCF (thèse Cifre Rémi Coulaud)
  • Prévision du temps d’échange lors du stationnement des trains en gare

Avec Patrick Pamphile (LMO Paris-Saclay) et Stellantis (thèse Cifre Olivier Coudray)
  • Construction d’un critère probabilisé de fatigue multiaxiale

Avec Antonio Benedicto (UMR GEOPS Paris-Saclay)
  • Données massives en géologie structurale

Avec Béatrice Laroche (INRAE-MaIAGE Jouy en Josas)
  • Détection d’espèces d’intérêt à partir de séries irrégulières temporelles d’abondance du microbiote

Théorie et méthodologie

  • Modèle des blocs latents pour la classification croisée
  • Avec Gilles Celeux (INRIA-SELECT) et Gérard Govaert (UTC):
    • modèle des blocs latents multinomial, identifiabilité, algorithmes variationnels et bayésiens, sélection de variables et choix de modèles, ICL, applications à des données génomiques (projet SONATA, INRA et URGV)

    Avec Vincent Brault (Université de Grenoble) et Mahendra Mariadassou (INRA-MaIAGE)
    • Propriétés asymptotiques des estimateurs dans le modèle de blocs latents

  • Méthodes (bayésiennes) variationnelles
  • De la théorie aux applications

Sciences du vivant

  • Détection d’effets secondaires médicamenteux à partir de bases de pharmacovigilance
    avec Gilles Celeux (INRIA-SELECT) et Pascale Tubert-Bitter (INSERM), thèse Valérie Robert
    • modèle des blocs latents multiples, propriétés et algorithmes d’estimation,  sparsité et données massives
  • Etude statistique des altérations génomiques tumorales
    avec Yves Rozenholc (INRIA-SELECT) et Tatiana Popova (Institut Curie)
    • Estimation de la ploïdie et du degré de contamination à partir de données CGH , modélisation par modèle de mélange et algorithme d’estimation
  • Application des statistiques aux neurosciences
    avec Gilles Celeux (Inria-Select) et Bertrand Thirion (Inria-Parietal), thèse Vincent Michel
    • Décodage de l’activité cérébrale à partir de cartes d’activation d’IRM fonctionnelle; classification et régression en grande dimension
  • Reconstruction d’arbres en phylogénie : inférence statistique et algorithmes
    avec Marie-Anne Poursat (LMO, Université Paris Sud)

Doctorant.e.s

  • Pierre-André Mikem, co-direction avec Pascal Massart (Université Paris-Saclay)
    Multiple instance learning pour la détection de cellules tumorales.
    Thèse démarrée en mars 2023
  • Leonardo Martins-Bianco, co-direction avec Zacharie Naulet (Université Paris-Saclay)
    Disentangling the relationships between different community detection algorithms.
    Thèse démarrée en octobre 2022
  • Filippo Antonazzo, co-direction avec Christophe Biernacki (Inria-Modal)
    Unsupervised learning of huge datasets with limited computer resources.
    Thèse soutenue en septembre 2022
  • Olivier Coudray, co-direction avec Patrick Pamphile (Université Paris-Saclay)
    Construction d’un critère probabilisé de fatigue multiaxiale.
    Thèse Cifre Stellantis (ex PSA), soutenue en décembre 2022
  • Rémi Coulaud, co-direction avec Gilles Stoltz (Université Paris-Saclay)
    Prévision de temps d’échange lors des stationnements de trains en gare.
    Thèse Cifre SNCF, soutenue en décembre 2022
  • Valérie Robert, codirection avec Gilles Celeux
    Modèles statistiques pour la pharmacovigilance
    Thèse soutenue le 06/06/2017
  • Vincent Brault, codirection avec Gilles Celeux
    Estimation et sélection de modèle pour le modèle des blocs latents,
    Thèse soutenue le 30/09/2014
  • Vincent Michel, codirection avec Bertrand Thirion et Gilles Celeux
    Understanding the visual cortex by using classification techniques,
    Thèse soutenue en 12/2010

Organisation scientifique

  • Co-organisatrice Frugalias : Workshop frugalité en IA et en statistique, Paris 4/10/2024
  • Membre du comité d’organisation de l’événement satellite des JDS2022 : Apprentissage statistique pour les données temporelles, nouveaux horizons et applications industrielles (17/06/2022)
  • Vice-Présidente scientifique du comité d’organisation des Workshops Federated Learning & Privacy, 2020-2021
  • Membre de l’équipe d’organisation du séminaire de statistiques du LMO, 2019-2021
  • Organisatrice de la session spéciale MALIA Apport des maths à l’IA, JDS Nancy, 2019
  • Co-organisatrice de la session IPS273 Coclustering: model based or model free approaches? Kuala Lumpur ISI, 2019
  • Membre du comité scientifique de la semaine SEME Orsay,14 au 18 janvier 2019
  • Membre du comité d’organisation des 50èmes Journées de Statistique de la SFdS, Saclay 2018
  • Membre du comité d’organisation de la journée Statistique et données massives: enjeux et perspectives, Paris 2015
  • Créatrice et organisatrice des Rendez-vous Méthodes et Logiciels de la SFdS (entre 50 et 70 participants académiques, industriels et éditeurs de logiciels). Thèmes abordés : géomarketing, méthodes d’arbre, text-mining, visualisation, données massives, réseaux bayésiens, Paris 2012-2014.