Programme scientifique

L'école est organisée autour de 4 cours principaux de 3h chacun :

Mathieu Ribatet (Ecole Centrale de Nantes) : Introduction à la géostatistique (gaussienne)

De nombreux processus environnementaux ont une composante spatiale, e.g., précipitations, températures. Aussi leur modélisation en un point de l’espace peut être limitée. De même d’un point de vue apprentissage, nous pouvons “apprendre de nos voisins” pour obtenir des estimations plus précises. Ce cours se veut une introduction à la géostatistique (gaussienne) dont l’objectif est de modéliser continûment des processus spatiaux.

Marc Bocquet (Ecole des Ponts ParisTech) : La prévision du temps : données, modèles et IA

Les progrès en prévision météorologique ont été récemment qualifiés de révolution silencieuse, grâce à l'amélioration lente mais sûre et quantifiable des observations, des modèles et des techniques d'assimilation de ces observations dans ces modèles. Depuis 2019 cependant, une nouvelle révolution autant brusque que médiatisée a été amorcée grâce aux techniques d'apprentissage automatique et profond et aux moyens humains mis en œuvre. J'expliquerai dans ce cours tous les concepts scientifiques sous-jacents via le prisme de cette histoire récente. L'exemple retenu est celui de la météorologie mais se généralise à de nombreuses géosciences.

Florence Tupin (Télécom Paris) : Traitements d’images satellitaires : amélioration d’images et extraction d’information, de la modélisation à l’apprentissage avec illustrations en imagerie SAR

Les images satellitaires sont actuellement acquises à profusion et utilisées pour un grand nombre d’applications. Dans ce cours, nous nous intéresserons à deux grandes familles de traitements : l’amélioration des images et l’extraction d’information. Nous montrerons comment les approches ont évolué au cours du temps, passant de modélisations explicites à l’apprentissage à partir de données. Nous illustrerons ces approches principalement sur des données SAR (Radar à Synthèse d’Ouverture) en débruitage et classification.

Julien Tierny (Sorbonne Université) : Visual Data Analysis with Topological Methods

This course will provide an overview of the key techniques for the visual analysis of data, covering the rendering basics as well as the must-know methods for interactive data manipulation. A special emphasis will be given to topological methods, given their ability to robustly extract structural patterns hidden in data. A brief tour of Topological Data Analysis and Visualization will be given, covering the notions of persistence diagrams, Reeb graphs and Morse-Smale complexes. Applications to concrete use cases (in fluid dynamics, medical imaging, chemsitry, climate modeling) will be presented. This talk will be illustrated with results produced with the "Topology ToolKit" (TTK), an open-source library (BSD license) that we develop with collaborators to showcase our research. Tutorials for re-producing these experiments are available on the TTK website: https://topology-tool-kit.github.io/

Un cours d'introduction aux méthodes d'apprentissage sera également donné par Emanuele Dalsasso (Télécom Paris) :

L'essor de l'apprentissage profond a révolutionné nombre de domaines. Dans la première partie de ce cours, nous nous intéressons aux principes fondamentaux de l'apprentissage profond. Nous présentons les mathématiques qui se cachent derrière l'algorithme de rétro-propagation, qui permet la formation des modèles d'apprentissage profond. Ensuite, nous abordons certaines des architectures les plus populaires, telles que les réseaux neuronaux convolutifs (CNN) et les réseaux neuronaux récurrents (RNN). Dans la deuxième partie, les modèles génératifs basés sur les autoencodeurs et sur les réseaux antagonistes génératifs (GAN) seront présentés. Le cours a comme fil conducteur des applications en écologie et en sciences de la Terre.

Ces cours seront accompagnés de deux séances de travaux pratiques (2h) :

Outils de traitement de séries d'images de télédétection (Florence Tupin / Emanuele Dalsasso)
- contenu : La grande disponibilité de données satellitaires et les outils de traitement automatique ont ouvert la voie à de nombreuses applications. A l'aide d'un Jupyter Notebook, vous serez guidés à travers une série d'outils visant à extraire des informations des images de télédétection, notamment optiques et SAR. Nous nous intéresserons au problème de la détection de changements dans les séries d'images, avec un focus sur la détection de la déforestation. Des méthodes de visualisation pour l'analyse des séries temporelles seront présentées. A la fin, nous montrerons l'intérêt des techniques de restauration d'images pour des tâches en aval (segmentation et classification).
- matériel / logiciel : python/numpy avec Jupyter Notebook
- pré-requis : programmation python avec numpy conseillée, mais pas indispensable

Introduction aux modèles de substitution en géosciences (Alban Farchi)
- contenu : Les récents progrès dans le domaine de l’intelligence artificielle, en particulier en apprentissage automatique, permettent d’entrevoir la possibilité, en géosciences, de construire des systèmes de prévision à partir de données. Dans cette session de travaux pratiques, nous détaillerons les étapes nécessaires à la construction d’un modèle de substitution au moyen de réseaux de neurones. Nous commencerons par un exemple jouet, basé sur le système de Lorenz 1996 à 40 variables, puis nous examinerons un cas réaliste, en utilisant la base de données de réanalyses ERA-5, produite par le CEPMMT.
- matériel / logiciel : python/numpy/matplotlib/tensorflow avec Jupyter Notebook
- pré-requis : savoir faire tourner un Notebook

et d'exposés complémentaires (1h) :

Mathieu Fauvel (INRAE Toulouse) : Classification de l'occupation des sols à partir de séries temporelles d'images satellitaires par des processus Gaussiens variationnels

Dans cette présentation, je parlerai d'une approche permettant la classification pixellaire de séries temporelles d’images satellites massives à partir de processus gaussiens. Notre modèle s’appuie sur des processus gaussiens variationnels parcimonieux associés à des fonctions de covariance spatio-spectro-temporelles. Les résultats expérimentaux réalisés sur un jeu de données à l’échelle nationale montrent que cette aproche est efficace et comparable à des approches de l’état de l’art (forêt d’arbres décisionnels et méthodes d’apprentissage profond). Ces travaux ont été réalisé dans le cadre de la thèse de Valentine Bellet.

Carlo Gaetan (Università Ca' Foscari - Venezia) : Modélisation des événements extrêmes dans l'espace

L'analyse spatiale des événements extrêmes s'écarte des analyses spatiales basées sur les processus gaussiens.
En effet, le modèle gaussien est un excellent modèle pour la variabilité autour de la moyenne des observations dans un site, mais il est inadéquat lorsque l'on veut considérer des événements rares, c'est-à-dire ceux qui se réfèrent à la queue d'une distribution. L'analyse est aussi compliquée par le fait que les valeurs extrêmes sont souvent dispersées dans l'espace.
Dans cette présentation, je passerai en revue quelques approches de modélisation des événements extrêmes, sans chercher à être exhaustif car ce domaine de recherche est en constante évolution. J'illustrerai également quels sont les problèmes d'estimation statistique de ces modèles et quels sont les outils logiciels disponibles.
Quelques exemples concrets d'analyse de données environnementales concluront la présentation.
Idéalement, l'exposé est un complément spécifique au cours de Matthieu Ribatet.

Thomas Opitz (INRAE Avignon) : Une introduction aux modèles bayésiens hiérarchiques avec une application aux feux de forêts en France

Les modèles bayésiens hiérarchiques sont des modèles statistiques structurés en une série de modèles conditionnels plus simples. Typiquement, on trouve trois niveaux dans le modèle : (i) les données, dont chacune possède sa loi de probabilité, sont conditionnées aux (ii) paramètres à estimer, souvent nombreux, qui à leur tour sont conditionnés à (iii) quelques hyperparamètres, comme des variances ou corrélations, contrôlant la structure du modèle. Le cadre bayésien met en exergue la gestion des incertitudes. Il permet d'intégrer des connaissances d'expert dans le modèle a priori des paramètres avant de le mettre à jour avec les données pour obtenir le modèle a posteriori, estimé grâce au calcul bayésien. Cette approche permet de modéliser des phénomènes à structures complexes, comme des erreurs de mesure, différents types de variables à modéliser, et de nombreuses variables auxiliaires à intégrer dans les paramètres.
J'illustrerai cette approche avec le modèle Firelihood, construit pour expliquer et prédire la variabilité spatiotemporelle des activités des feux de forêt dans le Sud-Est de la France, à une échelle journalière avec une résolution spatiale de 8km. Les deux types de variables que nous cherchons à modéliser sont le nombre et la surface brûlée des feux de forêt. Comme variables auxiliaires biophysiques permettant de mieux expliquer et prédire ces deux variables, nous intégrons dans les paramètres du modèle les conditions météorologiques, représentées sous forme d'un indice feux-météo, et la surface forestière. Enfin, le modèle intègre aussi d'autres composantes afin de tenir compte de la variabilité spatiale et temporelle résiduelle, non expliquée par les variables auxiliaires biophysiques.

Gabriel Peyré (ENS Paris) : Transport optimal numérique

Le transport optimal est une théorie mathématique fondamentale à l'interface entre l'optimisation, les équations aux dérivées partielles et les probabilités. Elle s'est récemment révélée être un outil important pour s'attaquer à un éventail étonnamment large de problèmes en sciences des données, tels que le recalage de formes en imagerie médicale, les problèmes de prédiction structurée en apprentissage supervisé ou encore l'entraînement de réseaux génératifs profonds. Cet exposé didactique associera la description de la théorie mathématique avec les développements récents de solveurs numériques. Ceci mettra en évidence l'importance des progrès récents dans les approches régularisées pour le transport optimal, qui permettent de s'attaquer aux problèmes d'apprentissage en grande dimension. Le matériel pour la présentation (y compris un petit livre, des diapositives et des ressources de calcul) peut être trouvé en ligne sur https://optimaltransport.github.io/.

Wilfried Thuiller (LECA Grenoble) : L’Écologie prédictive à l’heure des données massives

Dans cette présentation, j’exposerai le contexte actuel et l’arrivée importante des données massives en écologie, et le besoin de les traiter efficacement au regard des enjeux actuels de la crise climatique et de la biodiversité. Au travers de différents exemples à échelle européenne, mais aussi dans le cadre du système alpin, je montrerai comment les outils d’IA et d’apprentissage statistique peuvent apporter des réponses à ces enjeux, mais aussi quelles peuvent être leurs limites et leurs avantages en fonction du domaine d’application - intégration de données, traitement automatisé, modélisation prédictive…

Vie privée | Accessibilité