|
|
Programme scientifiqueL'école est organisée autour de 4 cours principaux de 3h chacun :
De nombreux processus environnementaux ont une composante spatiale, e.g., précipitations, températures. Aussi leur modélisation en un point de l’espace peut être limitée. De même d’un point de vue apprentissage, nous pouvons “apprendre de nos voisins” pour obtenir des estimations plus précises. Ce cours se veut une introduction à la géostatistique (gaussienne) dont l’objectif est de modéliser continûment des processus spatiaux.
Les progrès en prévision météorologique ont été récemment qualifiés de révolution silencieuse, grâce à l'amélioration lente mais sûre et quantifiable des observations, des modèles et des techniques d'assimilation de ces observations dans ces modèles. Depuis 2019 cependant, une nouvelle révolution autant brusque que médiatisée a été amorcée grâce aux techniques d'apprentissage automatique et profond et aux moyens humains mis en œuvre. J'expliquerai dans ce cours tous les concepts scientifiques sous-jacents via le prisme de cette histoire récente. L'exemple retenu est celui de la météorologie mais se généralise à de nombreuses géosciences.
Les images satellitaires sont actuellement acquises à profusion et utilisées pour un grand nombre d’applications. Dans ce cours, nous nous intéresserons à deux grandes familles de traitements : l’amélioration des images et l’extraction d’information. Nous montrerons comment les approches ont évolué au cours du temps, passant de modélisations explicites à l’apprentissage à partir de données. Nous illustrerons ces approches principalement sur des données SAR (Radar à Synthèse d’Ouverture) en débruitage et classification.
This course will provide an overview of the key techniques for the visual analysis of data, covering the rendering basics as well as the must-know methods for interactive data manipulation. A special emphasis will be given to topological methods, given their ability to robustly extract structural patterns hidden in data. A brief tour of Topological Data Analysis and Visualization will be given, covering the notions of persistence diagrams, Reeb graphs and Morse-Smale complexes. Applications to concrete use cases (in fluid dynamics, medical imaging, chemsitry, climate modeling) will be presented. This talk will be illustrated with results produced with the "Topology ToolKit" (TTK), an open-source library (BSD license) that we develop with collaborators to showcase our research. Tutorials for re-producing these experiments are available on the TTK website: https://topology-tool-kit.github.io/
Un cours d'introduction aux méthodes d'apprentissage sera également donné par Emanuele Dalsasso (Télécom Paris) : L'essor de l'apprentissage profond a révolutionné nombre de domaines. Dans la première partie de ce cours, nous nous intéressons aux principes fondamentaux de l'apprentissage profond. Nous présentons les mathématiques qui se cachent derrière l'algorithme de rétro-propagation, qui permet la formation des modèles d'apprentissage profond. Ensuite, nous abordons certaines des architectures les plus populaires, telles que les réseaux neuronaux convolutifs (CNN) et les réseaux neuronaux récurrents (RNN). Dans la deuxième partie, les modèles génératifs basés sur les autoencodeurs et sur les réseaux antagonistes génératifs (GAN) seront présentés. Le cours a comme fil conducteur des applications en écologie et en sciences de la Terre.
Ces cours seront accompagnés de deux séances de travaux pratiques (2h) :
et d'exposés complémentaires (1h) : Mathieu Fauvel (INRAE Toulouse) : Classification de l'occupation des sols à partir de séries temporelles d'images satellitaires par des processus Gaussiens variationnels Dans cette présentation, je parlerai d'une approche permettant la classification pixellaire de séries temporelles d’images satellites massives à partir de processus gaussiens. Notre modèle s’appuie sur des processus gaussiens variationnels parcimonieux associés à des fonctions de covariance spatio-spectro-temporelles. Les résultats expérimentaux réalisés sur un jeu de données à l’échelle nationale montrent que cette aproche est efficace et comparable à des approches de l’état de l’art (forêt d’arbres décisionnels et méthodes d’apprentissage profond). Ces travaux ont été réalisé dans le cadre de la thèse de Valentine Bellet. Carlo Gaetan (Università Ca' Foscari - Venezia) : Modélisation des événements extrêmes dans l'espace L'analyse spatiale des événements extrêmes s'écarte des analyses spatiales basées sur les processus gaussiens. Thomas Opitz (INRAE Avignon) : Une introduction aux modèles bayésiens hiérarchiques avec une application aux feux de forêts en France Les modèles bayésiens hiérarchiques sont des modèles statistiques structurés en une série de modèles conditionnels plus simples. Typiquement, on trouve trois niveaux dans le modèle : (i) les données, dont chacune possède sa loi de probabilité, sont conditionnées aux (ii) paramètres à estimer, souvent nombreux, qui à leur tour sont conditionnés à (iii) quelques hyperparamètres, comme des variances ou corrélations, contrôlant la structure du modèle. Le cadre bayésien met en exergue la gestion des incertitudes. Il permet d'intégrer des connaissances d'expert dans le modèle a priori des paramètres avant de le mettre à jour avec les données pour obtenir le modèle a posteriori, estimé grâce au calcul bayésien. Cette approche permet de modéliser des phénomènes à structures complexes, comme des erreurs de mesure, différents types de variables à modéliser, et de nombreuses variables auxiliaires à intégrer dans les paramètres. Gabriel Peyré (ENS Paris) : Transport optimal numérique Le transport optimal est une théorie mathématique fondamentale à l'interface entre l'optimisation, les équations aux dérivées partielles et les probabilités. Elle s'est récemment révélée être un outil important pour s'attaquer à un éventail étonnamment large de problèmes en sciences des données, tels que le recalage de formes en imagerie médicale, les problèmes de prédiction structurée en apprentissage supervisé ou encore l'entraînement de réseaux génératifs profonds. Cet exposé didactique associera la description de la théorie mathématique avec les développements récents de solveurs numériques. Ceci mettra en évidence l'importance des progrès récents dans les approches régularisées pour le transport optimal, qui permettent de s'attaquer aux problèmes d'apprentissage en grande dimension. Le matériel pour la présentation (y compris un petit livre, des diapositives et des ressources de calcul) peut être trouvé en ligne sur https://optimaltransport.github.io/.
Wilfried Thuiller (LECA Grenoble) : L’Écologie prédictive à l’heure des données massives Dans cette présentation, j’exposerai le contexte actuel et l’arrivée importante des données massives en écologie, et le besoin de les traiter efficacement au regard des enjeux actuels de la crise climatique et de la biodiversité. Au travers de différents exemples à échelle européenne, mais aussi dans le cadre du système alpin, je montrerai comment les outils d’IA et d’apprentissage statistique peuvent apporter des réponses à ces enjeux, mais aussi quelles peuvent être leurs limites et leurs avantages en fonction du domaine d’application - intégration de données, traitement automatisé, modélisation prédictive…
|
Personnes connectées : 4 | Vie privée |