1. Contexte général & problématique
Parmi les variables environnementales clés, la température de l’eau contrôle de nombreux processus biologiques et biogéochimiques tels que la croissance des organismes ou bien la reminéralisation de la matière organique. Seules quelques séries temporelles à haute fréquence de la température de l’eau sont aujourd’hui disponibles dans les lagunes méditerranéennes françaises. Pourtant, c’est une variable déterminante intervenant aussi bien dans les modèles hydrodynamiques (MARS3D, CROCO par exemple) que les modèles écosystémiques simplifiés (par exemple GAMElag dédié à l’étude du fonctionnement des écosystèmes lagunaires en phase de restauration). Les séries temporelles à haute fréquence de la température de l’eau sont également indispensables pour caractériser les fluctuations soudaines et relativement courtes qui se produisent lors d’évènements climatiques extrêmes (ECEs) tels que les vagues de chaleur marine qui représentent aujourd’hui une des causes probables de dégradation de ces milieux dans le futur.
Pour pallier à cette absence de données, les modèles hydrodynamiques ou écosystémiques déduisent déjà la température de l’eau à partir des lois de la physique ou de relations linéaires entre la température de l’air et la température de l’eau. Les données atmosphériques (température et humidité de l’air, intensité du vent et flux radiatifs) sont en effet collectées et/ou modélisées à haute fréquence par METEOFRANCE sur l’ensemble du territoire et couvrent des périodes relativement longues (plusieurs décennies). À ce jour, la qualité de ces estimations en milieu lagunaire a été testée sur un nombre limité de lagune alors que leurs typologies (connexion à la mer, apports des bassins versants, volume de la lagune) sont extrêmement hétérogènes aux échelles intra- et inter-lagunaires. La disponibilité des données atmosphériques qui couvrent l’ensemble du territoire, la mise à disposition des données récente issues d’un Observatoire de la température sur 28 stations réparties dans 21 masses d’eau lagunaires depuis 2022 ainsi que l’émergence de nouvelles approches basées sur l’intelligence artificielle ouvrent de nouvelles perspectives pour mieux estimer la température de l’eau dans les lagunes méditerranéennes et à terme ses impacts sur l’écosystème.
Dans ce contexte, le projet C2ZObis (Apports des conditions climatiques atmosphériques pour la caractérisation de la dynamique de la température dans les lagunes méditerranéennes françaises) vise à mieux comprendre et caractériser les échanges entre l’atmosphère et les masses d’eau lagunaires afin de (1) construire une moyenne climatologique de la température de l’eau indispensable à la caractérisation et à la quantification des vagues de chaleur marines et (2) améliorer l’estimation de la température de l’eau dans les modèles. Le stage proposé s’attachera plus particulièrement à construire un modèle capable de prédire la température de l’eau (variable cible) à partir de variables environnementales (variables explicatives) à l’aide de méthodes statistiques, déterministes et basées sur des apprentissages automatiques.
2. Méthodes et techniques proposées
Les différentes modèles (statistiques, déterministes et basés sur des apprentissages automatiques) seront testés sur l’ensemble des stations de l’observatoire C2ZO (28 stations) et inter-comparées en utilisant l’ensemble des paramètres atmosphériques disponibles. Les données des stations METEOFRANCE (température et humidité de l’air, intensité du vent et ensoleillement) seront utilisés. Ces données pourraient ne pas être suffisantes pour reconstituer la température de l’eau, auquel cas les sorties du modèle numérique de METEOFRANCE (ARPEGE HR), contenant notamment les flux radiatifs, compléteront la base des données « explicatives ».
Dans un premier temps, des méthodes statistiques (régressions multivariées et régressions des moindres carrés partiels) seront utilisées et permettront d’avoir une première évaluation du poids des variables « explicatives », et d’explorer avec une approche simple l’intérêt de l’ajout de nouvelles variables explicatives (par exemple température de la mer à l’extérieur des lagunes). Dans un second temps, des méthodes d’Intelligence Artificielle (par ex : Support Vector Regressor, Random Forest, Boosted Regression trees, LSTM, etc.) seront testées. L’ensemble des modèles seront comparées au regard d’indicateurs statistiques communs.
Une analyse de la capacité des modèles à prédire la température en dehors de la gamme connue (celle des données) sera effectuée en excluant certains évènements (vagues de chaleur et de froid) de la série de données utilisée pour la calibration des modèles. Dans ce contexte, le choix de la variable à prédire (la température ou la différence de température entre deux dates) sera discuté.
Pour chaque site, le meilleur modèle sera déterminé et des séries temporelles de la température de l’eau au niveau des sites de l’observatoire C2ZO seront générées sur la période d’observation des stations météorologiques (depuis 1979 pour certaines) si ces données sont suffisantes, ou sur la période 2011-2024 (données ARPEGE disponible à IFREMER) si l’utilisation des sorties d’un modèle atmosphérique est nécessaire.
Le modèle retenu sera probablement très dépendant de la station pour laquelle il a été calibré. Une réflexion sera donc menée dans un second temps pour tester la possibilité d’obtenir un modèle « générique » capable de prendre en compte la spécificité de chacune des stations (distance à la mer, volume de masse d’eau, importance des forçages extérieurs autre que l’atmosphère) afin que ce modèle « générique » puisse être déployé sur des stations ne disposant d’aucun suivi in situ de température de l’eau.
3. Missions confiées au/à la stagiaire :
Il/Elle contribuera de manière significative à la mise en place des différentes modèles (statistiques, déterministes et basés sur des apprentissages automatiques) en Python (ou éventuellement R). Il/Elle aura en charge de comparer les résultats des modèles aux données in situ pour l’ensemble des stations de l’observatoire C2ZO. Le/La stagiaire participera aux réflexions méthodologiques, et pourra notamment proposer des méthodes alternatives. Une large place sera laissée pour la réflexion scientifique et la valorisation des résultats acquis. Cette démarche permettra au/à la stagiaire d’intégrer l’ensemble des connaissances pour mener à bien ce projet.
4. Profil recherché :
Étudiant.e en M2 ou école d’ingénieur avec une connaissance de l’analyse de données, idéalement dans les domaines de l’écologie marine et/ou de l’océanographie côtière marine. Une formation autour des statistiques et des méthodes d’apprentissage automatique serait appréciée. De bonnes connaissances de la programmation en Python ou R sont nécessaires. Le/la stagiaire devra être motivé.e par la problématique de recherche proposée, rigoureux.se, consciencieux.se et autonome.
Les candidatures sont attendues au plus tôt et seront acceptées jusqu'à ce que le stage soit pourvu. Le CV et la lettre de motivation doivent être envoyés par email aux 3 encadrants.
5. Encadrement
François Dufois & Héloïse Muller & Vincent Ouisse
Laboratoire d'accueil : Ifremer, Zone Portuaire de Brégaillon - CS20 330 - 83507 La Seyne-sur-Mer Cedex
Durée du stage : 6 mois
Contacts : francois(point)dufois(arobase)ifremer(point)fr, heloise(point)muller(arobase)ifremer(point)fr et vincent(point)ouisse(arobase)ifremer(point)fr
Pour en savoir plus : description du poste