Workpackage 1 - Intégration systémique des données et des connaissances

Animateur : Marc Dinh

L’objectif de ce workpackage est de développer un environnement informatique dédié à l’intégration des connaissances et des données -omiques hétérogènes pour un organisme, en intégrant et unifiant les récentes avancées dans le champ de la biologie des systèmes. L’environnement informatique s’appuiera sur les acquis du projet de recherche IMSV et sera structuré autour de deux grandes entités :

  • une ontologie décrivant formellement les processus cellulaires d’un organisme de façon systémique (ainsi que leurs modèles mathématiques associés),
  • un entrepôt de données hétérogènes structuré par l’ontologie et regroupant la connaissance biologique, des données expérimentales (par ex. séquençage, transcriptomique, etc.), des prédictions bioinformatiques (par ex. détection de motifs, phénotypes, etc.) et des modèles mathématiques associés aux processus cellulaires ainsi qu’à des données plus structurées (comme les réseaux métaboliques et de régulation).

Afin que le principe de l’environnement informatique proposé soit le plus générique possible, nous choisissons deux organismes modèles, la bactérie Bacillus subtilis et la plante Arabidopsis thaliana, pour lesquels le niveau de connaissance biologique est important, et les données expérimentales sont hétérogènes, (relativement) exhaustives et disponibles au sein de nos laboratoires ou dans la littérature. 

Dans le cadre du projet de recherche IMSV, deux ontologies ont été développées. La première  concerne l’expression des gènes des bactéries (l’ontologie BiPON), la seconde représente le métabolisme des plantes (l’ontologie BiPOm). La première partie du travail consistera à réunir au sein d’une seule ontologie la représentation des processus relatifs à l’expression des gènes et au métabolisme (fusion BiPON/BiPOm). Initialement ce sont les processus bactériens (Bacillus subtilis) qui seront représentés. Mais l’enjeu est de construire une représentation générique qui puisse s’appliquer à différents organismes d’un même règne et de règnes différents : il s’agit donc de transférer la représentation de Bacillus subtilis à d’autres organismes. Les deux premières années du projet verront le transfert de la représentation initiale des processus vers une souche modifiée de Bacillus subtilis. L’enjeu pour les 5 ans est d’être en mesure de transférer cette représentation sur les plantes.

La seconde partie du travail consiste à construire et structurer l’entrepôt à partir des données génomiques existantes. Dans un premier temps les données issues du projet de recherche IMSV seront organisées selon l’ontologie décrivant les processus chez Bacillus subtilis. Dans un second temps, une fois la représentation transférée aux plantes, ce seront les données issues des bases de données génomiques existantes (FLAGdb++, CATdb) qui seront organisées. Dans tous les cas, une réflexion sur la représentation des données -omiques sera nécessaire, et ce afin de garantir l’interopérabilité de notre proposition avec d’autres initiatives plus spécialisées et plus détaillées faites dans d’autres CATIs, ou plus largement dans la communauté nationale et internationale. Ce point sera adressé en collaboration avec d’autres CATIs (eMPrEInTE en priorité, et d’autres CATIs génomiques) dans le workpackage 4.

Enfin, un enjeu important complémentaire concerne le couplage des processus biologiques aux échelles cellulaires avec des processus plus macroscopiques / biophysiques comme les réponses mécaniques ou le transport actif / par diffusion au sein de la plante entière (bien décrits dans les modèles écophysiologiques). 

Les objectifs globaux de ce workpackage sont :

  • développer un environnement informatique pour Bacillus subtilis,
  • établir une preuve de concept de l’environnement informatique pour Arabidopsis Thaliana,
  • évaluer la faisabilité d’un transfert vers des organismes non modèle.