Workpackage 2 - Outils pour l'analyse statistique intégrative de données et connaissances

Animateur : Véronique Brunaud

Les différents données -omiques produites à partir d’un même dispositif expérimental (génomique, transcriptomique, métabolomique, phénotypique, imageries) peuvent être vues comme autant d’observations de sous-parties d’un organisme au cours d’un phénomène particulier. L’intégration de ces données doit permettre de tenter de reconstruire le fonctionnement de l’organisme entier et d’identifier les composants les plus contributifs du phénomène observé ou encore de réaliser des prédictions. Généralement, les méthodes d’intégration de données vont rechercher des corrélations en comparant les variations de signal dans les jeux de données étudiés. Les données doivent donc être normalisées préalablement pour rendre les niveaux de variation comparables entre les différentes type de données. De manière plus spécifique, les méthodes de normalisation et d’intégration devront être choisies en fonction des particularités des données à intégrer et des questions biologiques qui seront posées. Enfin la question des indicateurs de fiabilité des analyses intégratives est un domaine sur lequel de nombreuses améliorations sont possibles. L’objectif de ce workpackage est de retenir les méthodes les plus pertinentes selon les cas et de les mettre à disposition, dans un environnement informatique adapté et accompagnées de tutoriels et de recommandations.

Dans certains cas, les corrélations seules peuvent suffire à construire des modèles prédictifs efficaces. Mais souvent, l’intégration de la connaissance biologique existante permet d’améliorer la capacité de prédiction des modèles statistiques, voire même d’inférer de la connaissance nouvelle. Pour exploiter la connaissance dans des modèles statistiques, il est nécessaire qu’elle soit formalisée et opérable. Un des objectifs du workpackage 1 est de développer une ontologie systémique basée sur les processus biologiques, permettant de formaliser la connaissance biologique. Un enjeu pour le workpackage 2 est d’aider au couplage de l’ontologie avec les données -omiques expérimentales, et ainsi d’identifier la manière dont les entités mesurées doivent être représentées par l’ontologie ou reliées à elle. Cette réflexion sera indispensable pour aider à la structuration de l’entrepôt de données du workpackage 1. Enfin une fois le couplage réalisé, il faudra, en lien étroit avec le workpackage 1, adapter et ou développer de nouvelles méthodes statistiques intégrant les connaissances contenues dans l’ontologie. Les nouvelles connaissances inférées seront alors insérées dans l’entrepôt de données développé dans le workpackage 1.

L’IPS2 et GQE sont déjà en charge de données à haut-débit dans différents domaines (transcriptomique, phénotypage et génotypage) et travaillent sur l’intégration statistique autour d’un projet commun d’envergure chez le maïs. D’autres données sont également disponibles pour Arabidopsis thaliana. Nous aurons donc la possibilité de conduire nos développements en les testant directement sur des projets de recherche en cours. En parallèle des développements effectués sur le modèle plante, nous étudierons les possibilités d’application de ces méthodes d’analyses aux bactéries afin de coupler les données -omiques aux connaissances structurées comme les réseaux métaboliques déjà disponibles chez Bacillus subtilis.

Les objectifs de ce workpackage sont de :

produire des outils pour l’analyse intégrative de données hétérogènes,
développer des méthodes d’analyses intégratives avec prise en compte de connaissance formalisée.