Contexte : A partir de plusieurs classements d’un même jeu de données (plusieurs ordres entre les données), l’objectif est de produire un classement consensuel, qui minimise les désaccords entre les classements d’entrées.
Applications visées : Classements de données biologiques obtenues en réponse à une requête (plusieurs classements à “consensualiser” en fonction de plusieurs reformulations possibles de la requête), on considérera en priorité les requêtes recherchant les gènes du NCBI (base de données internationale fournissant des informations sur les gènes) impliqués dans des cancers.
D’autres applications sont envisagées, en particulier en lien avec les deux autres axes du projet (par exemple, utilisation de techniques de consensus plutôt qu’un vote majoritaire en cas de choix entre plusieurs alternatives ou combinaison des retours d’experts concernant l’étiquetage des données et des mesures quantitatives venant des bases de données existantes).
Méthodes informatiques : algorithmique combinatoire, théorie du vote, propriétés mathématiques des distances entre classements
Objectifs 2018 :
- Valorisation de la plateforme CoRankCo, version béta ici : https://corankco.lri.fr/
- Description d’un cadre uniforme pour représenter les différentes métriques utilisées dans le calcul d’un consensus, étude des propriétés des différentes métriques.
- Etude d’un modèle statistique pour évaluer a priori la qualité d’un consensus à partir des jeux de données initiaux.
- Valorisation de l’outil ConQur-Bio, étude de cas avec APHP Paul-Brousse