QCM-BioChem : Quality in Consensualizing and Mining biological and chemical datasets

Le projet QCM-BioChem résulte de la fusion de trois projets Mastodons, QualiBioConsensus, HyQual et DECADE et propose de s’attaquer aux défis posés par la très grande variété des données biologiques et chimiques et des méthodes d’analyse et de fouille sur ces données. L’originalité des approches développées dans QCM-BioChem repose sur la prise en compte et l’explicitation systématique de critères de qualité, au niveau des données, des méthodes d’analyse et de fouille, et jusqu’aux connaissances produites.

News: la rencontre kick-off des trois axes du projet s'est déroulé les 29 et 30 aout dernier, le programme est disponible!  


Le projet comporte trois axes hautement complémentaires décrits ci-après.
  • Axe “Classement consensuel de données”

    Contexte : A partir de plusieurs classements d’un même jeu de données (plusieurs ordres entre les données), l’objectif est de produire un classement consensuel, qui minimise les désaccords entre les classements d’entrées.

    Applications visées : Classements de données biologiques obtenues en réponse à une requête (plusieurs classements à “consensualiser” en fonction de plusieurs reformulations possibles de la requête), on considérera en priorité les requêtes recherchant les gènes du NCBI (base de données internationale fournissant des informations sur les gènes) impliqués dans des cancers.
    D’autres applications sont envisagées, en particulier en lien avec les deux autres axes du projet (par exemple, utilisation de techniques de consensus plutôt qu’un vote majoritaire en cas de choix entre plusieurs alternatives ou combinaison des retours d’experts concernant l’étiquetage des données et des mesures quantitatives venant des bases de données existantes). 

    Méthodes informatiques : algorithmique combinatoire, théorie du vote, propriétés mathématiques des distances entre classements

    Objectifs 2018 :

        - Valorisation de la plateforme CoRankCo, version béta ici : https://corankco.lri.fr/    
        - Description d’un cadre uniforme pour représenter les différentes métriques utilisées dans le calcul d’un consensus, étude des propriétés des différentes métriques. 
        - Etude d’un modèle statistique pour évaluer a priori la qualité d’un consensus à partir des jeux de données initiaux. 
        - Valorisation de l’outil ConQur-Bio, étude de cas avec APHP Paul-Brousse

  • Axe "Approches hybrides pour la fouille de données et l’extraction de connaissances"
  • Axe "Techniques d'échantillonnage et intégration de préférences dans les approches de fouille de données"