Structures de données pour les grands ensembles de k-mers

Camille Marchet (CNRS, Université de Lille)


Date
28 janv. 2022

Les données de séquençage à haut débit peuvent aujourd’hui être déposées dans des banques publiques comme l’ENA (European Nucleotide Archive) pour permettre la reproductibilité et la mise à disposition à la communauté. Alors que les quantités de données stockées dans ces banques atteignent à présent des ordres de grandeur en péta-octets, il n’est pas possible d’y requêter d’y requêter des séquences (par exemple pour rechercher une mutation, une jonction d’épissage). Pourtant, une telle possibilité serait très utile aux chercheurs en biologie et en bioinformatique, pour pleinement bénéficier de la somme de données produites. Avec cet objectif en tête, différentes méthodes de bioinformatique ont vu le jour ces dernières années, qui permettent de requêter de grandes collections de jeux de données en les représentant sous forme d’ensembles de k-mers. Dans ce séminaire je propose de faire un tour d’horizon des méthodes qui indexent et représentent des ensembles des k-mers de manière efficace. On verra ensuite comment ces techniques ont été adaptées pour créer des structures de données indexant des milliers de jeux données (et plus) pour y faire des requêtes. Je présenterai des exemples d’applications pour ces techniques, centrés sur les recherches sur l’ARN et l’épissage alternatif. (lien diaporama)