
Nous constituons une boîte à outils pour le traitement de données de séquençage de petits ARN (sRNA-Seq). Ces ARN sont en effet beaucoup moins étudiés que les ARN messagers, alors qu’ils ont une importance cruciale à tous les stades du développement et de la réaction immunitaire. Ils sont également particulièrement étudiés par de nombreux laboratoires de l’Institut. Les outils proposés incluent le regroupement en familles (par exemples pour les micro ARN), l’alignement des petits ARN sur le génome, le comptage et l’annotation de ces petits ARN, et la recherche de petits ARN différentiellement exprimés. Ces développement associent recherche en informatique et statistique, afin de donner des outils performants pour l’analyse de ces petits ARN
Contexte et enjeux
Les petits ARN incluent un grand nombre de molécules de différents types, telles que les micro ARN (miARN), les ARN interférents, les piwi (piARN), etc. Ces ARN ont un large spectre d’activités, telle que la régulation, la protection contre les virus, la répression des éléments transposables, le développement, etc. Certains petits ARN, comme les miARN, sont très étudiés, mais beaucoup sont encore mal caractérisés. Nous avons souhaité ici proposer de nouveaux outils afin d’étudier ces éléments.
Résultats
Nous avons conçu quatre outils complémentaires pour l’analyse de ces ARN.
Dans le premier outil, on cherche à connaître l’expression de chaque miARN, ainsi que chaque familles de miARN, sans aligner les données sur le génome. J’ai donc développé un outil basé sur du clustering pour répondre. Afin de calculer l’expression de chaque miARN, on peut se baser sur une base de données de référence, puis comparer les données de séquençage. Un autre clustering est ensuite réalisé pour chercher des familles non connues.
Dans un autre outil, nous développons un outil d’alignement de lectures sur le génome, qui constitue souvent la première étape d’analyse. Les développements actuels se concentrent principalement sur les lectures longues, et très peu d’outils ciblent spécifiquement les petits ARN. Cependant, ces petits ARN ont des caractéristiques propres: ils sont courts, répétés, et l’édition modifie parfois la molécule à son extrémité. Nous avons développé un nouvel algorithme, utilisé dans un outil, qui permet d’aligner ces lectures de façon optimale.
Un troisième outil a pour but de quantifier l’expression de chaque gène d’ARN, et d’annoter les lectures. La difficulté réside dans les lectures s’alignent à plusieurs endroit. Beaucoup de ces petits ARN viennent de loci dupliqués: les miARN, qui sont, pour certains, regroupés en familles; ou bien piARN, qui régulent les éléments transposables, et sont donc, par essence, dupliqués. J’ai proposé alors de « fusionner » les gènes en question, c’est-à-dire de créer une nouvelle annotation, chimère, qui regroupe tous les gènes dupliqués. L’intérêt de l’approche est que l’on peut alors procéder à l’étape suivante, la recherche de gènes différentiellement exprimés, en suivant le protocole standard. En revanche, toute expression différentielle est détectée, et ceci, sans imputation, et donc, sans biais. Le dernier outil, se propose de rechercher les gènes différentiellement exprimés. La méthode la plus simple consiste à utiliser le protocole établi pour les ARN messager, à savoir compter le nombre de lectures pour chaque gène, et effectuer le test d’expression différentielle. Ceci ne peut bien sûr fonctionner que lorsque les gènes sont déjà connus. Pour les petits ARN, ce n’est pas forcément le cas: ils n’ont en général pas de signal de début et de fin clair, pas de cadre ouverte de lecture caractéristiques. La solution que nous avons retenue est de proposer plusieurs méthodes de recherches de régions différentiellement exprimées, incluant des méthodes standards, et d’autres méthodes, plus évoluées, notamment basées sur des HMM. Ces régions candidates sont ensuite évaluées par l’outil de recherche de régions différentiellement exprimées. Les régions significatives sont ensuite données à l’utilisateur.
## Perspectives
Nous espérons que les petits ARN seront ainsi mieux analysés, et leurs caractérisation , organisation, et fonction, seront mieux connues.
Valorisation
Les outils ont été publiés, et sont accessibles librement.
## Références bibliographiques
- Gaspin, Rué, Zytnicki, JSM Biotechnology and Biomedical Engineering, 2016
- Zytnicki & Gaspin, PLOS ONE, 2020
- Zytnicki & González, bioRXiv
- Zytnicki & Gaspin, DBS 2020