Abstract
Cas9/CRISPR a été rapporté pour induire efficacement la disruption ciblée de gènes et la recombinaison homologue dans les cellules procaryotes et eucaryotes. Ainsi, nous avons développé une plateforme de conception de séquence d’ARN guide pour le système de silençage Cas9/CRISPR pour les organismes modèles. La plateforme est facile à utiliser pour la conception de gRNA avec des séquences d’interrogation en entrée. Elle trouve des cibles potentielles par PAM et les classe en fonction de facteurs tels que l’unicité, le SNP, la structure secondaire de l’ARN et le contenu en AT. La plateforme permet aux utilisateurs de télécharger et de partager leurs résultats expérimentaux. En outre, la plupart des séquences d’ARN guide provenant d’articles publiés ont été mises dans notre base de données.
1. Introduction
La technologie du génie génétique a toujours été un sujet brûlant dans la recherche en sciences de la vie. Avec le développement de la technologie de modification des gènes, certains gènes peuvent être éliminés ou abaissés à un niveau inférieur. L’apparition de la nucléase à doigt de zinc (ZFN) et de la nucléase tale (TALEN) a considérablement accéléré les progrès dans ce domaine, mais leur efficacité est souvent imprévisible et il est difficile de cibler les gènes sélectionnés .
Récemment, Cas9/CRISPR a été signalé pour induire avec succès la disruption ciblée des gènes et la recombinaison homologue dans les cellules procaryotes et eucaryotes avec une efficacité plus élevée par rapport à ZFN et TALEN . En outre, le système Cas9/CRISPR est plus facile à concevoir et à utiliser. Cette nouvelle technologie sera d’un grand potentiel d’application dans le domaine de la recherche et des essais cliniques.
Cependant, il n’y a pas d’outil disponible pour la conception de l’ARN guide du système de silencieux Cas9/CRISPR. Bien que Mali et al. aient rapporté la construction d’une bibliothèque d’ARN guide unique pour l’ensemble du génome humain, couvrant plus de 40% des exons humains, ils n’ont pas fourni d’outil aux chercheurs pour concevoir de nouvelles séquences cibles pour d’autres organismes modèles.
La bibliothèque existante n’a pas non plus pris en compte les facteurs d’influence connexes, tels que le SNP, la délétion ou l’insertion sur le génome, et la structure secondaire potentielle de l’ARN. Selon notre compréhension actuelle du processus de maturation de l’ARNg, la structure secondaire de l’ARNg est cruciale pour le complexe Cas9-ARNg . La séquence de 20 pb de l’ARN guide est utilisée pour se lier au site cible dans les génomes. S’ils sont principalement impliqués dans des boucles d’ARN, l’efficacité de la liaison avec les sites cibles sera faible. Ce facteur doit donc être pris en considération. En outre, l’efficacité de l’interférence est probablement étroitement liée à la température de fusion de l’hybride ARNg-ADN. Un contenu AT relativement élevé est négativement corrélé avec l’effet hors cible, et donc la séquence avec un pourcentage AT extrêmement bas est, dans une certaine mesure, déconseillée .
Donc, nous avons développé une plateforme en ligne pour la conception d’ARN guide du système de silencieux Cas9/CRISPR (http://cas9.cbi.pku.edu.cn/), avec des informations sur les variantes d’ADN intégrées. Cet outil aide les chercheurs à concevoir plus facilement leurs séquences d’ARN guide candidates et fournit une assistance aux utilisateurs pour choisir de meilleurs candidats en fonction des résultats préliminaires.
2. Matériaux et méthodes
Les deux séquences d’ARN guide et leur efficacité correspondante ont été collectées manuellement dans la littérature et stockées dans notre base de données. Pour concevoir l’ARN guide, nous avons utilisé un cadre Java contenant principalement 5 étapes, et se connectant au serveur web Tomcat.
Dans la première étape, le programme trouverait toutes les séquences candidates basées sur le principe du motif de séquence N20NGG, où NGG représente la séquence PAM, en utilisant la correspondance d’expression régulière Java. Dans la deuxième étape, le programme place toutes les séquences candidates dans un fichier fasta et exécute bowtie 0.12.9 pour vérifier si elles peuvent être mappées sur le génome de l’organisme modèle sélectionné de manière unique. Les paramètres de bowtie étaient « -f -v 1 -k 10 -l 16 -S », « -f » indiquant à bowtie que l’entrée était un fichier fasta, « -v 1 » permettant de n’autoriser qu’une seule non-concordance, « -k 10 » indiquant jusqu’à 10 bons alignements, « -l 16 » fixant la longueur de la graine à 16, et « -S » indiquant le format sam. Comme la longueur de la région cible n’était que de 23 pb, la longueur de graine par défaut de 28 pour bowtie n’était pas appropriée pour ce travail, nous l’avons donc ajustée à 16. Nous avons pensé que le nombre de mésappariements pourrait largement affecter l’efficacité, et cette étape s’est principalement concentrée sur la vérification de l’unicité de la cartographie, donc nous avons juste cherché des résultats avec au plus un mésappariement et produit au plus 10 résultats. Le résultat de la cartographie est analysé en Java, puis, dans la troisième étape, nous appelons tabix 0.2.5 pour trouver les SNP ou les indels qui se chevauchent, comme indiqué dans dbSNP135, si le génome cible est le génome humain hg19. Le fichier vcf dbSNP135 a été téléchargé à partir du paquet GATK. Dans la quatrième étape, le programme prédit les structures secondaires de l’ARN pour ces séquences gRNA candidates en faisant appel à Vienna RNAfold 2.0.7 avec les paramètres par défaut. Dans la dernière étape, le programme a réorganisé toutes les informations pour le gRNA conçu et l’a formaté en HTML de meilleure qualité. Le % d’AT et la distance des variants par rapport à l’extrémité 3′ de la région cible ont également été calculés. Les gRNA de sortie ont été triés à la fois par le nombre de résultats de cartographie et par le nombre de SNP chevauchants. La consommation de temps pour ce pipeline était principalement sur l’exécution de bowtie et parfois tabix, quand il existait de nombreuses séquences cibles, et était environ trois secondes pour une séquence de requête.
3. Résultats et discussion
Les séquences de gènes multiples sont autorisées pour la conception de gRNA par lots et la rationalisation de cette plate-forme est présentée dans la figure 1. Les résultats contiennent des informations sur les loci génomiques des gRNA et des SNP/INDEL à l’intérieur de ceux-ci. Cela aiderait les chercheurs à choisir une cible candidate plus unique et à éviter les SNP/insertion/délétion. De plus, cette plateforme évalue tous les candidats en fonction de leur structure secondaire d’ARN et de leur contenu en AT, ce qui permet aux utilisateurs de choisir de meilleurs candidats (Figure 2).
Stratégie de la plateforme de conception d’ARN guide. Les séquences cibles sont recherchées pour le génome entier pour l’unicité, puis vérifier le statut SNP/indel. Les résultats sont présentés de haut en bas avec plus d’unicité et moins de SNP/indel. La structure secondaire entière du gRNA est également donnée comme référence.
Instruction de la fonction de la plate-forme. Aperçu de l’interface de la plate-forme. (A)-(C) représentent les fonctions et la base de données. (D) représente les informations de sens/antisens et de position des séquences de sortie sur les séquences cibles. (E) représente l’unicité et le statut SNP/indel. (F) représente la structure secondaire du gRNA mature.
Récemment, Jiang et al. rapportent que seules les six premières paires de bases près du PAM sont d’une grande importance pour l’efficacité de la reconnaissance dans les bactéries . On ne sait pas si c’est encore le cas pour les cellules eucaryotes ou même mammifères. Nous continuerons à mettre à jour notre algorithme pour classer les gRNAs candidats.
Nous avons effectué une validation en utilisant les résultats rapportés dans notre plateforme sur des facteurs, tels que l’unicité, le SNP, et la base dans les boucles (tableau 1, la police italique représente les cibles peu efficaces). Plus l’ARNg est unique, avec moins de SNP et de bases en boucle, plus il est efficace. Pour le gène PVALB donné, la première séquence cible est 50% plus efficace que les deux autres, puisque la première a 0 SNP alors que les autres ont 3 ou 2 SNP. La première séquence cible a moins de paires de bases impliquées dans les boucles de la structure secondaire de l’ARN, ce qui lui permet de se lier davantage au génome cible, alors que les deux autres ont toutes deux 9 paires de bases dans les boucles. Pour le gène donné AAVS1, la première cible est plus de deux fois plus efficace que l’autre, puisque l’autre a un site hors cible dans les génomes. Pour le gène donné VEGFA, la première est environ deux fois moins efficace que les deux autres, car elle a 1 SNP alors que les autres n’en ont pas.
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ND représente non détectable. La police en italique représente les ARNg peu efficaces dans le même groupe de gènes. |
Le contenu en AT est un facteur crucial comme ceux mentionnés précédemment, puisque les preuves ne sont pas claires. Ainsi, nous le listons ici comme une considération pour les utilisateurs.
4. Conclusions
Notre plateforme est un logiciel facile à utiliser pour identifier les sites gRNA potentiels efficaces dans des séquences données pour des organismes modèles, en évitant les effets hors cible et les SNP. Cette plateforme permet également aux utilisateurs de rechercher des séquences d’ARN guide/protospacer existantes et de partager leurs résultats. Nous avons extrait manuellement la plupart des séquences gRNA/protospacer rapportées dans notre base de données pour référence et nous l’étendrons avec les travaux nouvellement publiés.
Divulgation
La plateforme en ligne, la base de données et le document sont disponibles à http://cas9.cbi.pku.edu.cn/.
Contribution des auteurs
Ming Ma et Adam Y. Ye ont contribué à parts égales à ce travail. Ming Ma a conçu l’idée et Adam Y. Ye, Weiguo Zheng ont réalisé la programmation et la construction du site web. Lei Kong a supervisé l’ensemble du travail et donné des conseils. Ming Ma, Adam Y. Ye et Lei Kong ont rédigé l’article.