Abstract
Cas9/CRISPR er blevet rapporteret til effektivt at inducere målrettet genafbrydelse og homologe rekombination i både prokaryote og eukaryote celler. Vi har således udviklet en guide RNA-sekvensdesignplatform til Cas9/CRISPR-silenseringssystemet til modelorganismer. Platformen er let at bruge til gRNA-design med input-forespørgselssekvenser. Den finder potentielle mål ved hjælp af PAM og rangerer dem i henhold til faktorer, herunder entydighed, SNP, RNA-sekundærstruktur og AT-indhold. Platformen giver brugerne mulighed for at uploade og dele deres eksperimentelle resultater. Desuden er de fleste guide RNA-sekvenser fra offentliggjorte artikler blevet lagt ind i vores database.
1. Introduktion
Gen-teknologi har altid været et varmt emne inden for biovidenskabelig forskning. Med udviklingen af genmodifikationsteknologi kan visse gener slås ud eller slås ned til et lavere niveau. Udseendet af zinkfingernuklease (ZFN) og fortællingsnuklease (TALEN) har i høj grad fremskyndet fremskridtene på dette område, men deres effektivitet er ofte uforudsigelig, og det er vanskeligt at målrette udvalgte gener .
For nylig er Cas9/CRISPR blevet rapporteret til med succes at inducere målrettet genafbrydelse og homolog rekombination i både prokaryote og eukaryote celler med højere effektivitet sammenlignet med ZFN og TALEN. Desuden er det lettere at designe en guide-sekvens og let at anvende Cas9/CRISPR-systemet . Denne nye teknologi vil have et stort potentiale for anvendelse inden for både forskningsområdet og kliniske forsøg.
Der findes imidlertid ikke noget tilgængeligt værktøj til design af guide RNA til Cas9/CRISPR-silenseringssystemet. Selv om Mali et al. har rapporteret om opbygningen af et unikt guide RNA-bibliotek for hele det menneskelige genom, der dækker mere end 40% menneskelige exoner , gav de ikke et værktøj til forskere til at designe nye målsekvenser for andre modelorganismer.
Det eksisterende bibliotek tog heller ikke hensyn til relaterede påvirkende faktorer, såsom SNP, sletning eller indsættelse på genomet og potentiel RNA-sekundærstruktur. Ifølge vores nuværende forståelse af gRNA-modningsprocessen er den sekundære struktur af gRNA afgørende for Cas9-gRNA-komplekset . Den 20 bp store guide RNA-sekvens bruges til at binde sig til målstedet i genomer. Hvis de for det meste er involveret i RNA-sløjfer, vil effektiviteten af bindingen til målstederne være lav. Denne faktor bør derfor tages i betragtning. Desuden er interferensvirkningen sandsynligvis tæt forbundet med smeltetemperaturen for gRNA-DNA-hybriden. Et relativt højt AT-indhold er negativt korreleret med off-target-effekten, og derfor anbefales sekvenser med ekstremt lav AT-procent til en vis grad ikke .
Dermed udviklede vi en onlineplatform til design af guide-RNA i Cas9/CRISPR-silensystemet (http://cas9.cbi.pku.edu.cn/), hvor oplysninger om DNA-varianter er integreret. Dette værktøj hjælper forskere med at designe deres kandidatguide RNA-sekvenser lettere og giver hjælp til brugerne til at vælge bedre kandidater baseret på foreløbige resultater.
2. Materialer og metoder
Både guide RNA-sekvenser og deres tilsvarende effektivitet blev manuelt indsamlet fra litteraturen og gemt i vores database. Til udformning af guide RNA anvendte vi en Java-ramme, der hovedsagelig indeholder 5 trin, og som er forbundet til Tomcat-webserveren.
I det første trin ville programmet finde eventuelle kandidatsekvenser baseret på N20NGG-sekvensmønsterprincippet, hvor NGG repræsenterer PAM-sekvensen, ved at udnytte Java regular expression matching. I det andet trin lægger programmet alle kandidatsekvenser i en fasta-fil og kører bowtie 0.12.9 for at kontrollere, om de kan kortlægges på en udvalgt modelorganismes genom. Parametrene for bowtie var “-f -v 1 -k 10 -l 16 -S”, idet “-f” fortalte bowtie, at input var en fasta-fil, “-v 1” for kun at tillade højst én mismatch, “-k 10” for at rapportere op til 10 gode tilpasninger, “-l 16” for at sætte seedlængden til 16, og “-S” for at udgive sam-formatet. Da målregionens længde kun var 23 bp, var standardfrølængden 28 for bowtie ikke passende til denne opgave, så vi justerede den til 16. Vi mente, at antallet af mismatches i høj grad kunne påvirke effektiviteten, og dette trin fokuserede hovedsagelig på at kontrollere entydigheden af kortlægningen, så vi søgte kun efter hits med højst én mismatch og udgav højst 10 hits. Kortlægningsresultatet ville blive analyseret i Java, og derefter ville vi i tredje trin kalde tabix 0.2.5 for at finde frem til eventuelle overlappende SNP’er eller indels som rapporteret i dbSNP135 , hvis målgenomet var humant hg19. dbSNP135 vcf-filen blev hentet fra GATK bundle. I fjerde trin forudsiges RNA-sekundærstrukturer for disse kandidat-gRNA-sekvenser ved at kalde Vienna RNAfold 2.0.7 med standardparametre . I det sidste trin omarrangerede programmet alle oplysninger om det designede gRNA og formaterede det til bedre udseende HTML. AT% og afstanden mellem varianterne og 3′-enden af målregionen blev også beregnet. De udførte gRNA’er blev sorteret efter både antallet af kortlægningshits og antallet af overlappende SNP’er. Tidsforbruget for denne pipeline var hovedsageligt på at køre bowtie og nogle gange tabix, når der fandtes mange målsekvenser, og var groft sagt omkring tre sekunder for en forespørgselssekvens.
3. Resultater og diskussion
Flere gensekvenser er tilladt til batch gRNA-design, og strømliningen af denne platform er vist i figur 1. Resultaterne indeholder oplysninger om genomiske loci for gRNA’er og SNP/INDEL i dem. Dette vil hjælpe forskerne med at vælge en mere unik målkandidat og undgå SNP/indsættelse/udslettelse. Desuden evaluerer denne platform alle kandidater på grundlag af deres RNA-sekundærstruktur og AT-indhold, så brugerne kan vælge bedre kandidater (figur 2).
Streamline for platformen til design af guide-RNA. Målsekvenser søges i hele genomet for at sikre entydighed, og der kontrolleres derefter SNP/indel-status. Resultaterne udarbejdes fra top til bund med flere unikke og færre SNP/indel. Hele gRNA-sekundærstrukturen er også angivet som reference.
Instruktion af platformens funktion. Oversigt over platformens grænseflade. (A)-(C) repræsenterer funktioner og database. (D) repræsenterer sense/antisense- og positionsoplysninger for outputsekvenser på målsekvenser. (E) repræsenterer entydighed og SNP/indel-status. (F) repræsenterer den modne gRNA sekundærstruktur.
For nylig rapporterede Jiang et al. at kun de første seks basepar nær PAM er af stor betydning for genkendelsens effektivitet i bakterier . Det er uvist, om dette stadig er tilfældet for eukaryote eller endog pattedyrceller. Vi vil fortsat opdatere vores algoritme til at rangordne kandidat gRNA’er.
Vi foretog en validering ved at bruge de rapporterede resultater i vores platform på faktorer som f.eks. entydighed, SNP og base i loops (tabel 1, kursiv skrift repræsenterer lavt effektive mål). Jo mere unik, med færre SNP’er og base i loops, generelt er gRNA’en mere effektiv. For det givne gen PVALB er den første målsekvens 50 % mere effektiv end de to øvrige, da den første har 0 SNP, mens de øvrige har 3 eller 2 SNP’er. Den første målsekvens har færre basepar, der er involveret i RNA’s sekundærstruktursløjfer, hvilket gør det muligt for den at binde sig mere til målgenomet, mens de to øvrige sekvenser begge har 9 basepar i sløjfer. For det givne gen AAVS1 er den første målsekvens mere end dobbelt så effektiv som den anden, da den anden har et off-target-sted i genomerne. For det givne gen VEGFA er det første mål ca. halvt så effektivt som de to andre, da det har 1 SNP, mens de andre ikke har nogen.
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ND står for ikke påviseligt. Kursiv skrift repræsenterer lavt effektive gRNA’er inden for samme gengruppe. |
AT-indholdet er afgørende faktor som de tidligere nævnte, da beviserne ikke er klare. Derfor anfører vi det her som en overvejelse for brugerne.
4. Konklusioner
Vores platform er en brugervenlig software til at identificere potentielle effektive gRNA-steder inden for givne sekvenser for modelorganismer, idet man undgår off-target-effekter og SNP’er. Denne platform giver også brugerne mulighed for at søge i eksisterende guide RNA/protospacer-sekvenser og dele deres resultater. Vi har manuelt ekstraheret de fleste rapporterede gRNA/protospacer-sekvenser i vores database til reference og vil udvide den med nyligt offentliggjort arbejde.
Oplysning
Onlineplatformen, databasen og dokumentet er tilgængelige på http://cas9.cbi.pku.edu.cn/.
Autors bidrag
Ming Ma og Adam Y. Ye bidrog ligeligt til dette arbejde. Ming Ma udtænkte ideen, og Adam Y. Ye, Weiguo Zheng udførte programmering og opbygning af webstedet. Lei Kong førte tilsyn med hele arbejdet og gav vejledning. Ming Ma, Adam Y. Ye og Lei Kong udarbejdede papiret.