Abstract
Cas9/CRISPR har rapporterats effektivt inducera målinriktad genavbrott och homolog rekombination i både prokaryotiska och eukaryotiska celler. Vi har därför utvecklat en plattform för utformning av guide RNA-sekvenser för Cas9/CRISPR-silenssystemet för modellorganismer. Plattformen är lätt att använda för gRNA-design med inmatade frågesekvenser. Den hittar potentiella mål genom PAM och rangordnar dem enligt faktorer som unikhet, SNP, RNA:s sekundärstruktur och AT-innehåll. Plattformen gör det möjligt för användare att ladda upp och dela sina experimentella resultat. Dessutom har de flesta guide RNA-sekvenser från publicerade artiklar lagts in i vår databas.
1. Introduktion
Genteknik har alltid varit ett hett ämne inom biovetenskaplig forskning. Med utvecklingen av genmodifieringstekniken kan vissa gener slås ut eller slås ner till en lägre nivå. Förekomsten av zinkfingernukleas (ZFN) och tale-nukleas (TALEN) har i hög grad påskyndat framstegen på detta område, men deras effektivitet är ofta oförutsägbar och det är svårt att rikta in sig på utvalda gener .
Nyligen har Cas9/CRISPR rapporterats för att framgångsrikt framkalla målinriktad genavbrott och homolog rekombination i både prokaryotiska och eukaryotiska celler med högre effektivitet jämfört med ZFN och TALEN . Dessutom är det lättare att utforma guide-sekvenser och lätt att använda Cas9/CRISPR-systemet. Denna nya teknik kommer att ha stor potential för tillämpning inom både forskningsområdet och kliniska prövningar.
Det finns dock inget tillgängligt verktyg för utformning av guide RNA för Cas9/CRISPR-systemet för ljuddämpning. Även om Mali et al. har rapporterat om konstruktionen av ett unikt guide RNA-bibliotek för hela det mänskliga genomet, som täcker mer än 40 % av de mänskliga exonerna, har de inte tillhandahållit ett verktyg för forskare för att designa nya målsekvenser för andra modellorganismer.
Det existerande biblioteket tog inte heller hänsyn till relaterade påverkansfaktorer, t.ex. SNP, deletion eller insättning på genomet, och potentiell sekundärstruktur för RNA. Enligt vår nuvarande förståelse av mognadsprocessen för gRNA är gRNA:s sekundärstruktur avgörande för Cas9-gRNA-komplexet . RNA-sekvensen med 20 bp guide RNA används för att binda till målplatsen i genomen. Om de mestadels är involverade i RNA-slingor skulle effektiviteten för att binda till målpunkterna vara låg. Denna faktor bör därför beaktas. Dessutom är störningseffektiviteten troligen nära relaterad till smältningstemperaturen för gRNA-DNA-hybriden. Ett relativt högt AT-innehåll är negativt korrelerat med off-target-effekten, och därför är sekvenser med extremt låg AT-procent i viss mån inte rekommenderade .
Därmed har vi utvecklat en online-plattform för design av guide-RNA för Cas9/CRISPR-silenssystemet (http://cas9.cbi.pku.edu.cn/), med integrerad information om DNA-varianter. Detta verktyg hjälper forskare att lättare utforma sina kandidatguide RNA-sekvenser och ger användarna hjälp att välja bättre kandidater utifrån preliminära resultat.
2. Material och metoder
Både guide RNA-sekvenser och deras motsvarande effektivitet samlades in manuellt från litteraturen och lagrades i vår databas. För att utforma guide RNA använde vi ett Java-ramverk som huvudsakligen innehåller fem steg och som ansluter till Tomcat-webbservern.
I det första steget skulle programmet hitta eventuella kandidatsekvenser baserat på N20NGG-sekvensmönsterprincipen, där NGG representerar PAM-sekvensen, genom att använda Java reguljära uttrycksmatchning. I det andra steget lägger programmet alla kandidatsekvenser i en fasta-fil och kör bowtie 0.12.9 för att kontrollera om de kan kartläggas unikt i den utvalda modellorganismens genom. Parametrarna för bowtie var ”-f -v 1 -k 10 -l 16 -S”, eftersom ”-f” sa till bowtie att indata var en fasta-fil, ”-v 1” för att bara tillåta högst en missmatchning, ”-k 10” för att rapportera upp till 10 bra anpassningar, ”-l 16” för att ställa in frölängden till 16, och ”-S” för att ge ut ett sam-format. Eftersom målregionens längd endast var 23 bp var standardfrölängden 28 för bowtie inte lämplig för det här jobbet, så vi justerade den till 16. Vi trodde att antalet felmatchningar i hög grad skulle kunna påverka effektiviteten, och det här steget var främst inriktat på att kontrollera att kartläggningen är unik, så vi letade bara efter träffar med högst en felmatchning och gav ut högst 10 träffar. Kartläggningsresultatet skulle analyseras i Java och sedan, i det tredje steget, skulle tabix 0.2.5 anropas för att ta reda på eventuella överlappande SNPs eller indels som rapporterats i dbSNP135 , om målgenomet var humant hg19. dbSNP135 vcf-filen hämtades från GATK-paketet. I det fjärde steget skulle man förutsäga sekundära RNA-strukturer för dessa kandidatsekvenser av gRNA genom att anropa Vienna RNAfold 2.0.7 med standardparametrar . I det sista steget ordnade programmet om all information för det utformade gRNA och formaterade den till bättre HTML. AT% och varianternas avstånd till målregionens 3′-ända beräknades också. De utgående gRNA:erna sorterades både efter antalet kartläggningsträffar och antalet överlappande SNP:er. Tidsförbrukningen för denna pipeline var främst på att köra bowtie och ibland tabix, när det fanns många målsekvenser, och var ungefär tre sekunder för en frågesekvens.
3. Resultat och diskussion
Flera gensekvenser tillåts för batch gRNA-design och strömlinjeformningen av denna plattform visas i figur 1. Resultaten innehåller information om genomiska loci för gRNA:er och SNP/INDEL i dem. Detta skulle hjälpa forskarna att välja en mer unik målkandidat och undvika SNP/insertion/deletion. Dessutom utvärderar plattformen alla kandidater utifrån deras RNA-sekundärstruktur och AT-innehåll, vilket gör det möjligt för användarna att välja bättre kandidater (figur 2).
Streamline för plattformen för design av guide RNA. Målsekvenserna genomsöks i hela genomet för att säkerställa att de är unika, och därefter kontrolleras SNP/indelstatus. Resultaten visas uppifrån och ner med fler unika och färre SNP/indel. Hela gRNA-sekundärstrukturen ges också som referens.
Instruktion av plattformens funktion. Översikt över plattformens gränssnitt. (A)-(C) representerar funktioner och databas. (D) representerar information om mening/antisens och position för utgående sekvenser på målsekvenser. (E) representerar unikhet och SNP/indel-status. (F) representerar den mogna gRNA-sekundärstrukturen.
Nyligen rapporterade Jiang et al. att endast de första sex basparen i närheten av PAM har stor betydelse för igenkänningseffektiviteten hos bakterier . Det är okänt om detta fortfarande är fallet för eukaryota eller till och med däggdjursceller. Vi kommer att fortsätta att uppdatera vår algoritm för att rangordna kandidat gRNAs.
Vi genomförde en validering genom att använda de rapporterade resultaten i vår plattform på faktorer, såsom unikhet, SNP och bas i slingor (tabell 1, kursivt typsnitt representerar mål med låg effektivitet). Ju mer unik, med färre SNP:er och baser i slingor, desto effektivare är i allmänhet gRNA:n. För den givna genen PVALB är den första målsekvensen 50 % effektivare än de övriga två, eftersom den första har 0 SNP medan de övriga har 3 eller 2 SNP. Den första målsekvensen har färre baspar som är inblandade i slingor i RNA:s sekundärstruktur, vilket gör att den kan binda mer till målgenomet, medan de övriga två båda har 9 baspar i slingor. För den givna genen AAVS1 är den första målsekvensen mer än dubbelt så effektiv som den andra, eftersom den andra har en plats utanför måltavlan i genomen. För den givna genen VEGFA är det första målet ungefär hälften så effektivt som de andra två, eftersom det har 1 SNP medan de andra inte har någon.
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ND står för ej påvisbar. Kursivt typsnitt representerar gRNA med låg effektivitet inom samma gengrupp. |
AT-innehållet är en avgörande faktor som de som tidigare nämnts eftersom bevisen inte är tydliga. Därför listar vi den här som ett övervägande för användare.
4. Slutsatser
Vår plattform är en lättanvänd programvara för att identifiera potentiella effektiva gRNA-platser inom givna sekvenser för modellorganismer och undvika off-target-effekter och SNPs. Plattformen gör det också möjligt för användare att söka efter befintliga guide RNA/protospacer-sekvenser och dela med sig av sina resultat. Vi har manuellt extraherat de flesta rapporterade gRNA/protospacer-sekvenser till vår databas som referens och kommer att utöka den med nypublicerat arbete.
Offentliggörande
Onlineplattformen, databasen och dokumentet finns tillgängliga på http://cas9.cbi.pku.edu.cn/.
Författarnas bidrag
Ming Ma och Adam Y. Ye bidrog i lika stor utsträckning till detta arbete. Ming Ma utformade idén och Adam Y. Ye, Weiguo Zheng utförde programmering och konstruktion av webbplatsen. Lei Kong övervakade hela arbetet och gav vägledning. Ming Ma, Adam Y. Ye och Lei Kong utarbetade dokumentet.