Abstract
Cas9/CRISPR is gemeld om efficiënt te induceren gerichte gen ontwrichting en homologe recombinatie in zowel prokaryotische en eukaryotische cellen. Zo hebben we een gids RNA sequentie ontwerp-platform voor de Cas9 / CRISPR silencing systeem voor modelorganismen. Het platform is eenvoudig te gebruiken voor gRNA ontwerp met input query sequenties. Het vindt potentiële doelen door PAM en rangschikt ze op basis van factoren zoals uniciteit, SNP, RNA secundaire structuur, en AT inhoud. Het platform stelt gebruikers in staat om te uploaden en delen van hun experimentele resultaten. Bovendien zijn de meeste gids RNA sequenties van gepubliceerde papers zijn in onze database.
1. Inleiding
Gene engineering-technologie is altijd een hot topic in de biowetenschappen onderzoek. Met de ontwikkeling van genmodificatietechnologie kunnen bepaalde genen worden uitgeschakeld of teruggedrongen tot een lager niveau. Het verschijnen van zinkvingernuclease (ZFN) en tale nuclease (TALEN) heeft de vooruitgang op dit gebied enorm versneld, maar hun efficiëntie is vaak onvoorspelbaar en het is moeilijk om geselecteerde genen te targetten.
Nu is gemeld dat Cas9/CRISPR met succes gerichte genonderbreking en homologe recombinatie induceert in zowel prokaryote als eukaryote cellen met een hogere efficiëntie vergeleken met ZFN en TALEN . Bovendien is het gemakkelijker om gidssequentie te ontwerpen en gemakkelijk te gebruiken voor Cas9/CRISPR-systeem. Deze nieuwe technologie zal van groot potentieel voor toepassing in zowel onderzoek gebied en klinische trials.
Echter, er is geen beschikbaar hulpmiddel voor de gids RNA ontwerp van Cas9/CRISPR silencing systeem. Hoewel Mali et al. de bouw van unieke hele menselijke genoom gids RNA bibliotheek hebben gemeld, die meer dan 40% menselijke exonen omvat, hebben ze geen hulpmiddel voor onderzoekers om nieuwe doelsequenties voor andere modelorganismen te ontwerpen.
De bestaande bibliotheek heeft ook geen rekening gehouden met gerelateerde beïnvloedende factoren, zoals SNP, deletie of insertie op het genoom, en potentiële RNA secundaire structuur. Volgens ons huidig begrip van het gRNA rijpingsproces, is de secundaire structuur van gRNA van cruciaal belang voor Cas9-gRNA complex. De 20 bp gids RNA sequentie wordt gebruikt om te binden met doel site in genomen. Als zij meestal betrokken in RNA lussen, de efficiëntie te binden met doelsites zou laag zijn. Met deze factor moet dus rekening worden gehouden. Bovendien is de interferentie-efficiëntie waarschijnlijk nauw verwant met de smelttemperatuur van de gRNA-DNA hybride. Een relatief hoog AT-gehalte is negatief gecorreleerd met het off-target effect, en dus sequentie met een extreem laag AT percentage is, tot op zekere hoogte, niet aan te bevelen .
Daarom hebben wij een online platform ontwikkeld voor het gids RNA ontwerp van het Cas9/CRISPR silencing systeem (http://cas9.cbi.pku.edu.cn/), met geïntegreerde DNA-varianten informatie. Deze tool helpt onderzoekers hun kandidaat gids RNA sequenties ontwerpen gemakkelijker en biedt hulp voor gebruikers om betere kandidaten te kiezen op basis van voorlopige resultaten.
2. Materialen en Methoden
Zowel gids RNA sequenties en hun bijbehorende efficiëntie werden handmatig verzameld uit de literatuur en opgeslagen in onze database. Voor het ontwerpen van gids RNA, gebruikten we een Java-kader voornamelijk met 5 stappen, en het aansluiten op Tomcat webserver.
In de eerste stap, zou het programma vinden alle kandidaat-sequenties op basis van de N20NGG sequentie patroon principe, waar NGG staat voor PAM sequentie, door gebruik te maken Java reguliere expressie matching. In de tweede stap zou het programma alle kandidaat-sequenties in een fasta-bestand plaatsen en bowtie 0.12.9 uitvoeren om te controleren of ze uniek op het genoom van het geselecteerde modelorganisme in kaart kunnen worden gebracht. De parameters voor bowtie waren “-f -v 1 -k 10 -l 16 -S,” aangezien “-f” bowtie vertelde dat de invoer een fasta-bestand was, “-v 1” om maximaal één mismatch toe te staan, “-k 10” om maximaal 10 goede alignments te rapporteren, “-l 16” om de seed-lengte op 16 in te stellen, en “-S” om het sam-formaat te outputten. Aangezien de lengte van het doelgebied slechts 23 bp was, was de standaard zaadlengte 28 voor bowtie niet geschikt voor deze taak, dus stelden we die in op 16. We dachten dat het aantal mismatches de effectiviteit sterk zou beïnvloeden, en deze stap was vooral gericht op het controleren van de uniciteit van de mapping, dus we zochten alleen naar hits met hooguit één mismatch en gaven hooguit 10 hits. Het resultaat van de mapping wordt in Java geparseerd en vervolgens, in de derde stap, wordt tabix 0.2.5 aangeroepen om overlappende SNP’s of indels te vinden zoals gerapporteerd in dbSNP135 , als het doelgenoom menselijk hg19 was. De dbSNP135 vcf bestand werd gedownload van GATK bundel. In de vierde stap, zou het voorspellen RNA secundaire structuren voor die kandidaat gRNA sequenties door te bellen Vienna RNAfold 2.0.7 met standaard parameters . In de laatste stap, het programma herschikt alle informatie voor de ontworpen gRNA en geformatteerd het naar een beter uitziende HTML. De AT% en de afstand van de varianten op de 3 ‘einde van het doelgebied werden ook berekend. De output gRNA’s werden gesorteerd op zowel het aantal mapping hits en het aantal overlappende SNP’s. Het tijdverbruik voor deze pijplijn was voornamelijk op het uitvoeren van bowtie en soms tabix, wanneer er veel doelsequenties, en was ruwweg ongeveer drie seconden voor een query sequence.
3. Resultaten en Discussie
Meerdere gensequenties zijn toegestaan voor batch gRNA ontwerp en de stroomlijn van dit platform is weergegeven in figuur 1. De resultaten bevatten genomische loci informatie van gRNAs en SNP / INDEL in hen. Dit zou onderzoekers helpen een meer unieke doelkandidaat te kiezen en SNP/insertie/deletie te vermijden. Bovendien evalueert dit platform alle kandidaten op basis van hun RNA secundaire structuur en AT-inhoud, zodat gebruikers betere kandidaten kunnen kiezen (figuur 2).
Streamline van gids RNA ontwerp-platform. De doelsequenties worden voor het hele genoom op uniciteit doorzocht en vervolgens wordt de SNP/indel-status gecontroleerd. De resultaten worden van boven naar beneden weergegeven met meer unieke en minder SNP/indel. De volledige secundaire structuur van de gRNA wordt ook als referentie gegeven.
Instructie van de platformfunctie. Overzicht van de platforminterface. (A)-(C) staan voor functies en database. (D) vertegenwoordigt sense/antisense en positie-informatie van uitgangsequenties op doelsequenties. (E) vertegenwoordigt uniciteit en SNP/indel-status. (F) staat voor de secundaire structuur van de rijpe gRNA.
Nieuws melden Jiang et al. dat alleen de eerste zes basenparen in de buurt van PAM van groot belang zijn voor de herkenningsefficiëntie bij bacteriën. Het is onbekend of dit nog steeds het geval is voor eukaryotische of zelfs zoogdiercellen. We zullen blijven bijwerken ons algoritme te rangschikken kandidaat gRNAs.
We voerden een validatie door met behulp van die gerapporteerde resultaten in ons platform op factoren, zoals uniciteit, SNP, en base in lussen (tabel 1, cursief lettertype vertegenwoordigt lage efficiënte doelen). Hoe unieker, met minder SNP’s en base in loops, over het algemeen de gRNA is efficiënter. Voor het gegeven gen PVALB is de eerste doelsequentie 50% efficiënter dan de overige twee, aangezien de eerste 0 SNP heeft, terwijl de rest 3 of 2 SNP’s heeft. De eerste doelsequentie heeft minder basenparen die betrokken zijn bij lussen in de secundaire structuur van het RNA, waardoor deze meer kan binden met het doelgenoom, terwijl de overige twee beide 9 basenparen in lussen hebben. Voor het gen AAVS1 is het eerste doelwit meer dan twee keer zo efficiënt als het andere, omdat het andere een off-target site in het genoom heeft. Voor het gegeven gen VEGFA, is het eerste ongeveer de helft efficiënter dan de andere twee, aangezien het 1 SNP heeft, terwijl de rest er geen heeft.
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ND staat voor niet detecteerbaar. Cursief lettertype vertegenwoordigt laag efficiënte gRNAs binnen dezelfde gen groep. |
AT inhoud is cruciale factor als die eerder vermeld, aangezien het bewijs is niet duidelijk. Dus, we noemen het hier als een overweging voor users.
4. Conclusies
Ons platform is een eenvoudig te gebruiken software om potentiële efficiënte gRNA sites te identificeren binnen bepaalde sequenties voor modelorganismen, het vermijden van off-target effecten en SNP’s. Dit platform stelt gebruikers ook in staat om bestaande gids RNA / protospacer sequenties te zoeken en hun resultaten te delen. We hebben handmatig geëxtraheerd de meeste gerapporteerde gRNA / protospacer sequenties in onze database voor referentie en zal uitbreiden met nieuw gepubliceerd werk.
Openbaarmaking
Het online platform, database, en het document zijn beschikbaar op http://cas9.cbi.pku.edu.cn/.
Authors ‘Contribution
Ming Ma en Adam Y. Ye gelijkelijk bijgedragen aan dit werk. Ming Ma bedacht het idee en Adam Y. Ye, Weiguo Zheng voerden de programmering en website bouw uit. Lei Kong hield toezicht op het hele werk en gaf leiding. Ming Ma, Adam Y. Ye, en Lei Kong schreven de paper.