Abstract
Cas9/CRISPR ist bekannt dafür, dass es effizient gezielte Gendefekte und homologe Rekombinationen in prokaryotischen und eukaryotischen Zellen induziert. Daher haben wir eine Guide-RNA-Sequenz-Design-Plattform für das Cas9/CRISPR-Silencing-System für Modellorganismen entwickelt. Die Plattform ist für das Design von gRNAs mit Eingabesequenzen einfach zu bedienen. Sie findet potenzielle Ziele durch PAM und stuft sie nach Faktoren wie Einzigartigkeit, SNP, RNA-Sekundärstruktur und AT-Gehalt ein. Die Plattform ermöglicht es den Nutzern, ihre experimentellen Ergebnisse hochzuladen und mit anderen zu teilen. Darüber hinaus wurden die meisten Guide-RNA-Sequenzen aus veröffentlichten Arbeiten in unsere Datenbank aufgenommen.
1. Einleitung
Die Gentechnik war schon immer ein heißes Thema in der biowissenschaftlichen Forschung. Mit der Entwicklung der Genmodifikationstechnologie können bestimmte Gene ausgeschaltet oder auf ein niedrigeres Niveau heruntergeschaltet werden. Das Auftauchen von Zinkfingernuklease (ZFN) und TALEN hat den Fortschritt in diesem Bereich stark beschleunigt, aber ihre Effizienz ist oft unvorhersehbar und es ist schwierig, ausgewählte Gene zu erreichen.
In jüngster Zeit wurde berichtet, dass Cas9/CRISPR sowohl in prokaryotischen als auch in eukaryotischen Zellen mit höherer Effizienz als ZFN und TALEN erfolgreich gezielte Gendefekte und homologe Rekombinationen induzieren kann. Darüber hinaus ist es einfacher, eine Leitsequenz zu entwerfen und das Cas9/CRISPR-System einfach zu verwenden. Diese neuartige Technologie hat ein großes Potenzial für die Anwendung sowohl in der Forschung als auch in klinischen Studien.
Es gibt jedoch kein verfügbares Werkzeug für das Design der Leit-RNA des Cas9/CRISPR-Silencing-Systems. Obwohl Mali et al. über den Aufbau einer einzigartigen Guide-RNA-Bibliothek für das gesamte menschliche Genom berichtet haben, die mehr als 40 % der menschlichen Exons abdeckt, haben sie den Forschern kein Werkzeug zur Verfügung gestellt, mit dem sie neuartige Zielsequenzen für andere Modellorganismen entwerfen können.
Die vorhandene Bibliothek berücksichtigte auch nicht die damit verbundenen Einflussfaktoren wie SNP, Deletion oder Insertion im Genom und die potenzielle RNA-Sekundärstruktur. Nach unserem derzeitigen Verständnis des gRNA-Reifungsprozesses ist die Sekundärstruktur der gRNA entscheidend für den Cas9-gRNA-Komplex. Die 20 bp lange Leit-RNA-Sequenz wird zur Bindung an die Zielstelle im Genom verwendet. Wenn sie größtenteils in RNA-Schleifen eingebunden sind, wäre die Effizienz der Bindung an die Zielstellen gering. Dieser Faktor sollte daher berücksichtigt werden. Außerdem hängt die Interferenzeffizienz wahrscheinlich eng mit der Schmelztemperatur des gRNA-DNA-Hybrids zusammen. Ein relativ hoher AT-Gehalt ist negativ mit dem Off-Target-Effekt korreliert, so dass Sequenzen mit extrem niedrigem AT-Anteil in gewissem Maße nicht zu empfehlen sind.
Deshalb haben wir eine Online-Plattform für das Design von Leit-RNAs für das Cas9/CRISPR-Silencing-System (http://cas9.cbi.pku.edu.cn/) entwickelt, in die Informationen über DNA-Varianten integriert sind. Dieses Tool hilft den Forschern, ihre Kandidaten-RNA-Sequenzen einfacher zu entwerfen, und unterstützt die Nutzer bei der Auswahl besserer Kandidaten auf der Grundlage vorläufiger Ergebnisse.
2. Materialien und Methoden
Beide Guide-RNA-Sequenzen und ihre entsprechende Effizienz wurden manuell aus der Literatur gesammelt und in unserer Datenbank gespeichert. Für das Design der guide RNA verwendeten wir ein Java-Framework, das hauptsächlich 5 Schritte umfasst und mit dem Tomcat-Webserver verbunden ist.
Im ersten Schritt suchte das Programm mit Hilfe des Java-Matching mit regulären Ausdrücken nach Sequenzmustern, die auf dem N20NGG-Prinzip basieren, wobei NGG für die PAM-Sequenz steht. Im zweiten Schritt würde das Programm alle Kandidatensequenzen in eine Fasta-Datei packen und Bowtie 0.12.9 laufen lassen, um zu prüfen, ob sie eindeutig auf das Genom des ausgewählten Modellorganismus abgebildet werden können. Die Parameter für Bowtie waren „-f -v 1 -k 10 -l 16 -S“, da „-f“ Bowtie mitteilte, dass es sich bei der Eingabe um eine Fasta-Datei handelte, „-v 1“ nur maximal eine Fehlanpassung zuließ, „-k 10“ bis zu 10 gute Alignments meldete, „-l 16“ die Seedlänge auf 16 setzte und „-S“ das Sam-Format ausgab. Da die Länge der Zielregion nur 23 bp betrug, war die Standard-Seedlänge von 28 für Bowtie für diese Aufgabe nicht geeignet, so dass wir sie auf 16 eingestellt haben. Wir dachten, dass die Anzahl der Mismatches die Effektivität stark beeinflussen könnte, und dieser Schritt konzentrierte sich hauptsächlich auf die Überprüfung der Einzigartigkeit des Mappings, also suchten wir nur nach Treffern mit höchstens einem Mismatch und gaben höchstens 10 Treffer aus. Das Mapping-Ergebnis würde in Java geparst und dann im dritten Schritt tabix 0.2.5 aufgerufen, um alle überlappenden SNPs oder Indels zu ermitteln, die in dbSNP135 angegeben sind, wenn das Zielgenom menschlich hg19 ist. Die dbSNP135 vcf-Datei wurde aus dem GATK-Bundle heruntergeladen. Im vierten Schritt wurden die RNA-Sekundärstrukturen für diese gRNA-Kandidaten-Sequenzen durch Aufruf von Vienna RNAfold 2.0.7 mit Standardparametern vorhergesagt. Im letzten Schritt ordnete das Programm alle Informationen für die entworfene gRNA neu an und formatierte sie in besser aussehendes HTML. Die AT% und der Abstand der Varianten zum 3′-Ende der Zielregion wurden ebenfalls berechnet. Die ausgegebenen gRNAs wurden sowohl nach der Anzahl der Kartierungstreffer als auch nach der Anzahl der überlappenden SNPs sortiert. Der Zeitaufwand für diese Pipeline bestand hauptsächlich in der Ausführung von Bowtie und manchmal Tabix, wenn es viele Zielsequenzen gab, und betrug etwa drei Sekunden für eine Abfragesequenz.
3. Ergebnisse und Diskussion
Mehrere Gensequenzen sind für das Batch-GRNA-Design zugelassen, und die Stromlinie dieser Plattform ist in Abbildung 1 dargestellt. Die Ergebnisse enthalten genomische Loci-Informationen von gRNAs und SNP/INDEL in ihnen. Dies würde den Forschern helfen, einen eindeutigen Zielkandidaten zu wählen und SNP/Insertion/Deletion zu vermeiden. Darüber hinaus bewertet diese Plattform alle Kandidaten auf der Grundlage ihrer RNA-Sekundärstruktur und ihres AT-Gehalts, so dass die Benutzer bessere Kandidaten auswählen können (Abbildung 2).
Streamline der Guide-RNA-Design-Plattform. Die Zielsequenzen werden für das gesamte Genom auf Einzigartigkeit durchsucht, und dann wird der SNP-/Indelstatus überprüft. Die Ergebnisse werden von oben nach unten mit mehr eindeutigen und weniger SNP/Indeln ausgegeben. Die gesamte gRNA-Sekundärstruktur wird ebenfalls als Referenz angegeben.
Anleitung der Plattformfunktion. Überblick über die Schnittstelle der Plattform. (A)-(C) stellen Funktionen und Datenbank dar. (D) stellt Sinn/Antisinn und Positionsinformationen von Ausgabesequenzen auf Zielsequenzen dar. (E) stellt Einzigartigkeit und SNP-/Indelstatus dar. (F) stellt die reife gRNA-Sekundärstruktur dar.
Jiang et al. berichten kürzlich, dass nur die ersten sechs Basenpaare in der Nähe von PAM für die Erkennungseffizienz in Bakterien von großer Bedeutung sind. Es ist nicht bekannt, ob dies auch bei eukaryotischen Zellen oder sogar bei Säugetieren der Fall ist. Wir werden unseren Algorithmus weiter aktualisieren, um die gRNA-Kandidaten in eine Rangfolge zu bringen.
Wir haben eine Validierung durchgeführt, indem wir die in unserer Plattform gemeldeten Ergebnisse auf Faktoren wie Einzigartigkeit, SNP und Basen in Schleifen (Tabelle 1, kursive Schrift steht für wenig effiziente Ziele) angewendet haben. Je einzigartiger, mit weniger SNPs und Basen in Schleifen, desto effizienter ist die gRNA im Allgemeinen. Für das gegebene Gen PVALB ist die erste Zielsequenz 50 % effizienter als die beiden anderen, da die erste 0 SNP hat, während die anderen 3 oder 2 SNPs haben. Die erste Zielsequenz hat weniger Basenpaare, die in RNA-Sekundärstruktur-Schleifen involviert sind, wodurch sie mehr mit dem Zielgenom binden kann, während die beiden anderen jeweils 9 Basenpaare in Schleifen haben. Für das gegebene Gen AAVS1 ist die erste Zielsequenz mehr als doppelt so effizient wie die andere, da die andere eine Off-Target-Stelle im Genom hat. Für das gegebene Gen VEGFA ist das erste Ziel etwa halb so effizient wie die beiden anderen, da es einen SNP hat, während die anderen keinen haben.
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ND bedeutet nicht nachweisbar. Kursive Schrift steht für wenig effiziente gRNAs innerhalb der gleichen Gengruppe. |
AT-Gehalt ist ein entscheidender Faktor, wie die zuvor erwähnten, da der Nachweis nicht eindeutig ist. Daher führen wir ihn hier als Überlegung für die Benutzer auf.
4. Schlussfolgerungen
Unsere Plattform ist eine einfach zu bedienende Software zur Identifizierung potenziell effizienter gRNA-Stellen innerhalb gegebener Sequenzen für Modellorganismen, wobei Off-Target-Effekte und SNPs vermieden werden. Diese Plattform ermöglicht es den Nutzern auch, bestehende gRNA/Protospacer-Sequenzen zu durchsuchen und ihre Ergebnisse zu teilen. Wir haben die meisten gemeldeten gRNA/Protospacer-Sequenzen manuell in unsere Datenbank als Referenz extrahiert und werden sie mit neu veröffentlichten Arbeiten erweitern.
Bekanntgabe
Die Online-Plattform, die Datenbank und das Dokument sind unter http://cas9.cbi.pku.edu.cn/ verfügbar.
Beitrag der Autoren
Ming Ma und Adam Y. Ye haben zu gleichen Teilen zu dieser Arbeit beigetragen. Ming Ma hatte die Idee und Adam Y. Ye, Weiguo Zheng führten die Programmierung und den Aufbau der Website durch. Lei Kong überwachte die gesamte Arbeit und gab Anleitung. Ming Ma, Adam Y. Ye und Lei Kong haben die Arbeit verfasst.