Abstract
Cas9/CRISPR è stato segnalato per indurre in modo efficiente l’interruzione del gene mirato e la ricombinazione omologa sia in cellule procariotiche che eucariotiche. Così, abbiamo sviluppato una piattaforma di progettazione di sequenze di RNA guida per il sistema di silenziamento Cas9/CRISPR per organismi modello. La piattaforma è facile da usare per la progettazione di gRNA con sequenze di query di input. Trova potenziali bersagli per PAM e li classifica in base a fattori tra cui l’unicità, SNP, struttura secondaria dell’RNA e contenuto AT. La piattaforma permette agli utenti di caricare e condividere i loro risultati sperimentali. Inoltre, la maggior parte delle sequenze di RNA guida da articoli pubblicati sono state messe nel nostro database.
1. Introduzione
La tecnologia di ingegneria genetica è sempre stata un argomento caldo nella ricerca delle scienze della vita. Con lo sviluppo della tecnologia di modifica dei geni, alcuni geni possono essere eliminati o ridotti a un livello inferiore. La comparsa di nucleasi a dito di zinco (ZFN) e nucleasi tale (TALEN) ha notevolmente accelerato il progresso in questo campo, ma la loro efficienza è spesso imprevedibile ed è difficile bersagliare i geni selezionati.
Recentemente, Cas9/CRISPR è stato segnalato per indurre con successo la distruzione del gene mirato e la ricombinazione omologa in entrambe le cellule procariotiche ed eucariotiche con maggiore efficienza rispetto a ZFN e TALEN. Inoltre, è più facile progettare la sequenza guida e facile da usare per il sistema Cas9/CRISPR. Questa nuova tecnologia sarà di grande potenziale per l’applicazione sia nel campo della ricerca che negli studi clinici.
Tuttavia, non esiste uno strumento disponibile per la progettazione dell’RNA guida del sistema di silenziamento Cas9/CRISPR. Anche se Mali et al. hanno riportato la costruzione di unico intero genoma umano guida RNA biblioteca, che copre più del 40% esoni umani, non hanno fornito uno strumento per i ricercatori di progettare nuove sequenze bersaglio per altri organismi modello.
Libreria esistente anche non ha preso in considerazione i fattori di influenza correlati, come SNP, delezione o inserimento sul genoma, e potenziale struttura secondaria RNA. Secondo la nostra attuale comprensione del processo di maturazione del gRNA, la struttura secondaria del gRNA è cruciale per il complesso Cas9-gRNA. La sequenza di 20 bp di RNA guida viene utilizzata per legarsi al sito bersaglio nei genomi. Se sono per lo più coinvolti in loop di RNA, l’efficienza di legarsi ai siti bersaglio sarebbe bassa. Quindi, questo fattore dovrebbe essere preso in considerazione. Inoltre, l’efficienza di interferenza è probabilmente strettamente legata alla temperatura di fusione dell’ibrido gRNA-DNA. Un contenuto AT relativamente alto è correlato negativamente con l’effetto off-target, e quindi la sequenza con una percentuale AT estremamente bassa è, in qualche misura, sconsigliata.
Quindi, abbiamo sviluppato una piattaforma online per la progettazione dell’RNA guida del sistema di silenziamento Cas9/CRISPR (http://cas9.cbi.pku.edu.cn/), con informazioni integrate sulle varianti di DNA. Questo strumento aiuta i ricercatori a progettare più facilmente le loro sequenze di RNA guida candidate e fornisce assistenza agli utenti per scegliere i candidati migliori sulla base dei risultati preliminari.
2. Materiali e metodi
Tutte le sequenze di RNA guida e la loro efficienza corrispondente sono state raccolte manualmente dalla letteratura e memorizzate nel nostro database. Per la progettazione di RNA guida, abbiamo usato un framework Java contenente principalmente 5 passi, e la connessione al server web Tomcat.
Nel primo passo, il programma avrebbe trovato tutte le sequenze candidate basate sul principio del modello di sequenza N20NGG, dove NGG rappresenta la sequenza PAM, utilizzando Java regular expression matching. Nella seconda fase, il programma avrebbe messo tutte le sequenze candidate in un file fasta ed eseguito bowtie 0.12.9 per verificare se potevano essere mappate sul genoma dell’organismo modello selezionato in modo univoco. I parametri per bowtie erano “-f -v 1 -k 10 -l 16 -S”, poiché “-f” diceva a bowtie che l’input era un file fasta, “-v 1” per consentire al massimo un mismatch, “-k 10” per segnalare fino a 10 buoni allineamenti, “-l 16” per impostare la lunghezza del seme a 16, e “-S” per produrre il formato sam. Poiché la lunghezza della regione bersaglio era solo 23 bp, la lunghezza del seme di default 28 per bowtie non era adeguata per questo lavoro, così l’abbiamo regolata a 16. Abbiamo pensato che il numero di mismatch potrebbe in gran parte influenzare l’efficacia, e questo passo si è concentrato principalmente sul controllo dell’unicità della mappatura, quindi abbiamo cercato solo i risultati con al massimo un mismatch e abbiamo prodotto al massimo 10 risultati. Il risultato della mappatura sarebbe stato analizzato in Java, e poi, nel terzo passo, avrebbe chiamato tabix 0.2.5 per trovare qualsiasi SNPs sovrapposto o indel come riportato in dbSNP135 , se il genoma di destinazione era umano hg19. Il file vcf dbSNP135 è stato scaricato dal bundle GATK. Nel quarto passo, si predicevano le strutture secondarie dell’RNA per quelle sequenze di gRNA candidate chiamando Vienna RNAfold 2.0.7 con parametri predefiniti. Nell’ultimo passo, il programma ha riorganizzato tutte le informazioni per il gRNA progettato e le ha formattate in un HTML dall’aspetto migliore. Sono stati calcolati anche l’AT% e la distanza delle varianti dall’estremità 3′ della regione bersaglio. I gRNA in uscita sono stati ordinati sia per numero di successi di mappatura che per numero di SNP sovrapposti. Il consumo di tempo per questa pipeline era principalmente sull’esecuzione di bowtie e talvolta di tabix, quando esistevano molte sequenze target, ed era approssimativamente di circa tre secondi per una sequenza di query.
3. Risultati e Discussione
Sono consentite sequenze di geni multipli per la progettazione di gRNA in batch e lo streamline di questa piattaforma è mostrato nella Figura 1. I risultati contengono informazioni sui loci genomici dei gRNA e SNP/INDEL al loro interno. Questo aiuterebbe i ricercatori a scegliere un candidato bersaglio più unico ed evitare SNP/inserzione/cancellazione. Inoltre, questa piattaforma valuta tutti i candidati in base alla loro struttura secondaria RNA e il contenuto AT, permettendo agli utenti di scegliere i candidati migliori (Figura 2).
Streamline di guida RNA design piattaforma. Le sequenze target sono ricercate per l’intero genoma per l’unicità, e poi controllare lo stato SNP/indel. I risultati sono prodotti dall’alto verso il basso con più unicità e meno SNP/indel. L’intera struttura secondaria del gRNA è anche data come riferimento.
Istruzione al funzionamento della piattaforma. Panoramica dell’interfaccia della piattaforma. (A)-(C) rappresentano funzioni e database. (D) rappresenta il senso/antisenso e le informazioni di posizione delle sequenze in uscita sulle sequenze target. (E) rappresenta l’unicità e lo stato SNP/indel. (F) rappresenta la struttura secondaria del gRNA maturo.
Di recente, Jiang et al. riportano che solo le prime sei coppie di basi vicino a PAM sono di grande importanza per l’efficienza di riconoscimento nei batteri. Non si sa se questo sia ancora il caso per le cellule eucariotiche o anche per i mammiferi. Continueremo ad aggiornare il nostro algoritmo per classificare i gRNA candidati.
Abbiamo condotto una convalida utilizzando i risultati riportati nella nostra piattaforma su fattori, come l’unicità, SNP, e base in loop (Tabella 1, il carattere corsivo rappresenta obiettivi a bassa efficienza). Il più unico, con meno SNPs e base in loop, generalmente il gRNA è più efficiente. Per il gene PVALB dato, la prima sequenza bersaglio è il 50% più efficiente delle altre due, poiché la prima ha 0 SNP mentre le altre hanno 3 o 2 SNP. La prima sequenza bersaglio ha meno coppie di basi coinvolte nei loop della struttura secondaria dell’RNA, consentendole di legarsi maggiormente al genoma bersaglio, mentre le altre due hanno entrambe 9 coppie di basi nei loop. Per il dato gene AAVS1, il primo bersaglio è più di due volte efficiente dell’altro, poiché l’altro ha un sito fuori bersaglio nei genomi. Per il gene dato VEGFA, il primo è efficiente circa la metà rispetto agli altri due, poiché ha 1 SNP mentre gli altri non ne hanno nessuno.
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ND rappresenta non rilevabile. Il carattere corsivo rappresenta gRNA a bassa efficienza all’interno dello stesso gruppo di geni. |
Il contenuto di AT è fattore cruciale come quelli precedentemente menzionati, poiché le prove non sono chiare. Così, lo elenchiamo qui come una considerazione per gli utenti.
4. Conclusioni
La nostra piattaforma è un software facile da usare per identificare potenziali siti efficienti di gRNA all’interno di sequenze date per organismi modello, evitando effetti off-target e SNPs. Questa piattaforma permette anche agli utenti di cercare sequenze di RNA guida/protospacer esistenti e condividere i loro risultati. Abbiamo estratto manualmente la maggior parte delle sequenze di gRNA/protospacer riportate nel nostro database per riferimento e lo espanderemo con i nuovi lavori pubblicati.
Disclosure
La piattaforma online, il database e il documento sono disponibili all’indirizzo http://cas9.cbi.pku.edu.cn/.
Contributo degli autori
Ming Ma e Adam Y. Ye hanno contribuito equamente a questo lavoro. Ming Ma ha concepito l’idea e Adam Y. Ye, Weiguo Zheng ha condotto la programmazione e la costruzione del sito web. Lei Kong ha supervisionato l’intero lavoro e dato consigli. Ming Ma, Adam Y. Ye, e Lei Kong hanno redatto il documento.