Abstract
Cas9/CRISPR a fost raportată pentru a induce în mod eficient întreruperea direcționată a genei și recombinarea omoloagă atât în celulele procariote cât și în cele eucariote. Astfel, am dezvoltat o platformă de proiectare a secvențelor de ARN ghid pentru sistemul de silențiere Cas9/CRISPR pentru organisme model. Platforma este ușor de utilizat pentru proiectarea ARNg cu secvențe de interogare de intrare. Aceasta găsește potențiale ținte prin PAM și le clasifică în funcție de factori, inclusiv unicitatea, SNP, structura secundară a ARN-ului și conținutul de AT. Platforma permite utilizatorilor să își încarce și să împărtășească rezultatele experimentale. În plus, majoritatea secvențelor de ARN ghid din lucrările publicate au fost introduse în baza noastră de date.
1. Introducere
Tehnologia ingineriei genetice a fost întotdeauna un subiect fierbinte în cercetarea în domeniul științelor vieții. Odată cu dezvoltarea tehnologiei de modificare a genelor, anumite gene pot fi eliminate sau coborâte la un nivel inferior. Apariția nucleazei cu deget de zinc (ZFN) și a nucleazei tale (TALEN) a accelerat foarte mult progresul în acest domeniu, dar eficiența lor este adesea imprevizibilă și este dificil de a ținti genele selectate .
Recent, s-a raportat că Cas9/CRISPR induce cu succes întreruperea genei țintite și recombinarea omoloagă atât în celulele procariote, cât și în cele eucariote, cu o eficiență mai mare în comparație cu ZFN și TALEN . În plus, este mai ușor de proiectat secvența ghid și ușor de utilizat pentru sistemul Cas9/CRISPR . Această tehnologie nouă va avea un mare potențial de aplicare atât în domeniul cercetării, cât și în studiile clinice.
Cu toate acestea, nu există niciun instrument disponibil pentru proiectarea ARN-ului ghid al sistemului de silențiere Cas9/CRISPR. Deși Mali et al. au raportat construirea unei biblioteci unice de ARN ghid pentru întregul genom uman, care acoperă mai mult de 40% din exonii umani , aceștia nu au oferit un instrument pentru cercetători pentru a proiecta secvențe țintă noi pentru alte organisme model.
Biblioteca existentă nu a luat în considerare, de asemenea, factorii de influență conexe, cum ar fi SNP, deleția sau inserția pe genom și structura secundară potențială a ARN-ului. Conform înțelegerii noastre actuale a procesului de maturare a ARNg, structura secundară a ARNg este crucială pentru complexul Cas9-ARNg . Secvența de 20 bp a ARN-ului ghid este utilizată pentru a se lega de situl țintă din genomuri. În cazul în care acestea sunt în mare parte implicate în bucle de ARN, eficiența de a se lega de site-urile țintă ar fi scăzută. Astfel, acest factor ar trebui luat în considerare. În plus, eficiența interferenței este probabil strâns legată de temperatura de topire a hibridului ARNg-ADN. Un conținut relativ ridicat de AT este corelat negativ cu efectul off-target și, prin urmare, secvența cu un procent extrem de scăzut de AT este, într-o anumită măsură, nerecomandată .
Așa, am dezvoltat o platformă online pentru proiectarea ARN ghid al sistemului de reducere la tăcere Cas9/CRISPR (http://cas9.cbi.pku.edu.cn/), cu informații integrate despre variantele de ADN. Acest instrument ajută cercetătorii să își proiecteze mai ușor secvențele de ARN ghid candidate și oferă asistență utilizatorilor pentru a alege candidați mai buni pe baza rezultatelor preliminare.
2. Materiale și metode
Atât secvențele de ARN ghid, cât și eficiența lor corespunzătoare au fost colectate manual din literatura de specialitate și stocate în baza noastră de date. Pentru proiectarea ARN ghid, am utilizat un cadru Java care conține în principal 5 etape și care se conectează la serverul web Tomcat.
În prima etapă, programul ar găsi orice secvență candidată pe baza principiului modelului de secvență N20NGG, unde NGG reprezintă secvența PAM, prin utilizarea corespondenței expresiilor regulate Java. În a doua etapă, programul ar pune toate secvențele candidate într-un fișier fasta și ar rula bowtie 0.12.9 pentru a verifica dacă acestea pot fi cartografiate pe genomul organismului model selectat în mod unic . Parametrii pentru bowtie au fost „-f -v 1 -k 10 -l 16 -S”, deoarece „-f” îi spunea lui bowtie că intrarea este un fișier fasta, „-v 1” pentru a permite cel mult o singură neconcordanță, „-k 10” pentru a raporta până la 10 alinieri bune, „-l 16” pentru a seta lungimea semințelor la 16, iar „-S” pentru a ieși în format sam. Având în vedere că lungimea regiunii țintă a fost de numai 23 bp, lungimea implicită a semințelor de 28 pentru bowtie nu a fost adecvată pentru această sarcină, așa că am ajustat-o la 16. Ne-am gândit că numărul de neconcordanțe ar putea afecta în mare măsură eficiența, iar această etapă s-a axat în principal pe verificarea unicității cartografierii, așa că am căutat doar rezultate cu cel mult o neconcordanță și am generat cel mult 10 rezultate. Rezultatul cartografierii ar fi analizat în Java, iar apoi, în cea de-a treia etapă, ar fi apelat tabix 0.2.5 pentru a afla orice SNP sau indels suprapuse, așa cum sunt raportate în dbSNP135 , dacă genomul țintă era hg19 uman. Fișierul dbSNP135 vcf a fost descărcat din pachetul GATK. În al patrulea pas, s-ar prezice structurile secundare de ARN pentru acele secvențe de ARNg candidate prin apelarea Vienna RNAfold 2.0.7 cu parametrii impliciți . În ultimul pas, programul a rearanjat toate informațiile pentru gRNA-ul proiectat și le-a formatat în HTML mai bine aspectat. S-a calculat, de asemenea, AT% și distanța variantelor față de capătul 3′ al regiunii țintă. GRNA-urile de ieșire au fost sortate atât după numărul de rezultate de cartografiere, cât și după numărul de SNP-uri suprapuse. Consumul de timp pentru acest pipeline a constat în principal în rularea bowtie și, uneori, tabix, atunci când existau multe secvențe țintă, și a fost de aproximativ trei secunde pentru o secvență de interogare.
3. Rezultate și discuții
Secvențele de gene multiple sunt permise pentru proiectarea de gRNA pe loturi, iar linia de flux a acestei platforme este prezentată în figura 1. Rezultatele conțin informații despre loci genomici ale gRNA-urilor și SNP/INDEL din interiorul acestora. Acest lucru ar ajuta cercetătorii să aleagă un candidat țintă mai unic și să evite SNP/inserție/deleție. În plus, această platformă evaluează toți candidații pe baza structurii secundare a ARN-ului și a conținutului de AT, permițând utilizatorilor să aleagă candidați mai buni (figura 2).
Strategia platformei de proiectare a ARN ghid. Secvențele țintă sunt căutate pentru întregul genom pentru unicitate, iar apoi se verifică statutul SNP/indel. Rezultatele sunt afișate de sus în jos, de sus în jos, cu mai multe SNP/indel unice și mai puține SNP/indel. Întreaga structură secundară a ARNg este, de asemenea, dată ca referință.
Instrucțiuni privind funcția platformei. Prezentare generală a interfeței platformei. (A)-(C) reprezintă funcțiile și baza de date. (D) reprezintă informațiile de sens/antisens și poziția secvențelor de ieșire pe secvențele țintă. (E) reprezintă unicitatea și statutul SNP/indel. (F) reprezintă structura secundară a gRNA-ului matur.
Recent, Jiang et al. raportează că numai primele șase perechi de baze din apropierea PAM sunt de mare importanță pentru eficiența recunoașterii în bacterii . Nu se știe dacă acest lucru este sau nu încă valabil pentru celulele eucariote sau chiar pentru celulele mamiferelor. Vom continua să actualizăm algoritmul nostru pentru a clasifica gRNA-urile candidate.
Am efectuat o validare prin utilizarea acelor rezultate raportate în platforma noastră privind factorii, cum ar fi unicitatea, SNP și baza în bucle (tabelul 1, fontul italic reprezintă ținte cu eficiență scăzută). Cu cât este mai unic, cu mai puține SNP și baze în bucle, în general, ARNg este mai eficient. Pentru gena PVALB dată, prima secvență țintă este cu 50% mai eficientă decât celelalte două, deoarece prima are 0 SNP, în timp ce restul au 3 sau 2 SNP. Prima secvență țintă are mai puține perechi de baze implicate în buclele structurii secundare a ARN-ului, ceea ce îi permite să se lege mai mult de genomul țintă, în timp ce celelalte două secvențe au ambele 9 perechi de baze în bucle. Pentru gena AAVS1 dată, prima țintă este de peste două ori mai eficientă decât cealaltă, deoarece cealaltă are un situs în afara țintei în genom. Pentru gena dată VEGFA, prima țintă este aproape pe jumătate mai eficientă decât celelalte două, deoarece aceasta are 1 SNP, în timp ce celelalte nu au niciunul.
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ND reprezintă nedetectabil. Fontul italic reprezintă ARNg cu eficiență scăzută în cadrul aceluiași grup de gene. |
Conținutul de AT este un factor crucial ca și cele menționate anterior, deoarece dovezile nu sunt clare. Astfel, îl enumerăm aici ca o considerație pentru utilizatori.
4. Concluzii
Platforma noastră este un software ușor de utilizat pentru a identifica potențiale situsuri eficiente de gRNA în cadrul unor secvențe date pentru organisme model, evitând efectele în afara țintei și SNP-urile. Această platformă permite, de asemenea, utilizatorilor să caute secvențe existente de ARN ghid/protospațiu și să își împărtășească rezultatele. Am extras manual cele mai multe secvențe de gRNA/protospacer raportate în baza noastră de date pentru referință și o vom extinde cu lucrările nou publicate.
Divulgare
Platforma online, baza de date și documentul sunt disponibile la http://cas9.cbi.pku.edu.cn/.
Contribuția autorilor
Ming Ma și Adam Y. Ye au contribuit în mod egal la această lucrare. Ming Ma a conceput ideea, iar Adam Y. Ye, Weiguo Zheng au realizat programarea și construcția site-ului web. Lei Kong a supravegheat întreaga lucrare și a oferit îndrumări. Ming Ma, Adam Y. Ye și Lei Kong au redactat lucrarea.
.