Abstract
Cas9/CRISPR-järjestelmän on raportoitu aiheuttavan tehokkaasti kohdennettuja geenihäiriöitä ja homologista rekombinaatiota sekä prokaryoottisissa että eukaryoottisissa soluissa. Niinpä kehitimme Cas9/CRISPR-vaimennusjärjestelmälle Cas9/CRISPR-malliorganismien ohjaavan RNA-jaksosuunnittelualustan (Guide RNA Sequence Design Platform for Cas9/CRISPR silencing system for model organisms). Alustaa on helppo käyttää gRNA-suunnitteluun syötetyillä kyselysekvensseillä. Se löytää potentiaaliset kohteet PAM:n avulla ja asettaa ne paremmuusjärjestykseen tekijöiden, kuten ainutlaatuisuuden, SNP:n, RNA:n sekundäärirakenteen ja AT-pitoisuuden mukaan. Alustan avulla käyttäjät voivat ladata ja jakaa koetuloksiaan. Lisäksi suurin osa julkaistujen artikkelien opas-RNA-sekvensseistä on laitettu tietokantaamme.
1. Johdanto
Geenitekniikka on aina ollut kuuma aihe biotieteellisessä tutkimuksessa. Geenimuuntelutekniikan kehittymisen myötä tietyt geenit voidaan tyrmätä tai pudottaa alemmalle tasolle. Sinkkisormi-nukleaasin (ZFN) ja tale-nukleaasin (TALEN) ilmaantuminen on kiihdyttänyt huomattavasti edistystä tällä alalla, mutta niiden tehokkuus on usein arvaamaton ja valittujen geenien kohdentaminen on vaikeaa .
Viime aikoina on raportoitu, että Cas9 / CRISPR on menestyksekkäästi indusoinut kohdennettua geenin häirintää ja homologista rekombinaatiota sekä prokaryoottisissa että eukaryoottisissa soluissa korkeammalla tehokkuudella verrattuna ZFN: iin ja TALENiin . Lisäksi Cas9/CRISPR-järjestelmän ohjaussekvenssi on helpompi suunnitella ja sitä on helppo käyttää. Tällä uudella teknologialla on suuri potentiaali sovellettavaksi sekä tutkimusalalla että kliinisissä tutkimuksissa.
Mutta Cas9/CRISPR-vaimennusjärjestelmän opas-RNA:n suunnitteluun ei ole saatavilla työkalua. Vaikka Mali et al. ovat raportoineet ainutlaatuisen koko ihmisen genomin opas-RNA-kirjaston rakentamisesta, joka kattaa yli 40 % ihmisen eksoneista, he eivät tarjonneet tutkijoille työkalua uusien kohdesekvenssien suunnitteluun muille malliorganismeille.
Olemassa oleva kirjasto ei myöskään ottanut huomioon asiaan liittyviä vaikuttavia tekijöitä, kuten SNP:tä, deletio- tai insertiosekvenssejä genomissa ja potentiaalista RNA:n toissijaista rakennetta. Nykyisen gRNA:n kypsymisprosessia koskevan käsityksemme mukaan gRNA:n sekundaarirakenne on ratkaisevan tärkeä Cas9-gRNA-kompleksille . 20 bp:n opas-RNA-sekvenssiä käytetään sitoutumaan kohdekohtaan genomissa. Jos ne ovat enimmäkseen mukana RNA-silmukoissa, tehokkuus sitoutua kohdekohtiin olisi alhainen. Näin ollen tämä tekijä olisi otettava huomioon. Lisäksi interferenssitehokkuus liittyy todennäköisesti läheisesti gRNA-DNA-hybridin sulamislämpötilaan. Suhteellisen korkea AT-pitoisuus korreloi negatiivisesti off-target-vaikutuksen kanssa, ja näin ollen sekvenssi, jossa AT-prosenttiosuus on erittäin alhainen, ei ole jossain määrin suositeltava .
Näin ollen kehitimme verkkoalustan Cas9/CRISPR-vaimennusjärjestelmän opas-RNA:n suunnittelua varten (http://cas9.cbi.pku.edu.cn/), johon on integroitu DNA-varianttitietoja. Tämä työkalu auttaa tutkijoita suunnittelemaan kandidaattiensa opas-RNA-sekvenssejä helpommin ja tarjoaa käyttäjille apua parempien ehdokkaiden valinnassa alustavien tulosten perusteella.
2. Materiaalit ja menetelmät
Kumpikin opas-RNA-sekvenssi ja niitä vastaava tehokkuus kerättiin manuaalisesti kirjallisuudesta ja tallennettiin tietokantaamme. Opas-RNA:n suunnitteluun käytimme Java-kehystä, joka sisälsi pääasiassa 5 vaihetta ja joka oli yhteydessä Tomcat-verkkopalvelimeen.
Ensimmäisessä vaiheessa ohjelma löytäisi kaikki kandidaattisekvenssit N20NGG-sekvenssikuvion periaatteen perusteella, jossa NGG edustaa PAM-sekvenssiä, hyödyntämällä Javan säännöllistä lausekesovitusta. Toisessa vaiheessa ohjelma laittaisi kaikki kandidaattisekvenssit fasta-tiedostoon ja suorittaisi bowtie 0.12.9:n tarkistaakseen, voitaisiinko ne kartoittaa valitun malliorganismin genomiin yksiselitteisesti . Bowtie-ohjelman parametrit olivat ”-f -v 1 -k 10 -l 16 -S”, sillä ”-f” kertoi Bowtie-ohjelmalle, että syötteenä oli fasta-tiedosto, ”-v 1” sallii vain korkeintaan yhden yhteensopimattomuuden, ”-k 10” raportoi enintään 10 hyvää kohdistusta, ”-l 16” asetti siemenen pituuden 16:een ja ”-S” antoi tulosteen sam-muodossa. Koska kohdealueen pituus oli vain 23 bp, bowtie-ohjelman oletussiemenen pituus 28 ei ollut sopiva tähän työhön, joten säädimme sen arvoksi 16. Ajattelimme, että epäsuhtien määrä saattaa vaikuttaa suuresti tehokkuuteen, ja tässä vaiheessa keskityttiin pääasiassa kartoituksen ainutlaatuisuuden tarkistamiseen, joten etsimme vain osumia, joissa oli enintään yksi epäsuhta, ja tuotimme enintään 10 osumaa. Kartoitustulos jäsennettäisiin Javassa, minkä jälkeen kolmannessa vaiheessa kutsuttaisiin tabix 0.2.5 -ohjelmaa löytääkseen kaikki päällekkäiset SNP:t tai indelit, jotka on raportoitu dbSNP135 -tietokannassa, jos kohdegenomi oli ihmisen hg19. dbSNP135 vcf-tiedosto ladattiin GATK-paketista. Neljännessä vaiheessa se ennustaisi RNA:n sekundäärirakenteet näille gRNA-ehdokkaille kutsumalla Vienna RNAfold 2.0.7:ää oletusparametreilla . Viimeisessä vaiheessa ohjelma järjesteli uudelleen kaikki suunnitellun gRNA:n tiedot ja muotoili ne paremman näköiseksi HTML:ksi. Lisäksi laskettiin AT-% ja varianttien etäisyys kohdealueen 3′-päähän. Tuloksena saadut gRNA:t lajiteltiin sekä kartoitusosumien määrän että päällekkäisten SNP:iden määrän mukaan. Tämän putken ajankulutus oli lähinnä bowtie- ja joskus tabix-ohjelman ajaminen, kun kohdesekvenssejä oli paljon, ja se oli noin kolme sekuntia yhtä kyselysekvenssiä kohti.
3. Tulokset ja keskustelu
Eräeräisessä gRNA-suunnittelussa sallitaan useita geenisekvenssejä, ja tämän alustan virtaviiva on esitetty kuvassa 1. Tulokset sisältävät gRNA:iden ja niiden sisällä olevien SNP:iden/INDEL:ien genomilokusten tiedot. Tämä auttaisi tutkijoita valitsemaan ainutlaatuisemman kohde-ehdokkaan ja välttämään SNP/insertion/deletion. Lisäksi tämä alusta arvioi kaikki ehdokkaat niiden RNA:n sekundäärirakenteen ja AT-pitoisuuden perusteella, jolloin käyttäjät voivat valita parempia ehdokkaita (kuva 2).
Ohjaavan RNA:n suunnittelualustan virtaviiva. Kohdesekvenssit etsitään koko genomista ainutlaatuisuuden varalta, minkä jälkeen tarkistetaan SNP/indel-status. Tulokset tulostetaan ylhäältä alaspäin, jossa on enemmän uniikkeja ja vähemmän SNP/indel-sekvenssejä. Koko gRNA:n sekundäärirakenne annetaan myös viitteenä.
Alustan toiminnon ohjeistus. Yleiskatsaus alustan käyttöliittymään. (A)-(C) edustavat toimintoja ja tietokantaa. (D) edustaa tulosekvenssien sense/antisense- ja sijaintitietoja kohdesekvensseissä. (E) edustaa yksikäsitteisyyttä ja SNP/indel-statusta. (F) edustaa kypsää gRNA:n sekundaarirakennetta.
Jiang et al. raportoivat hiljattain, että vain kuudella ensimmäisellä emäsparilla PAM:n läheisyydessä on suuri merkitys tunnistustehokkuuden kannalta bakteereissa . Ei tiedetä, päteekö tämä edelleen eukaryoottisoluissa tai jopa nisäkässoluissa. Päivitämme jatkuvasti algoritmiamme ehdokkaiden gRNA:iden sijoittamiseksi paremmuusjärjestykseen.
Suoritimme validoinnin käyttämällä näitä raportoituja tuloksia alustassamme tekijöihin, kuten ainutlaatuisuuteen, SNP:hen ja silmukoissa oleviin emäspareihin (taulukko 1, kursiivilla kirjoitettu fontti edustaa vähän tehokkaita kohteita). Mitä ainutlaatuisempi, vähemmän SNP:tä ja emästä silmukoissa, yleensä gRNA on tehokkaampi. Kun kyseessä on PVALB-geeni, ensimmäinen kohdesekvenssi on 50 prosenttia tehokkaampi kuin kaksi muuta, koska ensimmäisessä on 0 SNP:tä, kun taas muissa on 3 tai 2 SNP:tä. Ensimmäisessä kohdesekvenssissä on vähemmän emäspareja RNA:n sekundäärirakenteen silmukoissa, jolloin se voi sitoutua enemmän kohdegeeniin, kun taas kahdessa muussa sekvenssissä on molemmissa 9 emäsparia silmukoissa. Tietyn geenin AAVS1 osalta ensimmäinen kohdesekvenssi on yli kaksi kertaa tehokkaampi kuin muut, koska muilla on genomissa off-target-kohta. Tietyn geenin VEGFA osalta ensimmäinen on noin puolet tehokkaampi kuin kaksi muuta, koska sillä on yksi SNP, kun taas muilla ei ole yhtään.
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ND tarkoittaa ei havaittavissa. Kursivoitu fontti edustaa vähän tehokkaita gRNA:ita saman geeniryhmän sisällä. |
AT-pitoisuus on ratkaiseva tekijä, kuten aiemmin mainitut, koska todisteet eivät ole selkeitä. Niinpä listaamme sen tässä käyttäjien harkittavaksi.
4. Johtopäätökset
Alustamme on helppokäyttöinen ohjelmisto, jonka avulla voidaan tunnistaa potentiaalisia tehokkaita gRNA-kohteita annetuista sekvensseistä malliorganismien osalta välttäen off-target-vaikutukset ja SNP:t. Alustan avulla käyttäjät voivat myös etsiä olemassa olevia guide RNA/protospacer-sekvenssejä ja jakaa tuloksiaan. Olemme manuaalisesti poimineet useimmat raportoidut gRNA/protospacer-sekvenssit tietokantaamme viitteeksi ja laajennamme sitä uusilla julkaistuilla töillä.
Julkistaminen
Verkkoalusta, tietokanta ja dokumentti ovat saatavilla osoitteessa http://cas9.cbi.pku.edu.cn/.
Tekijöiden kontribuutio
Ming Ma ja Adam Y. Ye osallistuivat tasapuolisesti tähän työhön. Ming Ma ideoi idean ja Adam Y. Ye, Weiguo Zheng suorittivat ohjelmoinnin ja verkkosivuston rakentamisen. Lei Kong valvoi koko työtä ja antoi ohjeita. Ming Ma, Adam Y. Ye ja Lei Kong laativat artikkelin.