Abstrakt
Bylo zjištěno, že systém Cas9/CRISPR účinně vyvolává cílené narušení genů a homologní rekombinaci v prokaryotických i eukaryotických buňkách. Proto jsme vyvinuli platformu pro návrh sekvence vodicí RNA pro systém umlčování Cas9/CRISPR pro modelové organismy. Platforma se snadno používá pro návrh gRNA se vstupními dotazovacími sekvencemi. Vyhledává potenciální cíle pomocí PAM a řadí je podle faktorů včetně jedinečnosti, SNP, sekundární struktury RNA a obsahu AT. Platforma umožňuje uživatelům nahrávat a sdílet výsledky svých experimentů. Kromě toho byla do naší databáze vložena většina sekvencí vodicích RNA z publikovaných článků.
1. Úvod
Technologie genového inženýrství byla vždy horkým tématem ve výzkumu věd o živé přírodě. S rozvojem technologie genových modifikací lze některé geny vyřadit nebo srazit na nižší úroveň. Objevení nukleázy zinkových prstů (ZFN) a tale nukleázy (TALEN) značně urychlilo pokrok v této oblasti, ale jejich účinnost je často nepředvídatelná a je obtížné zacílit vybrané geny .
Nedávno bylo oznámeno, že Cas9/CRISPR úspěšně vyvolává cílené narušení genů a homologní rekombinaci v prokaryotických i eukaryotických buňkách s vyšší účinností ve srovnání se ZFN a TALEN . Kromě toho je pro systém Cas9/CRISPR jednodušší navrhnout vodicí sekvenci a snadno se používá . Tato nová technologie bude mít velký potenciál pro použití jak v oblasti výzkumu, tak v klinických studiích.
Neexistuje však žádný dostupný nástroj pro návrh vodicí RNA systému Cas9/CRISPR pro umlčování. Ačkoli Mali a spol. oznámili konstrukci unikátní knihovny vodicích RNA celého lidského genomu, která pokrývá více než 40 % lidských exonů , neposkytli výzkumníkům nástroj pro návrh nových cílových sekvencí pro jiné modelové organismy.
Existující knihovna také nezohledňovala související ovlivňující faktory, jako jsou SNP, delece nebo inzerce v genomu a potenciální sekundární struktura RNA. Podle našich současných znalostí procesu zrání gRNA je sekundární struktura gRNA pro komplex Cas9-gRNA klíčová . Sekvence 20 bp vodicí RNA se používá k vazbě s cílovým místem v genomech. Pokud jsou většinou zapojeny do smyček RNA, účinnost vazby s cílovými místy by byla nízká. Tento faktor by tedy měl být brán v úvahu. Kromě toho účinnost interference pravděpodobně úzce souvisí s teplotou tání hybridu gRNA-DNA. Relativně vysoký obsah AT negativně koreluje s účinkem mimo cíl, a proto se sekvence s extrémně nízkým podílem AT do jisté míry nedoporučuje .
Vyvinuli jsme tedy online platformu pro návrh vodicí RNA systému Cas9/CRISPR pro umlčování (http://cas9.cbi.pku.edu.cn/) s integrovanou informací o variantách DNA. Tento nástroj pomáhá výzkumným pracovníkům snadněji navrhovat jejich kandidátní sekvence vodicích RNA a poskytuje uživatelům pomoc při výběru lepších kandidátů na základě předběžných výsledků.
2. Materiály a metody
Obě sekvence vodicích RNA a jejich odpovídající účinnost byly ručně shromážděny z literatury a uloženy v naší databázi. Pro návrh vodicí RNA jsme použili framework v jazyce Java obsahující především 5 kroků a připojení k webovému serveru Tomcat.
V prvním kroku by program našel všechny kandidátní sekvence založené na principu sekvenčního vzoru N20NGG, kde NGG představuje sekvenci PAM, pomocí porovnávání regulárních výrazů v jazyce Java. Ve druhém kroku by program vložil všechny kandidátní sekvence do souboru fasta a spustil by program bowtie 0.12.9, aby ověřil, zda je lze jednoznačně namapovat na genom vybraného modelového organismu . Parametry pro bowtie byly „-f -v 1 -k 10 -l 16 -S“, protože „-f“ říkalo bowtie, že vstupem je soubor fasta, „-v 1“ pro povolení pouze maximálně jedné neshody, „-k 10“ hlásilo až 10 dobrých zarovnání, „-l 16“ nastavilo délku seedu na 16 a „-S“ vypisovalo formát sam. Protože délka cílové oblasti byla pouze 23 bp, výchozí délka seedu 28 pro bowtie nebyla pro tuto úlohu vhodná, proto jsme ji upravili na 16. Domnívali jsme se, že počet neshod může do značné míry ovlivnit účinnost, a tento krok se zaměřil hlavně na kontrolu jedinečnosti mapování, takže jsme pouze hledali shody s nejvýše jednou neshodou a vypsali nejvýše 10 shod. Výsledek mapování by se analyzoval v jazyce Java a poté by se ve třetím kroku zavolal tabix 0.2.5, aby se zjistily všechny překrývající se SNP nebo indely podle údajů v dbSNP135 , pokud byl cílovým genomem lidský hg19. Soubor dbSNP135 vcf byl stažen z balíčku GATK. Ve čtvrtém kroku by předpověděl sekundární struktury RNA pro tyto kandidátní sekvence gRNA voláním Vienna RNAfold 2.0.7 s výchozími parametry . V posledním kroku program uspořádal všechny informace pro navržené gRNA a zformátoval je do lépe vypadajícího HTML. Bylo také vypočteno AT% a vzdálenost variant od 3′ konce cílové oblasti. Výstupní gRNA byly seřazeny podle počtu mapovacích hitů i podle počtu překrývajících se SNP. Časová náročnost této pipeline spočívala především ve spuštění bowtie a někdy tabixu, když existovalo mnoho cílových sekvencí, a činila zhruba asi tři sekundy na jednu dotazovací sekvenci.
3. Výsledky a diskuse
Pro dávkový návrh gRNA je povoleno více genových sekvencí a streamline této platformy je znázorněn na obrázku 1. Výsledky obsahují informace o genomických lokusech gRNA a SNP/INDEL uvnitř nich. To by výzkumným pracovníkům pomohlo vybrat jedinečnějšího kandidáta na cíl a vyhnout se SNP/inserci/deleci. Tato platforma navíc vyhodnocuje všechny kandidáty na základě jejich sekundární struktury RNA a obsahu AT, což uživatelům umožňuje vybrat lepší kandidáty (Obrázek 2).
Streamline of guide RNA design platform. Cílové sekvence se prohledají pro celý genom z hlediska jedinečnosti a poté se zkontroluje stav SNP/indelů. Výsledky jsou vyvedeny shora dolů s větším počtem jedinečných a menším počtem SNP/indelů. Jako reference je uvedena také celá sekundární struktura gRNA.
Instrukce funkce platformy. Přehled rozhraní platformy. (A)-(C) představují funkce a databázi. (D) představuje informace o smyslu/antismyslu a poloze výstupních sekvencí na cílových sekvencích. (E) představuje jedinečnost a stav SNP/indel. (F) představuje sekundární strukturu zralé gRNA.
Nedávno Jiang a kol. uvedli, že pro účinnost rozpoznávání u bakterií má velký význam pouze prvních šest párů bází v blízkosti PAM . Není známo, zda je tomu tak i v případě eukaryotických nebo dokonce savčích buněk. Náš algoritmus pro hodnocení kandidátních gRNA budeme průběžně aktualizovat.
Provedli jsme validaci pomocí uvedených výsledků v naší platformě na základě faktorů, jako je jedinečnost, SNP a báze ve smyčkách (tabulka 1, kurzivní písmo představuje cíle s nízkou účinností). Čím unikátnější, s menším počtem SNP a bází ve smyčkách, tím je gRNA obecně účinnější. Pro daný gen PVALB je první cílová sekvence o 50 % účinnější než zbylé dvě, protože první má 0 SNP, zatímco ostatní mají 3 nebo 2 SNP. První cílová sekvence má méně párů bází zapojených do smyček sekundární struktury RNA, což jí umožňuje více se vázat s cílovým genomem, zatímco obě zbývající mají ve smyčkách 9 párů bází. Pro daný gen AAVS1 je první cílová sekvence více než dvakrát účinnější než druhá, protože druhá má v genomech necílové místo. Pro daný gen VEGFA je první cíl přibližně dvakrát účinnější než zbylé dva, protože má 1 SNP, zatímco ostatní nemají žádný.
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ND představuje nedetekovatelné. Kurzivní písmo představuje málo účinné gRNA v rámci stejné skupiny genů. |
Obsah AT je rozhodujícím faktorem jako ty dříve uvedené, protože důkazy nejsou jednoznačné. Proto jej zde uvádíme jako faktor, který by měli uživatelé zvážit.
4. Závěry
Naše platforma je snadno použitelný software pro identifikaci potenciálně účinných míst gRNA v rámci daných sekvencí pro modelové organismy, přičemž se vyhneme účinkům mimo cíl a SNP. Tato platforma také umožňuje uživatelům vyhledávat existující sekvence vodicích RNA/protospacerů a sdílet jejich výsledky. Většinu nahlášených sekvencí gRNA/protospacerů jsme ručně extrahovali do naší databáze pro referenci a budeme ji rozšiřovat o nově publikované práce.
Zveřejnění
On-line platforma, databáze a dokument jsou k dispozici na adrese http://cas9.cbi.pku.edu.cn/.
Příspěvek autorů
Ming Ma a Adam Y. Ye se na této práci podíleli rovným dílem. Ming Ma přišel s nápadem a Adam Y. Ye, Weiguo Zheng provedli programování a konstrukci webových stránek. Lei Kong na celou práci dohlížel a poskytoval poradenství. Ming Ma, Adam Y. Ye a Lei Kong vypracovali návrh článku.
.