Abstract
Cas9/CRISPR został zgłoszony do wydajnego indukowania ukierunkowanego przerwania genu i rekombinacji homologicznej zarówno w komórkach prokariotycznych jak i eukariotycznych. W związku z tym, opracowaliśmy platformę projektowania sekwencji prowadzącego RNA dla systemu wyciszania Cas9/CRISPR dla organizmów modelowych. Platforma jest łatwa w użyciu do projektowania gRNA z wejściowymi sekwencjami zapytań. Wyszukuje ona potencjalne cele za pomocą PAM i szereguje je według czynników takich jak unikalność, SNP, struktura drugorzędowa RNA i zawartość AT. Platforma pozwala użytkownikom na przesyłanie i udostępnianie swoich wyników eksperymentalnych. Ponadto, większość sekwencji RNA prowadzących z opublikowanych prac została umieszczona w naszej bazie danych.
1. Wprowadzenie
Technologia inżynierii genowej zawsze była gorącym tematem w badaniach nauk przyrodniczych. Wraz z rozwojem technologii modyfikacji genów, niektóre geny mogą być znokautowane lub znokautowane do niższego poziomu. Pojawienie się zinc finger nuclease (ZFN) i tale nuclease (TALEN) znacznie przyspieszyło postęp w tej dziedzinie, ale ich skuteczność jest często nieprzewidywalna i trudno jest celować w wybrane geny .
Ostatnio doniesiono, że Cas9/CRISPR z powodzeniem wywołuje ukierunkowane przerwanie genu i rekombinację homologiczną zarówno w komórkach prokariotycznych, jak i eukariotycznych z wyższą wydajnością w porównaniu z ZFN i TALEN . Ponadto, łatwiej jest zaprojektować sekwencję prowadzącą i jest ona łatwa w użyciu dla systemu Cas9/CRISPR. Ta nowa technologia ma ogromny potencjał do zastosowania zarówno w badaniach naukowych jak i klinicznych.
Jednakże nie ma dostępnego narzędzia do projektowania RNA prowadzącego w systemie wyciszania Cas9/CRISPR. Chociaż Mali i wsp. zgłosili budowę unikalnej biblioteki RNA prowadzącego dla całego ludzkiego genomu, obejmującej ponad 40% ludzkich eksonów, nie dostarczyli narzędzia dla badaczy do projektowania nowych sekwencji docelowych dla innych organizmów modelowych.
Istniejąca biblioteka nie uwzględnia również powiązanych czynników wpływających, takich jak SNP, delecje lub insercje w genomie oraz potencjalna struktura wtórna RNA. Zgodnie z naszym obecnym rozumieniem procesu dojrzewania gRNA, struktura drugorzędowa gRNA jest kluczowa dla kompleksu Cas9-gRNA. Sekwencja 20 bp prowadzącego RNA jest używana do wiązania się z miejscem docelowym w genomie. Jeśli są one w większości zaangażowane w pętle RNA, wydajność wiązania się z miejscami docelowymi będzie niska. Dlatego ten czynnik powinien być brany pod uwagę. Poza tym, efektywność interferencji jest prawdopodobnie ściśle związana z temperaturą topnienia hybrydy gRNA-DNA. Stosunkowo wysoka zawartość AT jest negatywnie skorelowana z efektem off-target, a zatem sekwencja z ekstremalnie niskim odsetkiem AT jest w pewnym stopniu niezalecana
W związku z tym opracowaliśmy platformę online do projektowania RNA przewodnika systemu wyciszania Cas9/CRISPR (http://cas9.cbi.pku.edu.cn/), ze zintegrowaną informacją o wariantach DNA. Narzędzie to pomaga badaczom łatwiej zaprojektować sekwencje RNA przewodnika i zapewnia użytkownikom pomoc w wyborze lepszych kandydatów na podstawie wstępnych wyników.
2. Materiały i metody
Sekwencje RNA przewodnika i odpowiadające im wydajności zostały ręcznie zebrane z literatury i zapisane w naszej bazie danych. Do zaprojektowania przewodnika RNA użyliśmy szkieletu Java, zawierającego głównie 5 kroków i łączącego się z serwerem Tomcat.
W pierwszym kroku program znalazłby dowolne sekwencje kandydujące w oparciu o zasadę wzorca sekwencji N20NGG, gdzie NGG reprezentuje sekwencję PAM, wykorzystując dopasowanie wyrażeń regularnych w Javie. W drugim kroku program umieszczał wszystkie sekwencje kandydujące w pliku fasta i uruchamiał program bowtie 0.12.9 w celu sprawdzenia, czy mogą być one jednoznacznie zmapowane na genomie wybranego organizmu modelowego. Parametrami bowtie były „-f -v 1 -k 10 -l 16 -S”, jako że „-f” mówiło bowtie, że wejściem jest plik fasta, „-v 1” pozwalało na najwyżej jedno niedopasowanie, „-k 10” informowało o maksymalnie 10 dobrych dopasowaniach, „-l 16” ustawiało długość ziarna na 16, a „-S” wysyłało dane w formacie sam. Ponieważ długość regionu docelowego wynosiła tylko 23 bp, domyślna długość ziarna 28 dla bowtie nie była odpowiednia dla tego zadania, więc zmieniliśmy ją na 16. Uznaliśmy, że liczba niedopasowań może w dużym stopniu wpłynąć na efektywność, a ten krok koncentrował się głównie na sprawdzeniu unikalności mapowania, więc szukaliśmy tylko trafień z co najwyżej jednym niedopasowaniem i wyprowadzaliśmy co najwyżej 10 trafień. Wynik mapowania zostałby przetworzony w Javie, a następnie, w trzecim kroku, zostałby wywołany tabix 0.2.5 w celu znalezienia wszelkich nakładających się SNP lub indeli zgłoszonych w dbSNP135 , jeśli genomem docelowym był ludzki hg19. Plik dbSNP135 vcf został pobrany z pakietu GATK. W czwartym kroku program przewidywał struktury drugorzędowe RNA dla tych kandydujących sekwencji gRNA poprzez wywołanie Vienna RNAfold 2.0.7 z domyślnymi parametrami. W ostatnim kroku program zmieniał kolejność wszystkich informacji dla zaprojektowanego gRNA i formatował je do lepiej wyglądającego HTML. Obliczono również AT% oraz odległość wariantów do 3′ końca regionu docelowego. Wyjściowe gRNA zostały posortowane zarówno według liczby trafień mapujących, jak i liczby nakładających się SNP. Zużycie czasu dla tego potoku polegało głównie na uruchomieniu bowtie i czasami tabix, gdy istniało wiele sekwencji docelowych, i wynosiło około trzech sekund dla jednej sekwencji zapytania.
3. Wyniki i dyskusja
Wielokrotne sekwencje genów są dozwolone dla wsadowego projektowania gRNA, a linia potoku tej platformy jest pokazana na Rysunku 1. Wyniki zawierają informacje o genomowych loci gRNA i SNP/INDEL wewnątrz nich. Pomogłoby to badaczom wybrać bardziej unikalnego kandydata na cel i uniknąć SNP/insercji/delecji. Co więcej, platforma ta ocenia wszystkich kandydatów na podstawie ich struktury drugorzędowej RNA i zawartości AT, umożliwiając użytkownikom wybór lepszych kandydatów (Rysunek 2).
Streamline of guide RNA design platform. Sekwencje docelowe są przeszukiwane w całym genomie pod kątem unikalności, a następnie sprawdzany jest status SNP/indel. Wyniki są wyprowadzane od góry do dołu z większą liczbą unikalnych i mniejszą liczbą SNP/indel. Cała struktura drugorzędowa gRNA jest również podawana jako odniesienie.
Instrukcja funkcji platformy. Przegląd interfejsu platformy. (A)-(C) przedstawiają funkcje i bazę danych. (D) reprezentuje sens/antysens i informacje o położeniu sekwencji wyjściowych na sekwencjach docelowych. (E) przedstawia unikalność i status SNP/indel. (F) przedstawia strukturę drugorzędową dojrzałego gRNA.
Ostatnio Jiang et al. donoszą, że tylko pierwsze sześć par zasad w pobliżu PAM ma duże znaczenie dla efektywności rozpoznawania u bakterii. Nie wiadomo, czy tak jest nadal w przypadku komórek eukariotycznych, a nawet ssaków. Będziemy nadal aktualizować nasz algorytm, aby uszeregować kandydatów gRNA.
Przeprowadziliśmy walidację, używając tych zgłoszonych wyników w naszej platformie na czynniki, takie jak unikalność, SNP i baza w pętlach (Tabela 1, kursywna czcionka reprezentuje mało wydajne cele). Im bardziej unikalny, z mniejszą ilością SNP i bazą w pętlach, generalnie gRNA jest bardziej wydajny. Dla danego genu PVALB, pierwsza sekwencja docelowa jest o 50% bardziej wydajna niż pozostałe dwie, ponieważ pierwsza ma 0 SNP, podczas gdy pozostałe mają 3 lub 2 SNP. Pierwsza sekwencja docelowa ma mniej par zasad zaangażowanych w pętle struktury drugorzędowej RNA, co pozwala jej na lepsze wiązanie się z genomem docelowym, podczas gdy dwie pozostałe mają po 9 par zasad w pętlach. Dla danego genu AAVS1, pierwszy cel jest ponad dwukrotnie bardziej wydajny niż drugi, ponieważ drugi ma miejsce off-target w genomie. Dla danego genu VEGFA, pierwszy z nich jest o połowę wydajniejszy od pozostałych dwóch, ponieważ ma 1 SNP, podczas gdy pozostałe nie mają żadnego.
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ND oznacza niewykrywalne. Czcionka kursywą reprezentuje mało wydajne gRNA w obrębie tej samej grupy genów. |
ZawartośćAT jest kluczowym czynnikiem, jak te wcześniej wymienione, ponieważ dowody nie są jasne. Dlatego wymieniamy ją tutaj jako uwagę dla użytkowników.
4. Wnioski
Nasza platforma jest łatwym w użyciu oprogramowaniem do identyfikacji potencjalnych wydajnych miejsc gRNA w obrębie danych sekwencji dla organizmów modelowych, unikając efektów off-target i SNP. Platforma ta pozwala również użytkownikom na przeszukiwanie istniejących sekwencji RNA/protospacer i dzielenie się swoimi wynikami. Ręcznie wyodrębniliśmy większość zgłoszonych sekwencji gRNA/protospacer do naszej bazy danych i będziemy ją rozszerzać o nowo opublikowane prace.
Ujawnienie
Platforma online, baza danych i dokument są dostępne pod adresem http://cas9.cbi.pku.edu.cn/.
Wkład autorów
Ming Ma i Adam Y. Ye w równym stopniu przyczynili się do powstania tej pracy. Ming Ma wymyślił pomysł, a Adam Y. Ye i Weiguo Zheng zajęli się programowaniem i budową strony internetowej. Lei Kong nadzorował całą pracę i udzielał wskazówek. Ming Ma, Adam Y. Ye i Lei Kong przygotowali projekt pracy.
.