Bulk RNA-seq Data Standards and Processing Pipeline - ENCODE

Przegląd linii
Schemat rurociągu dla danych typu paired-ended
Schemat rurociągu dla danych typu single-ended
Wejścia:
Wyniki:
Odniesienia genomowe
Linki i publikacje

Przegląd linii

Potok Bulk RNA-seq został opracowany jako część serii ENCODE Uniform Processing Pipelines. Pełny kod potoku jest swobodnie dostępny na Github i może być uruchomiony na DNAnexus (link wymaga utworzenia konta) po ich aktualnych cenach.

Potok ENCODE Bulk RNA-seq może być używany zarówno dla replikowanych jak i niereplikowanych, paired-ended lub single-ended, oraz specyficznych lub nie specyficznych dla danego pasma bibliotek RNA-seq. Biblioteki muszą być generowane z mRNA (poli(A)+, całkowite RNA pozbawione rRNA, lub populacje poli(A)-, które są selekcjonowane pod względem wielkości, aby były dłuższe niż około 200 bp. W przyszłości ten potok może być również używany do przetwarzania danych PAS-seq i Bru-seq.

Schemat rurociągu dla danych typu paired-ended

Zobacz bieżącą instancję tego rurociągu dla danych typu paired-ended

Schemat rurociągu dla danych typu single-ended

Zobacz bieżącą instancję tego rurociągu dla danych typu single-ended

Wejścia:

Format pliku	Informacje zawarte w pliku	Plik. description	Notes
fastq	reads	G-.zripowane odczyty RNA-seq luzem	Odczyty muszą spełniać kryteria przedstawione w Ograniczeniach Jednolitego Potoku Przetwarzania.
tar	genome index	Generated by STAR or TopHat	Proszę zobaczyć akapit zatytułowany „Regarding alignment and quantification” poniżej tabeli „Outputs”, aby dowiedzieć się więcej o alignerach i ich indeksach.
fasta	sekwencja spike-in	Sekwencje spike-in ERCC (External RNA Control Consortium)	Sekwencje spike-in są efektywnie kontrolami dla eksperymentu RNA-seq.

Wyniki:

Format pliku	Informacje zawarte w pliku	Opis pliku	Notes
bam	alignments	Produced by mapping reads to the genome.	Zapoznaj się z akapitem zatytułowanym „Regarding alignment and quantification” pod tabelą „Outputs”, aby dowiedzieć się więcej o alignerach i ich indeksach.
bam	transcriptome alignments	Produced by mapping reads to the transcriptome.
bigWig	signal	Normalizowany sygnał RNA-seq	Dla danych splotowych, sygnały są generowane dla unikalnych odczytów i unikalnych+multimappingowych odczytów w obu splotach plus i minus. Dla danych nie splotowych, sygnały są generowane dla unikalnych odczytów i unikalnych+multimapujących odczytów bez względu na tożsamość splotu.
tsv	kwantyfikacje genów	Zawiera kwantyfikacje spike-ins	Specyfikacje formatu pliku są następujące: kolumna 1: gene_id kolumna 2: transcript_id(s) kolumna 3: length kolumna 4: effective_length kolumna 5: expected_count kolumna 6: TPM (transcripts per million) kolumna 7: FPKM (fragments per kilobase of transcript per million) kolumna 8: posterior_mean_count kolumna 9: posterior_standard_deviation_of_count kolumna 10: pme_TPM kolumna 11: pme_FPKM kolumna 12: TPM_ci_lower_bound kolumna 13: TPM_ci_upper_bound kolumna 14: FPKM_ci_lower_bound kolumna 15: FPKM_ci_upper_bound
tsv	kwantyfikacje transkryptów	Zawiera kwantyfikacje spike-ins	Proszę zapoznać się z przestrogą dotyczącą kwantyfikacji transkryptów w akapicie poniżej zatytułowanym „Regarding alignment and quantification”.
Potok produkuje również metryki jakości, w tym korelację Spearmana i głębokość odczytu.

Dotyczące wyrównania i kwantyfikacji:

Mapowanie odczytów odbywa się za pomocą programu STAR (w niektórych przypadkach używane są zarówno alignery STAR, jak i TopHat, które tworzą oddzielne pliki bam), a kwantyfikacja genów i transkryptów odbywa się za pomocą programu RSEM. Chociaż istnieje ogólna zgodność pomiędzy mapowaniami i kwantyfikacjami genów, tworzonymi przez różne potoki RNA-seq, kwantyfikacje poszczególnych izoform transkryptów, jako znacznie bardziej złożone, mogą się znacznie różnić w zależności od zastosowanego potoku przetwarzania i ich dokładność jest nieznana. Dlatego też, alignacje i kwantyfikacje genów mogą być używane pewnie, podczas gdy kwantyfikacje transkryptów powinny być używane ostrożnie.

Odniesienia genomowe

Zobacz odniesienia do genomów i rozmiary chromosomów używane w tym potoku

Potoki te wymagają zarówno informacji o montażu dla interesującego nas gatunku, jak i odniesienia do genu. Każdy z głównych programów, TopHat, STAR i RSEM, tworzy indeks do wykorzystania w kolejnych krokach. Więcej informacji na temat użycia RSEM jest dostępnych tutaj.

Ekogeniczne kontrole RNA typu spike-in

Ekogeniczne kontrole RNA typu spike-in są dodawane do próbek w celu stworzenia standardowej linii bazowej dla kwantyfikacji ekspresji RNA (PMC3166838). Konsorcjum ENCODE standaryzuje się na użycie dostępnych na rynku spike-inów Ambion Mix 1 w rozcieńczeniu ~2% końcowych zmapowanych odczytów. Jednakże, istnieje mieszanka starszych danych i danych importowanych. Dlatego, aby śledzić spike-iny użyte w danej bibliotece, istnieje zbiór danych powiązany z tą biblioteką. Ten zbiór danych będzie zawierał plik sekwencji spike-ins w formacie fasta oraz informacje o stężeniach. Oczekuje się, że te sekwencje spike-in znajdą się w indeksie genomu użytym w kroku(ach) mapowania i w wygenerowanych następnie bam. Kwantyfikacje sekwencji można znaleźć w plikach kwantyfikacji transkryptów i genów RSEM.

Zobacz zestawy danych spike-in
Zobacz certyfikat analizy dla ERCC spike-in
Dostęp do ERCC dash board

Linki i publikacje

Znajdź dane wygenerowane przez ten potok: All | paired-end only | single-end only
Eksploruj publikacje (w toku)