Bulk RNA-seq Data Standards and Processing Pipeline - ENCODE

Pipeline Übersicht
Pipeline-Schema für paired-ended Daten
Pipeline-Schema für single-ended Daten
Eingaben:
Outputs:
Genomische Referenzen
Links und Veröffentlichungen

Pipeline Übersicht

Die Bulk RNA-seq Pipeline wurde als Teil der ENCODE Uniform Processing Pipelines Serie entwickelt. Der vollständige Pipeline-Code ist auf Github frei verfügbar und kann auf DNAnexus (Link erfordert die Erstellung eines Kontos) zu deren aktuellen Preisen ausgeführt werden.

Die ENCODE Bulk RNA-seq Pipeline kann sowohl für replizierte als auch für nicht replizierte, paired-ended oder single-ended und strangspezifische oder nicht strangspezifische RNA-seq Bibliotheken verwendet werden. Die Bibliotheken müssen aus mRNA (poly(A)+, rRNA-verarmter Gesamt-RNA oder poly(A)-Populationen generiert werden, die so ausgewählt werden, dass sie länger als etwa 200 bp sind. In Zukunft kann diese Pipeline auch für die Verarbeitung von PAS-seq- und Bru-seq-Daten verwendet werden.

Pipeline-Schema für paired-ended Daten

Ansicht der aktuellen Instanz dieser Pipeline für paired-ended Daten

Pipeline-Schema für single-ended Daten

Ansicht der aktuellen Instanzen dieser Pipeline für single-ended Daten

Eingaben:

Dateiformat	Informationen in Datei enthalten	Datei Beschreibung	Hinweise
fastq	Lesungen	G-gezippte Bulk-RNA-seq-Reads	Die Reads müssen die in den „Uniform Processing Pipeline Restrictions“ genannten Kriterien erfüllen.
tar	Genom-Index	Generiert von STAR oder TopHat	Weitere Informationen zu den Alignern und ihren Indizes finden Sie im Abschnitt „Betreffend Alignment und Quantifizierung“ unter der Tabelle „Outputs“.
fasta	Spike-in-Sequenz	ERCC Spike-ins (External RNA Control Consortium)	Die Spike-ins sind quasi die Kontrollen für das RNA-seq-Experiment.

Outputs:

Dateiformat	Informationen in der Datei enthalten	Dateibeschreibung	Hinweise
bam	Ausrichtungen	Erzeugt durch Mapping von Reads auf das Genom.	Weitere Informationen zu den Alignern und ihren Indizes finden Sie im Abschnitt „Zum Alignment und zur Quantifizierung“ unter der Tabelle „Outputs“.
bam	Transkriptom-Alignments	Erzeugt durch Mapping von Reads auf das Transkriptom.
bigWig	signal	Normalisiertes RNA-seq-Signal	Für gestrandete Daten werden Signale für Unique Reads und Unique+Multimapping Reads im Plus- und Minus-Strang erzeugt. Bei nicht-strängigen Daten werden Signale für eindeutige Reads und eindeutige+Multimapping-Reads ohne Berücksichtigung der Strangidentität erzeugt.
tsv	Gen-Quantifizierungen	Enthält die Spike-Ins-Quantifizierungen	Das Dateiformat ist wie folgt spezifiziert: Spalte 1: gene_id Spalte 2: transcript_id(s) Spalte 3: length column 4: effective_length column 5: expected_count column 6: TPM (transcripts per million) column 7: FPKM (fragments per kilobase of transcript per million) column 8: posterior_mean_count column 9: posterior_standard_deviation_of_count Spalte 10: pme_TPM Spalte 11: pme_FPKM Spalte 12: TPM_ci_lower_bound Spalte 13: TPM_ci_upper_bound Spalte 14: FPKM_ci_lower_bound Spalte 15: FPKM_ci_upper_bound
tsv	Transkript-Quantifizierungen	Einschließlich der Spike-Ins-Quantifizierungen	Bitte beachten Sie den Hinweis zu den Transkript-Quantifizierungen im Abschnitt „Zum Alignment und zur Quantifizierung“ unten.
Die Pipeline erzeugt auch Qualitätsmetriken, einschließlich Spearman-Korrelation und Lesetiefe.

Zum Alignment und zur Quantifizierung:

Das Mapping der Reads erfolgt mit dem STAR-Programm (in einigen Fällen werden sowohl STAR- als auch TopHat-Aligner verwendet, um separate bam-Dateien zu erzeugen) und die Quantifizierung von Genen und Transkripten erfolgt mit dem RSEM-Programm. Obwohl es eine allgemeine Übereinstimmung zwischen den Mappings und den Genquantifizierungen gibt, die von verschiedenen RNA-seq-Pipelines erzeugt werden, können die Quantifizierungen einzelner Transkript-Isoformen, die viel komplexer sind, je nach verwendeter Verarbeitungspipeline erheblich voneinander abweichen und sind von unbekannter Genauigkeit. Daher können Alignments und Gen-Quantifizierungen sicher verwendet werden, während Transkript-Quantifizierungen mit Vorsicht verwendet werden sollten.

Genomische Referenzen

Betrachten Sie die Genom-Referenzen und Chromosomengrößen, die in dieser Pipeline verwendet werden

Diese Pipelines erfordern sowohl Assembler-Informationen für die interessierende Art als auch eine Gen-Referenz. Jedes der Hauptprogramme, TopHat, STAR und RSEM, erstellt einen Index, der in den nachfolgenden Schritten verwendet wird. Weitere Informationen über die Verwendung von RSEM finden Sie hier.

Exogene RNA-Spike-In-Kontrollen

Exogene RNA-Spike-In-Kontrollen werden zu den Proben hinzugefügt, um eine Standard-Basislinie für die Quantifizierung der RNA-Expression zu schaffen (PMC3166838). Das ENCODE-Konsortium verwendet standardmäßig die im Handel erhältlichen Ambion Mix 1 Spike-Ins in einer Verdünnung von ~2 % der endgültigen kartierten Reads. Es gibt jedoch eine Mischung aus älteren Daten und importierten Daten. Um die in einer bestimmten Bibliothek verwendeten Spike-Ins zu verfolgen, gibt es daher einen mit der Bibliothek verbundenen Datensatz. Dieser Datensatz enthält die Spike-In-Sequenzdatei im Fasta-Format und Informationen zu den Konzentrationen. Es wird erwartet, dass diese Spike-In-Sequenzen im Genom-Index, der in den Mapping-Schritten verwendet wurde, und in der anschließend generierten bam-Datei zu finden sind. Die Quantifizierungen der Sequenzen sind in den RSEM-Transkript- und Genquantifizierungsdateien zu finden.

Spike-Ins-Datensätze anzeigen
Analysezertifikat für ERCC-Spike-Ins anzeigen
Zugriff auf das ERCC-Dashboard

Links und Veröffentlichungen

Mit dieser Pipeline erzeugte Daten finden: Alle | Nur Paired-End | Nur Single-End
Erkunden Sie Veröffentlichungen (in Arbeit)