Bulk RNA-seq Data Standards and Processing Pipeline - ENCODE

Oversigt over pipeline
Pipeline Skematisk oversigt for parvis afsluttede data
Pipeline Skematisk oversigt for single-ended data
Input:
Outputs:
Genomiske referencer
Links and Publications

Oversigt over pipeline

Pipelinen Bulk RNA-seq blev udviklet som en del af ENCODE’s Uniform Processing Pipelines-serie. Den fulde pipelinekode er frit tilgængelig på Github og kan køres på DNAnexus (link kræver oprettelse af konto) til deres nuværende pris.

ENCODE Bulk RNA-seq-pipeline kan bruges til både replikerede og ureplicerede, parvis afsluttede eller enkelt afsluttede og strengspecifikke eller ikke-strengspecifikke RNA-seq-biblioteker. Biblioteker skal genereres fra mRNA (poly(A)+, rRNA-depleted total RNA eller poly(A)-populationer, der er størrelsesselekteret til at være længere end ca. 200 bp. I fremtiden kan denne pipeline også bruges til at behandle PAS-seq- og Bru-seq-data.

Pipeline Skematisk oversigt for parvis afsluttede data

Se den aktuelle instans af denne pipeline for parvis afsluttede data

Pipeline Skematisk oversigt for single-ended data

Se de aktuelle instanser af denne pipeline for single-ended data

Input:

	Filformat	Informationer indeholdt i filen	Fil beskrivelse	Noter
fastq	læsninger	G-zippede bulk RNA-seq-læsninger	Læsningerne skal opfylde kriterierne i begrænsningerne i den ensartede behandlingspipeline.
tar	genomindeks	Genereret af STAR eller TopHat	Se afsnittet “Vedrørende alignering og kvantificering” under tabellen “Outputs” for yderligere oplysninger om alignere og deres indeks.
fasta	spike-in-sekvens	ERCC Spike-ins (External RNA Control Consortium)	Spike-ins er i praksis kontrollerne for RNA-seq-eksperimentet.

Outputs:

Filformat	Informationer indeholdt i filen	Filbeskrivelse	Notes
bam	alignments	Produceret ved at kortlægge læsninger til genomet.	Se venligst afsnittet “Vedrørende alignment og kvantificering” under tabellen “Outputs” for yderligere oplysninger om aligners og deres indeks.
bam	transcriptom alignments	Produceret ved at mappe læsninger til transkriptomet.
bigWig	signal	Normaliseret RNA-seq-signal	For strandede data genereres der signaler for unikke læsninger og unikke+multimapping-læsninger i både plus- og minusstrengen. For ikke-strengede data genereres signaler for unikke læsninger og unikke+multimapping-læsninger uden hensyn til strengidentitet.
tsv	genkvantificeringer	Inkluderer spike-ins-kvantificeringer	Filformatspecifikationerne er som følger: Spalte 1: gene_id Spalte 2: transcript_id(s) Spalte 3: length kolonne 4: effective_length kolonne 5: expected_count kolonne 6: TPM (transcripts per million) kolonne 7: FPKM (fragments per kilobase of transcript per million) kolonne 8: posterior_mean_count kolonne 9: posterior_mean_count kolonne 9: posterior_standard_deviation_of_count kolonne 10: pme_TPM kolonne 11: pme_FPKM kolonne 12: TPM_ci_lower_bound kolonne 13: TPM_ci_upper_bound kolonne 14: FPKM_ci_lower_bound kolonne 15: FPKM_ci_lower_bound kolonne 14: TPM_ci_upper_bound kolonne 15: FPKM_ci_upper_bound
tsv	transcript quantifications	Includes the spike-ins quantifications	Se venligst advarslen vedrørende transcript quantifications i afsnittet nedenfor med titlen “Regarding alignment and quantification” (vedrørende tilpasning og kvantificering).
Pipelinen producerer også kvalitetsmetrikker, herunder Spearman-korrelation og læsedybde.

Med hensyn til alignment og kvantificering:

Kortlægningen af læsningerne sker ved hjælp af STAR-programmet (i nogle tilfælde anvendes både STAR- og TopHat-alignere til at producere separate bam-filer), og kvantificeringen af gener og transkripter sker med RSEM-programmet. Selv om der er generel overensstemmelse mellem de kortlægninger og genkvantificeringer, der produceres af forskellige RNA-seq-pipelines, kan kvantificeringer af individuelle transkript-isoformer, der er meget mere komplekse, variere betydeligt afhængigt af den anvendte behandlingspipeline og er af ukendt nøjagtighed. Derfor kan alignments og genkvantificeringer anvendes med sikkerhed, mens transkriptkvantificeringer bør anvendes med forsigtighed.

Genomiske referencer

Se de genomreferencer og kromosomstørrelser, der anvendes i denne pipeline

Disse pipelines kræver både assemblageoplysninger for den pågældende art og en genreference. Hvert af hovedprogrammerne, TopHat, STAR og RSEM opretter et indeks til brug i de efterfølgende trin. Flere oplysninger om brugen af RSEM findes her.

Exogene RNA spike-in-kontroller

Exogene RNA spike-in-kontroller tilføjes til prøver for at skabe en standardbasislinje til kvantificering af RNA-ekspression (PMC3166838). ENCODE-konsortiet standardiserer brugen af Ambion Mix 1 kommercielt tilgængelige spike-ins i en fortynding på ~2 % af de endelige kortlagte læsninger. Der er dog tale om en blanding af ældre data og importerede data. For at spore de spike-ins, der er anvendt i et givet bibliotek, er der derfor et datasæt knyttet til biblioteket. Dette datasæt vil indeholde spike-ins-sekvensfilen i fasta-format og oplysninger om koncentrationerne. Disse spike-ins-sekvenser forventes at blive fundet i det genomindeks, der anvendes i kortlægningsfasen(erne), og i den efterfølgende genererede bam-fil. Kvantificeringerne af sekvenserne kan findes i RSEM-transkript- og genkvantificeringsfilerne.

Se spike-ins-datasæt
Se analysecertifikatet for ERCC spike-ins
Access the ERCC dash board

Links and Publications

Søg data genereret af denne pipeline: Alle | kun parrede ender | kun en ende
Udforsk publikationer (under udarbejdelse)