Standardy a potrubí pro zpracování dat hromadné RNA-seq - ENCODE

Přehled potrubí
Schéma pipeline pro párová data
Schéma pipeline pro jednostranná data
Vstupy:
Výstupy:
Genomické reference
Odkazy a publikace

Přehled potrubí

Provozní potrubí pro hromadnou RNA-seq bylo vyvinuto jako součást řady jednotných zpracovatelských potrubí ENCODE. Úplný kód pipeline je volně k dispozici na serveru Github a lze jej spustit na serveru DNAnexus (odkaz vyžaduje vytvoření účtu) za jejich aktuální ceny.

Pipeline ENCODE Bulk RNA-seq lze použít pro replikované i nereplikované, párově zakončené i jednostranně zakončené a vláknově specifické i nevláknově specifické knihovny RNA-seq. Knihovny musí být generovány z mRNA (poly(A)+, z celkové RNA ochuzené o rRNA nebo z poly(A)-populací, které jsou velikostně selektovány tak, aby byly delší než přibližně 200 bp. V budoucnu může být tato pipeline použita také ke zpracování dat PAS-seq a Bru-seq.

Schéma pipeline pro párová data

Přehlédněte si aktuální instanci této pipeline pro párová data

Schéma pipeline pro jednostranná data

Přehlédněte si aktuální instanci této pipeline pro jednostranná data

Vstupy:

Formát souboru	Informace obsažené v souboru	Soubor popis	Poznámky
fastq	čte	G-zazipované hromadné čtení RNA-seq	Čtení musí splňovat kritéria uvedená v části Omezení jednotné zpracovatelské linky.
tar	index genomu	Vytvořený programem STAR nebo TopHat	Podrobnější informace o zarovnávačích a jejich indexech naleznete v odstavci „Ohledně zarovnání a kvantifikace“ pod tabulkou „Výstupy“.
fasta	spike-in sekvence	ERCC Spike-ins (External RNA Control Consortium)	Spike-ins jsou ve skutečnosti kontroly pro experiment RNA-seq.

Výstupy:

Formát souboru	Informace obsažené v souboru	Popis souboru	Poznámky
bam	zarovnání	Vytvořeno mapováním čtení na genom.	Podrobněji o zarovnávačích a jejich indexech viz odstavec „Pokud jde o zarovnání a kvantifikaci“ pod tabulkou „Výstupy“.
bam	zarovnání transkriptomu	Produkováno mapováním čtení na transkriptom.
bigWig	signal	Normalizovaný signál RNA-seq	Pro vláknová data jsou generovány signály pro unikátní čtení a unikátní+multimapovací čtení v plusovém i minusovém vlákně. U nevázaných dat se signály generují pro jedinečná čtení a jedinečná+multimappingová čtení bez ohledu na identitu vlákna.
tsv	kvantifikace genů	Obsahuje kvantifikace hrotů	Specifikace formátu souboru jsou následující: sloupec 1: gene_id sloupec 2: transcript_id(s) sloupec 3: transcript_id(s) : délka sloupec 4: effective_length sloupec 5: expected_count sloupec 6: TPM (transcripts per million) sloupec 7: FPKM (fragments per kilobase of transcript per million) sloupec 8: posterior_mean_count sloupec 9: sloupec 10: pme_TPM sloupec 11: pme_FPKM sloupec 12: TPM_ci_lower_bound sloupec 13: TPM_ci_upper_bound sloupec 14: FPKM_ci_lower_bound sloupec 15: FPKM_ci_upper_bound
tsv	kvantifikace transkriptů	Obsahuje kvantifikace spike-ins	Prosím, viz upozornění týkající se kvantifikace transkriptů v odstavci níže nazvaném „Pokud jde o zarovnání a kvantifikaci“.
Pipeline rovněž vytváří metriky kvality, včetně Spearmanovy korelace a hloubky čtení.

Ohledně zarovnání a kvantifikace:

Mapování čtení se provádí pomocí programu STAR (v některých případech se používají zarovnávače STAR i TopHat, které vytvářejí samostatné soubory bam) a kvantifikace genů a transkriptů se provádí pomocí programu RSEM. Ačkoli existuje obecná shoda mezi mapováním a kvantifikací genů provedenou různými pipeline RNA-seq, kvantifikace jednotlivých izoforem transkriptů, které jsou mnohem složitější, se mohou podstatně lišit v závislosti na použité zpracovatelské pipeline a jejich přesnost není známa. Proto lze zarovnání a kvantifikace genů používat s jistotou, zatímco kvantifikace transkriptů by se měly používat opatrně.

Genomické reference

Přehled referencí genomu a velikostí chromozomů použitých v této pipeline

Tyto pipeline vyžadují jak informace o sestavení pro druh, který je předmětem zájmu, tak genovou referenci. Každý z hlavních programů, TopHat, STAR a RSEM, vytváří index pro použití v následujících krocích. Více informací o použití programu RSEM je k dispozici zde.

Exogenní RNA spike-in kontroly

Exogenní RNA spike-in kontroly se přidávají ke vzorkům za účelem vytvoření standardní základní linie pro kvantifikaci exprese RNA (PMC3166838). Konsorcium ENCODE standardizuje používání komerčně dostupných spike-in kontrol Ambion Mix 1 v ředění ~2 % konečných mapovaných čtení. Existuje však směs starších dat a importovaných dat. Proto pro sledování spike-inů použitých v dané knihovně existuje datová sada spojená s knihovnou. Tento dataset bude obsahovat sekvenční soubor spike-inů ve formátu fasta a informace o koncentracích. Očekává se, že tyto sekvence spike-in budou nalezeny v indexu genomu použitém v kroku (krocích) mapování a v následně vygenerovaném bamu. Kvantifikace sekvencí lze nalézt v souborech kvantifikace transkriptů a genů RSEM.

Zobrazit soubory dat spike-ins
Zobrazit certifikát analýzy pro ERCC spike-ins
Přístup k nástěnce ERCC

Odkazy a publikace

Najít data vygenerovaná touto pipeline: Všechny | Pouze párové koncovky | Pouze jednokoncové koncovky
Prozkoumat publikace (probíhá)