Bulk RNA-seq adatok szabványai és feldolgozási csővezeték - ENCODE

A csővezeték áttekintése
Pipeline sémája párosított végű adatokhoz
Pipeline sémája egyvégű adatokhoz
Bemenetek:
Kimenetek:
Genomikus referenciák
Linkek és publikációk

A csővezeték áttekintése

A Bulk RNA-seq csővezetéket az ENCODE Uniform Processing Pipelines sorozat részeként fejlesztették ki. A teljes csővezeték kódja szabadon elérhető a Githubon, és a DNAnexuson futtatható (a linkhez fiók létrehozása szükséges) a jelenlegi árakon.

Az ENCODE Bulk RNA-seq pipeline replikált és nem replikált, párosított vagy egyvégű, valamint szálspecifikus vagy nem szálspecifikus RNA-seq könyvtárakhoz egyaránt használható. A könyvtárakat mRNS-ből (poli(A)+, rRNS-mentesített teljes RNS-ből vagy poli(A)- populációkból kell létrehozni, amelyek mérete úgy van szelektálva, hogy körülbelül 200 bp-nél hosszabbak legyenek. A jövőben ez a csővezeték a PAS-seq és Bru-seq adatok feldolgozására is használható lesz.

Pipeline sémája párosított végű adatokhoz

Nézze meg a pipeline aktuális példányát párosított végű adatokhoz

Pipeline sémája egyvégű adatokhoz

Nézze meg a pipeline aktuális példányait egyvégű adatokhoz

Bemenetek:

Fájlformátum	A fájlban található információ	Fájl. description	Notes
fastq	reads	G-zippelt tömeges RNS-seq leolvasások	A leolvasásoknak meg kell felelniük az Uniform Processing Pipeline Restrictions (Egységes feldolgozási pipeline korlátozások) című dokumentumban meghatározott kritériumoknak.
tar	genom index	Generated by STAR or TopHat	Az “Outputs” táblázat alatti “Regarding alignment and quantification” című bekezdésben olvasható bővebben az alignerekről és indexeikről.
fasta	spike-in szekvencia	ERCC Spike-in (External RNA Control Consortium)	A spike-inek gyakorlatilag az RNS-seq kísérlet kontrolljai.

Kimenetek:

Fájlformátum	A fájlban szereplő információk	Fájlleírás	Jegyzetek
bam	alignments	A leolvasások genomra való leképezésével keletkezik.	Az “Outputs” táblázat alatti “Regarding alignment and quantification” című bekezdésben olvasható az alignerekről és indexeikről.
bam	transcriptome alignments	Produced by mapping reads to the transcriptome.
bigWig	signal	Normalized RNA-seq signal	Stranded adatok esetén a jeleket az egyedi olvasatok és az egyedi+multimapping olvasatok számára generáljuk mind a plusz, mind a mínusz szálon. Szál nélküli adatok esetén a jeleket az egyedi leolvasásokra és az egyedi+multimapping leolvasásokra generáljuk, a szálazonosságra való tekintet nélkül.
tsv	gének mennyiségi meghatározása	Tartalmazza a spike-ins mennyiségi meghatározásokat	A fájlformátum specifikációja a következő: 1. oszlop: gene_id 2. oszlop: transcript_id(s) 3. oszlop: oszlop: length 4. oszlop: effective_length 5. oszlop: expected_count 6. oszlop: TPM (transcripts per million) 7. oszlop: FPKM (fragments per kilobase of transcript per million) 8. oszlop: posterior_mean_count 9. oszlop: 10. oszlop: pme_TPM 11. oszlop: pme_FPKM 12. oszlop: TPM_ci_lower_bound 13. oszlop: TPM_ci_upper_bound 14. oszlop: FPKM_ci_lower_bound 15. oszlop: FPKM_ci_upper_bound
tsv	transcript quantifications	Includes the spike-ins quantifications	Kérem, olvassa el a “Regarding alignment and quantification” című bekezdésben a transzkriptek mennyiségi meghatározásával kapcsolatos figyelmeztetést.
A csővezeték minőségi metrikákat is készít, beleértve a Spearman-korrelációt és az olvasási mélységet.

Az igazítással és a mennyiségi meghatározással kapcsolatban:

A leolvasások leképezése a STAR programmal történik (egyes esetekben mind a STAR, mind a TopHat igazítót használják, hogy külön bam fájlokat készítsenek), a gének és transzkriptek mennyiségi meghatározása pedig az RSEM programmal történik. Bár a különböző RNS-seq-pipeline-ok által előállított leképezések és génkvantitások között általános egyetértés van, az egyes transzkript izoformák kvantitatív meghatározása, mivel sokkal összetettebb, jelentősen eltérhet az alkalmazott feldolgozási pipeline-tól függően, és pontossága nem ismert. Ezért az illesztések és a génkvantitások magabiztosan használhatók, míg a transzkriptek kvantitásait óvatosan kell használni.

Genomikus referenciák

Nézze meg az ebben a pipeline-ban használt genom-referenciákat és kromoszómaméreteket

Ezeknek a pipelineknek mind az adott fajra vonatkozó összeállítási információkra, mind pedig egy génreferenciára van szükségük. A fő programok, a TopHat, a STAR és az RSEM mindegyike létrehoz egy indexet a későbbi lépésekben való felhasználáshoz. Az RSEM használatáról további információ itt található.

Exogén RNS spike-in kontrollok

A mintákhoz exogén RNS spike-in kontrollokat adunk, hogy standard alapvonalat hozzunk létre az RNS-expresszió mennyiségi meghatározásához (PMC3166838). Az ENCODE konzorcium szabványosítja a kereskedelmi forgalomban kapható Ambion Mix 1 spike-inek használatát a végső leképezett olvasatok ~2%-ának megfelelő hígításban. A régebbi adatok és az importált adatok azonban keverednek. Ezért egy adott könyvtárban használt spike-inek nyomon követésére van egy, a könyvtárhoz kapcsolódó adatkészlet. Ez az adatkészlet tartalmazza a spike-ins szekvenciafájlt fasta formátumban és a koncentrációkra vonatkozó információkat. Ezek a spike-in szekvenciák várhatóan megtalálhatók a térképezési lépés(ek)ben használt genomindexben és a később generált bam-ben. A szekvenciák mennyiségi meghatározása megtalálható az RSEM transzkript és gén mennyiségi meghatározási fájlokban.

Nézze meg a spike-ins adatkészleteket
Nézze meg az ERCC spike-ins elemzési tanúsítványát
Lépjen be az ERCC dash boardra

Linkek és publikációk

Keresje meg az e csővezeték által generált adatokat:
Közlemények keresése (folyamatban lévő)