Estándares de datos de ARN-seq a granel y tubería de procesamiento - ENCODE

Resumen de la tubería
Esquema de la línea de producción para datos emparejados
Esquema de la línea de producción para datos de un solo extremo
Entradas:
Salidas:
Referencias genómicas
Enlaces y publicaciones

Resumen de la tubería

La tubería de ARN-seq a granel fue desarrollada como parte de la serie de tuberías de procesamiento uniforme de ENCODE. El código completo del pipeline está disponible de forma gratuita en Github y se puede ejecutar en DNAnexus (el enlace requiere la creación de una cuenta) a su precio actual.

La tubería ENCODE Bulk RNA-seq puede ser utilizada para bibliotecas de RNA-seq replicadas y no replicadas, emparejadas o de un solo extremo, y de cadenas específicas o no específicas. Las bibliotecas deben generarse a partir de poblaciones de ARNm (poli(A)+, ARN total empobrecido en ARNr, o poli(A)- que se seleccionan por su tamaño para que sean más largas que aproximadamente 200 pb. En el futuro, esta tubería también puede utilizarse para procesar datos de PAS-seq y Bru-seq.

Esquema de la línea de producción para datos emparejados

Ver la instancia actual de esta línea de producción para datos emparejados

Esquema de la línea de producción para datos de un solo extremo

Ver las instancias actuales de esta línea de producción para datos de un solo extremo

Entradas:

Formato del fichero	Información contenida en el fichero	Ficha descripción	Notas
fastq	lecturas	G-zipped bulk RNA-seq reads	Las lecturas deben cumplir los criterios indicados en las Restricciones de la tubería de procesamiento uniforme.
tar	índice del genoma	Generado por STAR o TopHat	Por favor, vea el párrafo titulado «Con respecto a la alineación y cuantificación» debajo de la tabla «Outputs» para más información sobre los alineadores y sus índices.
fasta	secuencia de spike-ins	ERCC Spike-ins (External RNA Control Consortium)	Los spike-ins son efectivamente los controles para el experimento de RNA-seq.

Salidas:

Formato del fichero	Información contenida en el fichero	Descripción del fichero	Notas
bam	alineaciones	Producidas por el mapeo de lecturas al genoma.	Por favor, vea el párrafo titulado «Con respecto a la alineación y la cuantificación» debajo de la tabla «Resultados» para más información sobre los alineadores y sus índices.
bam	alineaciones del transcriptoma	Producidas por el mapeo de lecturas al transcriptoma.
bigWig	señal	Señal normalizada de RNA-seq	Para datos trenzados, las señales se generan para lecturas únicas y lecturas únicas+multimapping tanto en la cadena positiva como en la negativa. Para los datos no trenzados, se generan señales para lecturas únicas y lecturas únicas+multimapping sin tener en cuenta la identidad de la hebra.
tsv	cuantificaciones de genes	Incluye las cuantificaciones de picos	Las especificaciones del formato del archivo son las siguientes: columna 1: gene_id columna 2: transcript_id(s) columna 3: longitud columna 4: longitud_efectiva columna 5: recuento_esperado columna 6: TPM (transcritos por millón) columna 7: FPKM (fragmentos por kilobase de transcrito por millón) columna 8: recuento_medio_posterior columna 9: posterior_desviación_estándar_del_conteo columna 10: pme_TPM columna 11: pme_FPKM columna 12: TPM_ci_lower_bound columna 13: TPM_ci_upper_bound columna 14: FPKM_ci_lower_bound columna 15: FPKM_ci_upper_bound
tsv	cuantificaciones de transcritos	Incluye las cuantificaciones de los spike-ins	Por favor, vea la precaución respecto a las cuantificaciones de transcritos en el párrafo de abajo titulado «Respecto a la alineación y cuantificación».
El pipeline también produce métricas de calidad, incluyendo la correlación de Spearman y la profundidad de lectura.

Con respecto a la alineación y la cuantificación:

El mapeo de las lecturas se realiza con el programa STAR (en algunos casos, se utilizan tanto los alineadores STAR como TopHat para producir archivos bam separados) y la cuantificación de genes y transcritos se realiza con el programa RSEM. Aunque hay un acuerdo general entre los mapeos y las cuantificaciones de genes producidos por diferentes pipelines de RNA-seq, las cuantificaciones de las isoformas individuales de los transcritos, al ser mucho más complejas, pueden diferir sustancialmente dependiendo del pipeline de procesamiento empleado y son de precisión desconocida. Por lo tanto, los alineamientos y las cuantificaciones de genes pueden utilizarse con confianza, mientras que las cuantificaciones de transcritos deben usarse con cuidado.

Referencias genómicas

Ver las referencias del genoma y los tamaños de los cromosomas utilizados en este pipeline

Estos pipelines requieren tanto información de ensamblaje para la especie de interés como una referencia de genes. Cada uno de los programas principales, TopHat, STAR, y RSEM crean un índice para su uso en los pasos posteriores. Más información sobre el uso de RSEM está disponible aquí.

Controles de espiga de ARN exógeno

Los controles de espiga de ARN exógeno se añaden a las muestras para crear una línea de base estándar para la cuantificación de la expresión de ARN (PMC3166838). El consorcio ENCODE está estandarizando el uso de los controles Ambion Mix 1 disponibles en el mercado a una dilución de ~2% de las lecturas finales mapeadas. Sin embargo, hay una mezcla de datos antiguos y datos importados. Por lo tanto, para rastrear los spike-ins utilizados en una biblioteca dada, hay un conjunto de datos asociado con la biblioteca. Ese conjunto de datos contendrá el archivo de secuencia de spike-ins en formato fasta e información sobre las concentraciones. Se espera que estas secuencias de spike-ins se encuentren en el índice del genoma utilizado en el paso(s) de mapeo y en el bam generado posteriormente. Las cuantificaciones de las secuencias se pueden encontrar en los archivos de cuantificación de transcritos y genes de la RSEM.

Ver conjuntos de datos de spike-ins
Ver el certificado de análisis de los spike-ins de ERCC
Acceder al tablero de ERCC

Enlaces y publicaciones

Encontrar datos generados por este pipeline: Todos | sólo pares | sólo un extremo
Explorar publicaciones (en curso)