Pipeline de normes et de traitement des données RNA-seq en vrac - ENCODE

Survol du pipeline
Schéma de pipeline pour les données appariées
Schéma de pipeline pour les données à extrémité unique
Entrées :
Sorties :
Références génomiques
Liens et publications

Survol du pipeline

Le pipeline RNA-seq en vrac a été développé dans le cadre de la série de pipelines de traitement uniformes ENCODE. Le code complet du pipeline est librement disponible sur Github et peut être exécuté sur DNAnexus (le lien nécessite la création d’un compte) à leur tarif actuel.

Le pipeline ENCODE Bulk RNA-seq peut être utilisé pour les bibliothèques d’ARN-seq répliquées et non répliquées, appariées ou à extrémité unique, et spécifiques ou non à un brin. Les bibliothèques doivent être générées à partir d’ARNm (poly(A)+, ARN total appauvri en ARNr, ou populations poly(A)- qui sont sélectionnées par taille pour être plus longues qu’environ 200 pb. À l’avenir, ce pipeline pourra également être utilisé pour traiter les données PAS-seq et Bru-seq.

Schéma de pipeline pour les données appariées

Voir l’instance actuelle de ce pipeline pour les données appariées

Schéma de pipeline pour les données à extrémité unique

Voir les instances actuelles de ce pipeline pour les données à extrémité unique

Entrées :

Format du fichier	Information contenue dans le fichier	Fichier. description	Notes
fastq	Lectures	G-lectures RNA-seq en vrac zippées	Les lectures doivent répondre aux critères décrits dans les restrictions du pipeline de traitement uniforme.
tar	Indice génomique	Généré par STAR ou TopHat	Veuillez consulter le paragraphe intitulé « Concernant l’alignement et la quantification » sous le tableau « Sorties » pour en savoir plus sur les aligneurs et leurs indices.
fasta	séquence spike-in	Spike-ins ERCC (External RNA Control Consortium)	Les spike-ins sont effectivement les contrôles de l’expérience RNA-seq.

Sorties :

Format du fichier	Information contenue dans le fichier	Description du fichier	Notes
bam	alignements	Produit par la mise en correspondance des lectures avec le génome.	Veuillez consulter le paragraphe intitulé « Concernant l’alignement et la quantification » sous le tableau « Sorties » pour en savoir plus sur les aligneurs et leurs indices.
bam	alignements transcriptomiques	Produits par la mise en correspondance des lectures avec le transcriptome.
bigWig	signal	Signal RNA-seq normalisé	Pour les données brinées, les signaux sont générés pour les lectures uniques et les lectures uniques+multimapping dans les deux brins plus et moins. Pour les données non brins, les signaux sont générés pour les lectures uniques et les lectures uniques+multimapping sans tenir compte de l’identité du brin.
tsv	quantifications de gènes	Inclut les quantifications de spike-ins	Les spécifications du format de fichier sont les suivantes: colonne 1 : gene_id colonne 2 : transcript_id(s) colonne 3 : longueur colonne 4 : effective_length colonne 5 : expected_count colonne 6 : TPM (transcriptions par million) colonne 7 : FPKM (fragments par kilobase de transcription par million) colonne 8 : posterior_mean_count colonne 9 : posterior_standard_deviation_of_count colonne 10 : pme_TPM colonne 11 : pme_FPKM colonne 12 : TPM_ci_lower_bound colonne 13 : TPM_ci_upper_bound colonne 14 : FPKM_ci_lower_bound colonne 15 : FPKM_ci_lower_bound
tsv	quantifications de transcriptions	Inclut les quantifications de spike-ins	Veuillez voir la mise en garde concernant les quantifications de transcriptions dans le paragraphe ci-dessous intitulé « Concernant l’alignement et la quantification ».
Le pipeline produit également des métriques de qualité, notamment la corrélation de Spearman et la profondeur de lecture.

En ce qui concerne l’alignement et la quantification:

La cartographie des lectures est effectuée à l’aide du programme STAR (dans certains cas, les aligneurs STAR et TopHat sont utilisés pour produire des fichiers bam distincts) et la quantification des gènes et des transcrits est effectuée à l’aide du programme RSEM. Bien qu’il y ait une concordance générale entre les alignements et les quantifications des gènes produits par différents pipelines d’ARN séquentiel, les quantifications des isoformes de transcription individuelles, beaucoup plus complexes, peuvent différer considérablement selon le pipeline de traitement utilisé et leur précision est inconnue. Par conséquent, les alignements et les quantifications de gènes peuvent être utilisés avec confiance, tandis que les quantifications de transcriptions doivent être utilisées avec précaution.

Références génomiques

Voir les références génomiques et les tailles de chromosomes utilisées dans ce pipeline

Ces pipelines nécessitent à la fois des informations d’assemblage pour l’espèce d’intérêt et une référence génique. Chacun des principaux programmes, TopHat, STAR et RSEM, crée un index à utiliser dans les étapes suivantes. Plus d’informations sur l’utilisation de RSEM sont disponibles ici.

Contrôles de spike-in d’ARN exogène

Des contrôles de spike-in d’ARN exogène sont ajoutés aux échantillons pour créer une ligne de base standard pour la quantification de l’expression de l’ARN (PMC3166838). Le consortium ENCODE standardise l’utilisation des spike-ins Ambion Mix 1 disponibles dans le commerce à une dilution de ~2% des lectures finales cartographiées. Cependant, il existe un mélange de données anciennes et de données importées. Par conséquent, pour suivre les spike-ins utilisés dans une bibliothèque donnée, il existe un jeu de données associé à la bibliothèque. Ce jeu de données contient le fichier de séquence des spike-ins au format fasta et des informations sur les concentrations. Ces séquences de spike-ins sont censées se trouver dans l’index du génome utilisé dans la ou les étapes de cartographie et dans le bam généré par la suite. Les quantifications des séquences se trouvent dans les fichiers de quantification des transcriptions et des gènes RSEM.

Voir les ensembles de données spike-ins
Voir le certificat d’analyse pour les spike-ins ERCC
Accéder au tableau de bord ERCC

Liens et publications

Trouver les données générées par ce pipeline : Toutes | paired-end seulement | single-end seulement
Explorer les publications (en cours)