Picard

Mark Duplicates

MarkDuplicates utilise les informations contenues dans les fichiers BAM/SAM pour présenter les niveaux de duplication dans les échantillons.

Figure 1 : diagramme en barres des lectures triées en fonction de leurs alignements et duplicatas.

source : nf-core SAREK MultiQC

Légende :

  • Unique pairs correspond aux lectures appariées à une seule autre lecture.
  • Duplicate Pairs Optical fait référence aux duplicatas venant d'une mauvaise identification de cluster pendant séquençage Illumina.
  • Duplicate Pairs Nonoptical désigne les duplicatas appariés qui ne sont pas liés au problème optique d’Illumina. Cela peut provenir de la surexpression d’un gène, d’un problème de PCR, de clustering (situation où un cluster occupe deux puits pendant la génération de celui-ci) ou par Sister, où des duplicatas apparaissent suite à la création de brins complémentaires de séquences du cluster original.

  • Duplicate Unpaired fait référence aux lectures dupliquées ni séquencées ni mappées.
  • Unmapped** correspond aux lectures non alignées.
  • Unique Unpaired** désigne les lectures sans appariement ni duplicata.
  • </ul>

    Figure 2 : causes principales de duplication en séquençage Illumina.

    source : Illumina description

    Figure 3 : diagramme en barres des lectures triées en fonction de leurs alignements et duplicatas pour chaque échantillon..

    source : nf-core RNAseq MultiQC

    Dans les données RNAseq, il est courant de trouver de tels taux de duplications. Cependant, il est important de noter que ces taux sont conséquents. Cette situation peut être due à une forte expression de certains gènes ou à des problèmes liés au séquençage Illumina.

    Pour des données DNAseq :

    Figure 4 : différents graphiques et leurs interprétations.

    Source : nf-core eager

    Nous attendons beaucoup moins de duplicatas avec des données DNAseq.

    results matching ""

      No results matching ""