Picard
Mark Duplicates
MarkDuplicates utilise les informations contenues dans les fichiers BAM/SAM pour présenter les niveaux de duplication dans les échantillons.
Figure 1 : diagramme en barres des lectures triées en fonction de leurs alignements et duplicatas.
source : nf-core SAREK MultiQC
Légende :
Duplicate Pairs Nonoptical désigne les duplicatas appariés qui ne sont pas liés au problème optique d’Illumina. Cela peut provenir de la surexpression d’un gène, d’un problème de PCR, de clustering (situation où un cluster occupe deux puits pendant la génération de celui-ci) ou par Sister, où des duplicatas apparaissent suite à la création de brins complémentaires de séquences du cluster original.

Figure 2 : causes principales de duplication en séquençage Illumina.
source : Illumina description
Figure 3 : diagramme en barres des lectures triées en fonction de leurs alignements et duplicatas pour chaque échantillon..
source : nf-core RNAseq MultiQC
Dans les données RNAseq, il est courant de trouver de tels taux de duplications. Cependant, il est important de noter que ces taux sont conséquents. Cette situation peut être due à une forte expression de certains gènes ou à des problèmes liés au séquençage Illumina.
Pour des données DNAseq :
Figure 4 : différents graphiques et leurs interprétations.
Source : nf-core eager
Nous attendons beaucoup moins de duplicatas avec des données DNAseq.