FastQC
Contenu en séquence par base
Analyse par base le long de chaque séquence.
Figure 1 : heatmap des échantillons indiquant la composition en nucléotides.
source : Babraham Training Courses
Cliquer sur un échantillon permet de visualiser les bases le long de chaque séquence :
Figure 2 : pourcentages de A, T, C ou G dans les lectures pour un échantillon sélectionné sur la figure 1.
source : Babraham Training Courses
Chacune des 4 bases d’ADN se trouve normalement avec à peu près le même pourcentage (peu ou pas de différence entre les bases) au fur et à mesure que la séquence est lue.
Par conséquent, les lignes sur le graphique devraient être parallèles les unes aux autres. La quantité relative de chaque base devrait refléter la quantité globale de ces bases dans votre génome, mais en aucun cas il ne devrait y avoir de grands déséquilibres entre elles.
S’il y a un déséquilibre entre les différentes bases, cela indique généralement qu’une séquence est surreprésentée et que votre librairie est donc contaminée. Si ce biais est constant sur toutes les bases, cela indique :
soit que la librairie originale était biaisée,
soit qu'il y a un problème systématique lors du séquençage des lectures
Avertissement
Le module émet un avertissement si la différence entre A et T, ou U et C est supérieure à 10% à n’importe quelle position.
Échec
Ce module échoue si la différence entre A et T, ou U et C est supérieure à 20% à n’importe quelle position.
Les avertissement les plus courants
Figure 3 : exemple de bon résultat.
Bonnes données :
- Lignes parallèles sur toute la longueur : les lignes sont parallèles les unes aux autres.
- Dépendant de l’organisme (contenu en GC)
Figure 4 : exemple de mauvais résultat.
Mauvaises données :
- Séquencence avec des biais de positions.
Figure 5 : schema représentant les résultats attendus.
source : eager pipeline nf-core