FastQC
Distribution de la longueur des lectures
Certains séquenceurs à haut débit génèrent des lectures de longueur uniforme, mais d’autres peuvent contenir des lectures de longueurs très variées. Même au sein de librairies de longueur uniforme, certains pipelines vont nettoyer les lectures pour éliminer les bases de mauvaise qualité en fin de celles-ci.
Ce module génère une distribution des tailles des lecturess
Figure 1 : distribution des tailles des lectures.
Dans de nombreux cas, cela produira un graphique simple montrant un pic à une seule taille, mais pour les fichiers FastQ de longueur variable, le graphique permettra de visualiser les quantités de lectures ayant des tailles différentes.
Avertissement
Ce module émettra un avertissement si toutes les lectures n’ont pas la même longueur.
Échec
Ce module émettra une erreur si l’une des lectures a une longueur nulle.
Les avertissement les plus courants
Plusieurs situations peuvent conduire à des longueurs de lecture non uniques (coupe, type de librairie, séquençage…), donc la même observation peut être à la fois attendue et susciter des inquiétudes concernant le type de librairie, le type de séquençage et le prétraitement des données appliqué.
Pour certaines plateformes de séquençage, il est tout à fait normal d’avoir des longueurs de lecture différentes, donc les avertissements ici peuvent être ignorés. Lorsque les lecturess ont été coupées pour éliminer les bases de mauvaise qualité ou les adaptateurs, cela entraîne des avertissements qui peuvent également être ignorés.
À titre d’exemple, le graphique suivant donne des profils attendus pour les lectures nettoyées de petits ARN.
Figure 1 : longueur des parties des lectures coupées pour chaque échantillon.
source : Babraham Training Courses
Les différents pics correspondent à des biotypes de petits ARN. Par exemple, les miARN correspondent au pic positionné à 22 pb. Mais pour les librairies mRNAseq, ce type de profil peut être préoccupant.