Short-read alignment and small size variants calling
MAJ:20/10/2023
Objectifs:
Cette formation a pour but de vous aider à traiter les séquences courtes issues des plates-formes de séquençage Illumina. Vous y découvrirez les formats de séquences et d’alignement les biais connus et mettrez en œuvre des logiciels d'alignement sur génome de référence, la recherche de variants, l'annotation de variants et l'analyse a l'aide du pipeline nf-core/Sarek.
Pré-requis: savoir utiliser un environnement Unix.
Pour réaliser l'ensemble de ces exercices, connectez-vous sur votre compte genobioinfo
en utilisant mobaXterm
depuis un poste windows (voir les instructions de connexion) ou la commande ssh
depuis un poste linux.
ssh -X <username>@genobioinfo.toulouse.inrae.fr
Pour les traitements « lourds » utilisez le cluster avec la commande srun --pty bash
ou srun --x11 --pty bash
(pour l’interface graphique).
Genotoul cluster reminder.
Mise en place de l'environnement de travail:
- Se connecter sur le serveur
genobioinfo.toulouse.inrae.fr
suivre les indications de la page ressources -> Connexion SSH avec mobaXterm Positionnement dans le répertoire de travail accessible en écriture depuis le cluster
cd ~/work
Créer dans votre répertoire
work
, un répertoire de travail:Formation_Aln-SNP
.mkdir Formation_Aln-SNP cd Formation_Aln-SNP
Les données sur lesquelles nous allons travailler sont dans le répertoire
/save/user/formation/public_html/16_SGS-SNP/Data_Chr25-26/
Créer des liens sur les fichiers a l'aide des commandes suivantes:ln -s /save/user/formation/public_html/16_SGS-SNP/Data_Chr25-26/G* . ln -s /save/user/formation/public_html/16_SGS-SNP/Data_Chr25-26/S* .
Verifier que les 7 fichiers sont bien présents.