Présentation du service
L'infrastructure de calcul de l'IGBMC permet au personnel scientifique d'effectuer des analyses et traitement de données nécessitant des ressources de calcul importantes. Cette infrastructure est mise à disposition des chercheurs gratuitement.
L'infrastructure comprend également une collection d'outils de bioinformatique prêt à l'emploi couvrant différent domaines scientifiques (génomique, protéomique, imagerie, cryoem, etc.).
Une équipe d'expert en calcul accompagne et conseille les utilisateurs pour bénéficier des meilleurs performances lors de leurs analyses.
Pour répondre à des besoins spécifiques, des machines de calcul dédiées acquises par les équipes de recherche peuvent être ajoutées au cluster.
L'essentiel Ă savoir
- 408 coeurs, 1,3To de RAM, 3 noeuds GPU (4 K80 et 4 A100)
- Accès au cluster au travers d'une connexion SSH
- Lancement de jobs SLURM en mode batch ou interactif (avec support de la redirection X)
- Accès à votre dossier personnel Unix ainsi qu'à vos espaces de stockage à la demande Space2
- Plus de 600 outils de bioinformatique disponibles au travers de
module
Questions fréquentes
Oui, l'utilisation des ressources de calcul est gratuite pour l'ensemble du personnel de l'IGBMC. Pour des besoins spécifiques, les équipes de recherches peuvent acheter des ressources de calcul qui seront intégrées au cluster et pour lesquelles elles disposeront d'un accès prioritaire.
L'ensemble des outils du cluster sont accessibles au travers de l'utilitaire module
.
Vous pouvez lister l'ensemble des outils disponibles en utilisant la commande module avail
Vous pouvez faire appel au service
Les outils de calcul scientifiques sont déployés par l'intermédiaire du dépôts de déploiement national proposé par l'Institut Français de Bioinformatique (IFB) dont l'IGBMC est un important contributeur : https://gitlab.com/ifb-elixirfr/cluster/tools
Vous pouvez contribuer à ce dépôt afin de proposer le déploiement d'un nouvel outil de calcul. Cette contribution permettra de déployer rapidement et automatiquement l'outil sur le cluster de l'IGBMC mais également sur l'ensemble des clusters du réseau IFB.
Vous pouvez également déployer l'outil dans votre dossier personnel (homedir) ou dans l'un de vos espaces projets (space2) au travers d'un environnement Conda ou d'une image Singularity. Pour en savoir plus, consulter nos documentations.
Dans un premier temps, voyez la raison invoquée dans l'enregistrement du job. Si le job s'est arrêté depuis moins de quelques minutes, il est possible de consulter des informations détaillées avec la commande :
scontrol show jobid=numérodejob
Sinon, il faut interroger la base de données de gestion :
sacct
La dernière colonne du résultat de cette commande donne deux valeurs séparées par un double point. La première est le code de retour du script (seul le code 0 indique que tout s'est bien terminé), la seconde le numéro de signal si le processus a été tué par un signal. La colonne State peut donner un indice sur les raisons de l'arrêt : FAILED indique plutôt une erreur du job, CANCELLED indique que le job a été arrêté prématurément.
Il est possible de modifier les colonnes présentées par sacct, par exemple :
SACCT_FORMAT="jobid,user,elapsed,state%40,Comment,Timelimit,Start,ReqMem,maxRss,ReqCpus,nodelist" sacct -S 2021-11-08 -E 2021-11-10
où la syntaxe "%N" permet de rallonger la taille de la colonne. C'est nécessaire lorsque le contenu d'une colonne affiche des "+", ce qui signifie que le texte est plus long que la largeur de la colonne. Les champs "ReqMem" et "MaxRss" permettent de voir si la mémoire demandée par le job a atteint ou dépassé la mémoire reservée, ce qui est une cause fréquente d'annulation des jobs. Dans ce cas, relancez le job avec plus de mémoire (si vous n'avez pas d'information pour calculer le besoin en mémoire, doublez-la à chaque tentative infructueuse, si possible) puis diminuez-la au cours des lancements ultérieurs pour adapter au mieux la demande à l'utilisation réelle.
Les options -S et -E permettent respectivement de spécifier une date de début et de fin de recherche pour les jobs à afficher.
Si votre job affiche un résultat "FAILED", consultez la sortie d'erreur et la sortie standard du job. Par défaut, Slurm place celles-ci dans des fichiers nommés "slurm-numérodujob.out" pour les jobs lancés avec sbatch.
Un certain nombre de noeuds de calcul sont équipés de GPU. À l’heure de l’écriture de ces lignes il s’agit de:
- phantom-node1: 4x Nvidia K80 (Tesla)
- phnatom-node33 : 2x Nvidia A100 (Ampere)
- phantom-node34 : 2x Nvidia A100 (Ampere)
Pour réserver ces ressources il faut placer son job dans la partition “gpu” (option -p gpu) et sélectionner le nombre et le type de GPU à allouer au job.
cela se fait en spécifiant l’option :
--gres=gpu:nomdugpu:nombre
ou
--gres=gpu:nombre
vous pourrez trouver les GPU disponibles sur un noeud en exécutant:
scontrol show node=nomdunoeud
Si vous ne choisissez pas un type de GPU spécifique, le système d’allocation prendra n’importe lequel disponible.
Les cartes A100 peuvent être subdivisées selon le besoin, aussi les GPU disponibles avec ces cartes peuvent varier selon le moment. Leur nommage suit la forme aXg.Ygb, où X est le nombre d’unités de calcul et Y la quantité de RAM associée à ce GPU. Si aucune configuration disponible n’est adaptée au job que vous voulez lancer, merci de contacter le pôle calcul.
Disponible pour
Personnel scientifique de l'IGBMC
Documentation
Conditions d'accès
Engagement de niveau de service
Service accessible 24h/24, 7 jours sur 7 depuis une simple connexion internet.
La disponibilité du service n'est pas garantie
La maintenance du cluster et le support des utilisateurs est assurée du lundi au vendredi de 9h à 12h et de 13h à 17h
En fonction de la charge de l'infrastructure, il se peut que les ressources demandées pour une tâche soient ponctuellement indisponibles.
Services associés
Responsable du service
Direction des systèmes d'information > Pôle Infrastructure