UNIL.4

GridUNIL (phase 2)

Long Title: GridUNIL II: focusing on users needs
Leading
Organization:
Université de Lausanne
Domain: Grid
Status: finished
Start Date: 01.11.2009
End Date: 31.10.2011
Project Leader: H. Hussain-Khan

GridUNIL phase 2 a amélioré l’accessibilité aux différentes ressources de calcul de l’UNIL et augmenté l’acceptation et l’usage des technologies de type calcul distribué. La puissance de calcul à disposition des chercheurs via GridUNIL est augmentée et la pérennité assurée.

voir: phase 1

Résultats

Composante Déscription
Infrastructures de calcul de type interactif et HPC La description détaillée des ressources de calcul offertes à l'ensemble des chercheurs de l'UNIL ainsi qu'à ceux des institutions partenaires est présentée sur la page http://www.unil.ch/ci/page84512.html
Monitoring du cluster HPC et des serveurs interactifs: http://hiphead.unil.ch/ganglia/ (interne)
Système de stockage parrallel objet GUI du système de stockage Panasas: https://panfs.unil.ch/ (interne)
Sytèmes/serveur de réplication & backup des homes/utilisateurs repstor.unil.ch (interne)
Applications supportées Une vingtaine d'applications scientifiques disponibles sur l'ensemble des systèmes de calcul de l'UNIL (exportables en NFS ou PanFS depuis le système de stockage Panasas): http://www.unil.ch/ci/page84509.html
Plateforme GPGPU Disponible sur les deux serveurs interactifs (argos1 et argos2) ainsi que sur deux nœuds de calcul du serveur HPC - Applications GPGPU supportées: CUDA, GPUmat, Matlab parallel computing toolbox, Mathematica8, GromacsGPU, VMD, ACEMD, OpenCV

La communauté des utilisatuers profite de l'access libre et facile à une plus grande performance de calcul. Les utilisateurs trouvent également de l'assistance pour mettre en parallèle leurs applications.

  • But 1: améliorer l'accessibilité aux différentes ressources de calcul de l'UNIL:
    mise en place d'un support de proximité personnalisé pour chacun des nouveaux utilisateurs.

Un support de proximité personnalisé pour chacun de nos nouveaux utilisateurs a été mis en place. Nous initions généralement la relation avec un nouvel utilisateur par un entretien informel d'environ une heure oú il nous expose son sujet de recherche, les questions qu'il aborde, les méthodes et les outils informatiques qu'il utilise, les problèmes auxquels il est confronté avec ses outils actuels. De là, nous définissons ensemble ses besoins en ressources de calcul et mettons en place une stratégie de scale-up de son code sur une plateforme de calcul distribué adaptée au type de problème qu'il aborde. Nous n'attendons pas de sa part de connaissance particulière en termes de calcul distribué. Dans la mesure de nos moyens et selon leurs niveaux de connaissances en programmation, nous leur écrivons les wrappers et les scripts de description de jobs leur permettant d'accéder aux ressources de calcul distribué. Une quinzaine de projets ont ainsi été portés sur nos infrastructures durant la seconde phase du projet GridUNIL.

  • But 2: augmenter la puissance de calcul à disposition des chercheurs via GridUNIL.

L'essentiel de la demande s'articule autour de serveurs de calcul interactifs pour les très petits projets et un petit cluster HPC pour les projets nécessitant quelques milliers à quelques centaines de milliers d'heures de calcul. L'intégration de ce type de ressources dans GridUNIL a rencontré un grand succès de la part de nos utilisateurs. Nous avons aussi mis à disposition quelques nœuds de calcul offrant une très grande puissance de calcul sous la forme de cartes graphiques dédiée au calcul généraliste (GPGPU computing), mais cette approche n'a suscité que très peu d'intérêt pratique de la part de nos utilisateurs. La raison de ce désintérêt (mis à part quelques exceptions) vient sans doute du fait qu'il faut recoder l'application initiale en tenant compte de la nouvelle architecture ou disposer d'une application déjà portée sur du GPGPU. Il semblerait que pour beaucoup d'utilisateurs cette contrainte représente un trop grand investissement en temps et ils renoncent à cette approche.

  • But 3: assurer la pérennité des infrastructures de GridUNIL.

La pérennité de l'infrastructure est assurée par la création d'un poste à durée indéterminée dont la tâche consistera à prendre en charge le support utilisateur et à assurer la maintenance et l'évolution des systèmes de calcul.


Situation initiale

Après la phase 1 l’UNIL dispose d’un ensemble des fonctionnalités de base d’une infrastructure de type grille de calcul.
L’UNIL a effectué une enquête auprès de ses chercheurs à fin de mieux cerner leurs besoins en infrastructures de calcul pour une période couvrant les trois prochaines années. Les résultats de cette étude ont mis en évidence un besoin grandissant de plusieurs types de ressources de calcul.
La seconde phase du projet va servir à adapter les infrastructures de GridUNIL et d’ajouter de nouvelles fonctionnalités sur la base des demandes formulées par les utilisateurs. Cela à fin de mieux servir la communauté de chercheur.

Objectifs

Le projet a trois buts principaux:

  1. amélioration de l’accessibilité aux différentes ressources de calcul de l’UNIL et augmentation de l’acceptation et de l’usage des technologies de type calcul distribué;
  2. augmentation de la puissance de calcul à disposition des chercheurs via GridUNIL;
  3. assurer la pérennité des infrastructures de GridUNIL.

Afin d’atteindre ces buts, les services suivants seront développés:

  • service de support et de conseil pour le portage des applications des utilisateurs sur GridUNIL;
  • point d’entrée unique (client GridUNIL/SMSCG) pour la soumission de jobs sur l’ensemble des différentes infrastructures de calcul de l’UNIL, qu’elles soient de type interactif, batch, HPC ou desktop computing, ainsi que sur les infrastructures du SMSCG;
  • virtualisation de l’ensemble des ressources de GridUNIL via un meta-schedduler;
  • simplification de la gestion des fichiers en exportant les homes directory dédiés au calcul sur un file system unique monté sur l’ensemble des ressources de calcul de l’UNIL. Qu’elles soient de type noeuds de calcul HPC, Condor, serveurs de calcul interactifs ou simplement desktops personnels pour préparer les datas avant soumission ou les analyser les résultats en post-traitement;
  • interface graphique pour la soumission des jobs et la gestion des certificats.

  • upgrade et intégration dans GridUNIL du cluster de Calcul HPC Hippocrate et du/des serveurs de calculs interactifs Argos;
  • amélioration de la mise à disposition des noeuds dormants sur les clusters de calcul propriétaires par la récupération des cycles CPUs inutilisés via Condor;
  • intégration de noeuds GPGPU dans GridUNIL. Le but est d’augmenter la disponibilité des CPUs classique en routant sur ces noeuds les jobs pouvant bénéficier d’une accélération notable (10x à 150x) s’ils sont effectués sur des cartes GPGPU.

  • assurer la maintenance, les updates et le déploiement des futures évolutions du middleware composant GridUNIL;
  • formation d’un support backup.

Back