AI partíció

A komondor AI partíciója 4 db HPE Apollo 6500 Gen10Plus Blade-ből áll, amiben bladenként 1 node van, minden nodeon 8 GPU-val. Így összesen 32 db GPU elérhető.

GPU:

  • NVIDIA A100 TENSOR CORE GPU

  • VRAM 40 GB

Node-onként 8 db GPU

Processzor:

  • AMD EPYC 7763 64-Core Processor (2.45GHz)

  • Max boost clock: 3.5 GHz

Node-onként: 2 CPU

Memória:

  • DDR4 3200MHz 16GB

  • 16 DIMM modul per foglalat

Összesen 256 GB per foglalat, Node-onként 512 GB RAM

Hálózat:

  • HPE Slingshot 200GbE

NVIDIA A100

GPU Blade-ek és Node-ok nevei a renszerben:

Például: cn01

  • c - Chassis

  • n - Node (01-04)

Az AI node-ok használatról

Interaktív feladatok a következő példa alapján küldhetők be:

A run_script.sh script fájlunk a következő sorokat tartalmazza:

module load singularity
singularity exec --nv ubuntu_CUDA_ai.sif python env_test.py

Ebben a példában:

  • a script betölti a singularity konténer kezelő modult

  • lefuttatja az ubuntu_CUDA_ai.sif konténerben az env_test.py python scriptünket

  • az NVIDIA GPU-kat az nv kapcsoló konténeren belül is elérhetővé teszi

Ezt a run_script.sh fájt a következő paranccsal futtatjuk le:

srun --partition=ai --cpus-per-gpu=32 --mem-per-cpu=2000 --gres=gpu:1 bash run_script.sh

Ezzel a paranccsal 1 db AI partíción, 1 GPU használatával futtatjuk a script.sh feladatot. Minden lefoglalt GPU mellé 32 core CPU-t rendelünk, CPU-nként 2000 Mb memóriával.

Tipp

A CPU magonkénti memória-limit 2000 Mb. Ha nem elég 2000 Mb memória a konténer futtatásához, csak több CPU kiosztásával együtt lehet több memóriát kérni. Akár GPU használat esetén is érdemes több CPU-t kérni a konténer futtatásához.

Batch job indítása a következő példa alapján végezhető:

Az előző feladatot batch jobként is lefuttathatjuk. Ebben az esetben a batch_script.sh fájl tartalma a következő lesz:

#!/bin/bash
#SBATCH -A ACCOUNT
#SBATCH --partition=ai
#SBATCH --job-name=jobname
#SBATCH --cpus-per-gpu=32
#SBATCH --mem-per-cpu=2000
#SBATCH --gres=gpu:1
module load singularity
singularity exec --nv ubuntu_CUDA_ai.sif python env_test.py

Ezt a scriptet a következő paranccsal futtatva sorbaállítjuk a feladatot.

bash batch_scipt.sh

A példa alapján az AI partíción, 1 db GPU-n indítottuk el a script.sh nevű scriptet. Minden lefoglalt GPU-hoz 32 core CPU-t foglaltunk le, core-onként 2000 Mb memóriával.

Linkek

Cray Exascale Supercomputer

HPE Cray EX Liquid-Cooled Cabinet

AMD CPU

NVIDIA A100