Komondor AI partíció
A komondor AI partíciója 4 db HPE Apollo 6500 Gen10Plus Blade-ből áll, amiben bladenként 1 node van, minden nodeon 8 GPU-val. Így összesen 32 db GPU elérhető.
GPU:
NVIDIA A100 TENSOR CORE GPU
VRAM 40 GB
Node-onként 8 db GPU
Processzor:
AMD EPYC 7763 64-Core Processor (2.45GHz)
Max boost clock: 3.5 GHz
Node-onként: 2 CPU
Memória:
DDR4 3200MHz 16GB
16 DIMM modul per foglalat
Összesen 256 GB per foglalat, Node-onként 512 GB RAM
Hálózat:
HPE Slingshot 200GbE

GPU Blade-ek és Node-ok nevei a renszerben:
Például: cn01
c - Chassis
n - Node (01-04)
Az AI node-ok használatról
Interaktív feladatok a következő példa alapján küldhetők be:
A run_script.sh script fájlunk a következő sorokat tartalmazza:
module load singularity
singularity exec --nv ubuntu_CUDA_ai.sif python env_test.py
Ebben a példában:
a script betölti a singularity konténer kezelő modult
lefuttatja az ubuntu_CUDA_ai.sif konténerben az env_test.py python scriptünket
az NVIDIA GPU-kat az nv kapcsoló konténeren belül is elérhetővé teszi
Ezt a run_script.sh fájt a következő paranccsal futtatjuk le:
srun --partition=ai --cpus-per-gpu=32 --mem-per-cpu=2000 --gres=gpu:1 bash run_script.sh
Ezzel a paranccsal 1 db AI partíción, 1 GPU használatával futtatjuk a script.sh feladatot. Minden lefoglalt GPU mellé 32 core CPU-t rendelünk, CPU-nként 2000 Mb memóriával.
Tipp
A CPU magonkénti memória-limit 2000 Mb. Ha nem elég 2000 Mb memória a konténer futtatásához, csak több CPU kiosztásával együtt lehet több memóriát kérni. Akár GPU használat esetén is érdemes több CPU-t kérni a konténer futtatásához.
Batch job indítása a következő példa alapján végezhető:
Az előző feladatot batch jobként is lefuttathatjuk. Ebben az esetben a batch_script.sh fájl tartalma a következő lesz:
#!/bin/bash
#SBATCH -A ACCOUNT
#SBATCH --partition=ai
#SBATCH --job-name=jobname
#SBATCH --cpus-per-gpu=32
#SBATCH --mem-per-cpu=2000
#SBATCH --gres=gpu:1
module load singularity
singularity exec --nv ubuntu_CUDA_ai.sif python env_test.py
Ezt a scriptet a következő paranccsal futtatva sorbaállítjuk a feladatot.
bash batch_scipt.sh
A példa alapján az AI partíción, 1 db GPU-n indítottuk el a script.sh nevű scriptet. Minden lefoglalt GPU-hoz 32 core CPU-t foglaltunk le, core-onként 2000 Mb memóriával.
Linkek