Gå til hovedindhold

DeiC Interactive HPC får eftertragtede NVIDIA Hopper GPU’er til AI og ML

Skal dit forskningsarbejde køre på samme superkræfter som OpenAI, Microsoft og Google?
Af
10/04/2024 12:04
Billede
NVIDIA Hopper H100
Foto: NVIDIA

Denne nyhed kommer fra konsortiet bag DeiC Interactive HPC.

AI-virksomheder over hele verden kæmper for at få fat i den nyeste og mest kraftfulde NVIDIA GPU, kendt som H100, hvor de største kunder omfatter OpenAI, Microsoft og Google. Nu er 16 NVIDIA H100 GPU'er ankommet til SDU og er klar til at blive en integreret del af DeiC Interactive HPC’s system.

Billede
NVIDIA H100 GPU
Foto: NVIDIA

4 servere med hver 4 NVIDIA H100 GPU'er ankom til SDU mandag, den 27. november 2023.

Hvad er en GPU?

En GPU (graphics processing unit) er en kraftigere udgave af en CPU (central processing unit) og indeholder tusindvis af små kerner, der kan udføre simple opgaver mange tusinde gange hurtigere end en CPU. Hvis du ved, hvordan man fragmenterer og "paralleliserer" sin kode, kan du udføre betydeligt flere beregninger på en GPU end på en klassisk CPU. Desuden optager maskinerne mindre plads og kræver mindre køling for den samme mængde beregning - derfor er de også mere miljøvenlige.

GPU’en blev oprindeligt udviklet til computerspil, men viste sig at være særdeles velegnet til maskinlæring og kunstig intelligens. De højopløselige grafikker, der kræves til computerspil, kræver kode, der kører mere effektivt "parallelt" på små, hurtige kerner (i modsætning til i en sekvens på én stor CPU-kerne). AI og maskinlæring kræver tilsvarende den samme type beregning for at træne algoritmer ud fra data.

“I dag er GPU'er en kerneteknologi ikke kun for HPC-verdenen, men for hele samfundet. Den betydelige indflydelse, som AI har haft i de seneste år, skyldes fremskridtene inden for GPU'er. En meget stor del af dagens forskning og industrielle anvendelser kører på GPU'er. Dette er en tendens, som vil fortsætte og endda øges i fremtiden," siger Claudio Pica, direktør for SDU eScience Center og professor ved Institut for Matematik og Datalogi ved SDU.

Den kraftfulde H100 GPU

Med ankomsten af 4 servere, hver med 4 H100 GPU'er til SDU, vil danske forskere kunne få adgang til den samme hardware, som nogle af verdens største tech-virksomheder længes efter. OpenAI's ChatGPT kører angiveligt på tusindsvis NVIDIA A100 chips (den forrige generation af NVIDIA GPU'er)

Hopper-arkitekturen, som inkluderer H100 GPU'erne, er den seneste udgivelse fra NVIDIA. Arkitekturen er opkaldt efter konteradmiral Grace Hopper, der arbejdede på nogle af de første universelle computere og var ansvarlig for store fremskridt inden for programmeringssprog.

"Når vi taler om rå regnekraft, er H100 generelt 2-3 gange hurtigere end den tidligere A100-generation og markant hurtigere til AI-opgaver. Med 80 GB hukommelse har de også dobbelt så meget hukommelse som vores nuværende A100 kort. Derudover bruger de nye maskiner SMX5-stikket, hvilket muliggør samtidig non-blocking NVLink-kommunikation mellem alle GPU'er i maskinen. Dette er særligt vigtigt, når man bruger flere GPU'er på samme tid, fordi ydeevnen afhænger af, hvor hurtigt man kan overføre data mellem GPU'erne," siger Martin Lundquist Hansen, teamleder for forskningsinfrastruktur ved SDU eScience Center.

En anden fordel ved H100-kortet er, at det har MIG (Multi-Instance GPU) support, hvilket gør det muligt at opdele GPU'en i flere mindre GPU'er.

"Fordi H100 er så kraftfuld, kan det i visse workloads være uhensigtsmæssigt at anvende hele GPU'en. Dette vil give os mulighed for at fordele GPU-ressourcer til flere personer på samme tid, eksempelvis når GPU’er er påkrævet for at undervise i et kursus. Ved hjælp af denne MIG-funktion kan hver af de nye maskiner i princippet levere op til 28 GPU'er," forklarer Martin Lundquist Hansen.

Hvordan anvendes GPU'er i forskningen?

AI og maskinlæring bliver i stigende grad relevante for flere forskningsområder, herunder robot-teknologi, præcisionsmedicin, digital humaniora, bioinformatik, materialevidenskab, lægemiddel-opdagelse og fintech - for blot at nævne nogle få eksempler. På Center for Humanities Computing på Aarhus Universitet kan professor og centerleder, Kristoffer Nielbo, bekræfte det voksende behov for avancerede GPU'er.

"I anvendt NLP (Natural Language Processing) er GPU'er afgørende for træning og inferens af store sprogmodeller. Behovet for GPU-ressourcer vokser eksponentielt som følge af disse modellers stigende kompleksitet og størrelse. H100 GPU'erne er banebrydende i denne sammenhæng, da de lover en 30 gang forøgelse i ydeevne og en Transformer Engine, der kan håndtere trillion-parameter modeller. Dette enorme spring i ydeevne imødekommer direkte behovene i vores felt, hvilket gør det muligt for os at tackle mere komplekse AI-udfordringer og udvikle og bruge store sprogmodeller med større effektivitet,” forklarer Kristoffer Nielbo.

Der er mange andre forskningsområder, som i høj grad er afhængige af GPU'er. Som eksempler kunne man fremhæve: Fysik- og biofysiksimuleringer, virtuel prototyping og digitale tvillinger, Finite Element Model-simulationer og dataanalyse generelt.

Sikker, interaktiv adgang

De 16 H100-GPU'er vil blive tilgængelige gennem den nationale HPC-tjeneste, DeiC Interactive HPC, som drives af et konsortium bestående af Aarhus Universitet, Aalborg Universitet og Syddansk Universitet, hvor eScience Centret på SDU og CLAUUDIA på AAU stiller ressourcerne til rådighed, mens AU varetager supporten og hjælper nye brugere i gang.

"DeiC Interactive HPC har været en game changer for mange danske forskningsmiljøer. Det giver forskerne mulighed for interaktiv adgang til de ressourcer, som de har brug for til databehandling og dataanalyse på en langt bedre, enklere og mere sikker måde end tidligere tilgængelige systemer. DeiC Interactive HPC indeholder et stort katalog af 'apps', der dækker alle forskningsområder, som brugerne kan vælge og køre med få klik. Derudover kan forskere medbringe deres eget softwaremiljø efter behov. Dette gør det muligt for forskere at starte interaktive applikationer som Jupyter notebooks eller RStudio på kraftfulde GPU-servere på få sekunder," udtaler Claudio Pica.

Alle DeiC Interactive HPC-GPU'er er omfattet af SDU's og AAU's datacentre ISO/IEC 27001-certificeringer - en international standard for informationssikkerhed. De er yderst sikre og kan anvendes til analyse af følsomme data.

Hvordan får jeg adgang?

Når de nyindkøbte H100-GPU'er er installeret på SDU, vil de blive tilgængelige via DeiC Interactive HPC. Hvis du er forsker i Danmark, kan du ansøge om enten:

DeiC Interactive HPC

Anlægget drives af et konsortium bestående af SDU, AAU og AU. Det er eScience Centeret på SDU og CLAAUDIA på AAU, der stiller ressourcerne til rådighed, mens AU varetager supporten og hjælper nye brugere i gang.