Hjem Fremover tenking Store endringer er endelig i horisonten for superdatamaskiner

Store endringer er endelig i horisonten for superdatamaskiner

2024

Video: Kryss av temperatur på grensen (Oktober 2024)

Når jeg ser tilbake på denne ukens ISC 17-superdatakonferanse, ser det ut som om superdataarverdenen vil se noen store oppgraderinger i løpet av de neste par årene, men oppdateringen til den to ganger årlige Topp 500-listen over verdens raskeste superdatamaskiner var ikke veldig forskjellig fra forrige versjon.

De raskeste datamaskinene i verden fortsetter å være de to massive kinesiske maskinene som har toppet listen i noen år: Sunway TaihuLight datamaskin fra Kinas National Supercomputing Center i Wuxi, med vedvarende Linpack-ytelse på mer enn 93 petaflops (93 tusen billioner flytende punkt operasjoner per sekund); og Tianhe-2 datamaskinen fra Kinas National Super Computer Center i Guangzhou, med vedvarende ytelse på mer enn 33, 8 petaflops. Disse forblir de raskeste maskinene med stor margin.

Det nye nummer tre er Piz Daint-systemet fra Swiss National Supercomputing Center, et Cray-system som bruker Intel Xeons og Nvidia Tesla P100s, som nylig ble oppgradert for å gi den en Linpack vedvarende ytelse på 19, 6 petaflops, to ganger den forrige totalen. Som flyttet den opp fra nummer åtte på listen.

Dette synker det øverste amerikanske systemet - Titan-systemet ved Oak Ridge National Laboratory - ned til fjerdeplassen, noe som gjør dette første gang på tjue år at det ikke er noe amerikansk system i topp tre. Resten av listen forblir uendret, med USA som fortsatt står for fem av de 10 beste sammenlagt, og Japan for to.

Selv om den raskeste datalisten ikke har endret seg mye, er det store endringer andre steder. På Green 500-listen over de mest energieffektive systemene endret ni av de ti beste. På toppen er Tsubame 3.0-systemet, et modifisert HPE ICE XA-system ved Tokyo Institute of Technology basert på en Xeon E5-2680v4 14-kjerne, Omni-Path-sammenkobling, og Nvidias Tesla P100, som gir mulighet for 14, 1 gigaflops per watt. Dette er et enormt hopp fra Nvidias DGX Saturn V, basert på firmaets DGX-1-plattform og P100-brikker, som var nummer én på november-listen, men nummer ti denne gangen, på 9, 5 gigaflops / Watt. P100 er i ni av de ti Green500-systemene.

Å bryte 10 gigaflops / watt er en stor sak fordi det betyr at et hypotetisk exaflop-system bygget med dagens teknologi vil forbruke under 100 megawatt (MW). Det er fremdeles for mye - målet er 20-30 MW for et exaflop-system, som forskere håper å se i løpet av de neste fem årene eller så - men det er et stort skritt fremover.

I likhet med Topp 500-listen var det bare mindre endringer på lignende lister med forskjellige benchmarks, for eksempel High Performance Conjugate Gradients (HPCG) benchmark, der maskiner har en tendens til å se bare 1-10 prosent av sin teoretiske toppytelse, og hvor toppen system - i dette tilfellet leverer Riken K-maskinen fremdeles mindre enn 1 petaflop. Både TaihuLight og Piz Daint-systemene rykket opp på denne listen. Når forskere snakker om en exaflop-maskin, pleier de å mene Linpack-målestokken, men HPCG kan være mer realistisk med tanke på ytelse i den virkelige verden.

Fremveksten av GPU-databehandling som en akselerator - nesten alltid ved å bruke Nvidia GPU-prosessorer som P100 - har vært den mest synlige endringen på disse listene de siste årene, etterfulgt av introduksjonen av Intels egen akselerator, den mangekjernede Xeon Phi (inkludert den nyeste Knights Landing-versjonen). Den nåværende Top 500-listen inkluderer 91 systemer som bruker gasspedaler eller koprocessorer, inkludert 74 med Nvidia GPUer og 17 med Xeon Phi (med ytterligere tre som bruker begge); en med en AMD Radeon GPU som en akselerator, og to som bruker en prosessor med mange kjerner fra PEZY Computing, en japansk leverandør. Ytterligere 13 systemer bruker nå Xeon Phi (Knights Landing) som hovedbehandlingsenhet.

Men mange av de større endringene til superdatamaskiner er fremdeles i horisonten, da vi begynner å se større systemer designet med disse konseptene i tankene. Et eksempel er den nye MareNostrum 4 på Barcelona Supercomputing Center, som kom inn på Topp 500-listen på nummer 13. Som installert så langt, er dette et Lenovo-system basert på den kommende Skylake-SP-versjonen av Xeon (offisielt Xeon Platinum 8160 24 -core prosessor). Det som er interessant her er de tre nye klyngene med "ny teknologi" som er planlagt de neste par årene, inkludert en klynge med IBM Power 9-prosessorer og Nvidia GPU-er, designet for å ha en topp prosesseringsevne på over 1, 5 Petaflops; et sekund basert på Knights Hill-versjonen av Xeon Phi; og en tredje basert på 64-biters ARMv8-prosessorer designet av Fujitsu.

Disse konseptene blir brukt i en rekke andre store superdataprosjekter, særlig flere sponset av det amerikanske energidepartementet som en del av sitt CORAL-samarbeid på Oak Ridge, Argonne og Lawrence Livermore National Labs. Først opp bør Summit at Oak Ridge, som vil bruke IBM Power 9-prosessorer og Nvidia Volta GPUer, og planlagt for å levere over 150 til 300 topp petaflops; etterfulgt av Sierra ved Lawrence Livermore, planlagt til å levere over 100 topp petaflops.

Vi skulle da se Aurora-superdatamaskinen på Argonne National Laboratory, basert på Knights Hill-versjonen av Xeon Phi og bygget av Cray, som er beregnet til å levere 180 topp petaflops. CORAL-systemene skal være oppe og løping neste år.

I mellomtiden har de kinesiske og japanske gruppene også planlagt oppgraderinger, mest ved hjelp av unike arkitekturer. Det skal være interessant å se på.

Et enda større skifte ser ut til å være litt lenger unna: skiftet mot maskinlæring, typisk på massivt parallelle prosesseringsenheter i selve prosessoren. Mens Linpack-tallet refererer til 64-biters eller dobbel presisjonsytelse, er det klasser av applikasjoner - inkludert mange dype nevrale nettverksbaserte applikasjoner - som fungerer bedre med enkel- eller til og med halvpresisjonsberegninger. Nye prosessorer drar nytte av dette, for eksempel Nvidias nylige Volta V100 kunngjøring og den kommende Knights Mill-versjonen av Xeon Phi. På utstillingen sa Intel at den versjonen, som antas å være i produksjon i fjerde kvartal, ville ha nye instruksjonssett for "lite presisjonsberegning" kalt Quad Fused Multiply Add (QFMA) og Quad Virtual Neural Network Instruction (QVNNI).

Jeg antar at disse konseptene også kan brukes på andre arkitekturer, for eksempel Googles TPU-er eller Intels FPGA-er og Nervana-brikker.

Selv om vi ikke ser store endringer i år, bør vi neste år forvente å se mer. Konseptet med en exascale (1000 teraflops) maskin er fremdeles i sikte, selv om det sannsynligvis vil innebære en rekke enda større endringer.