Hjem Fremover tenking Hvorfor maskinlæring er fremtiden

Hvorfor maskinlæring er fremtiden

Innholdsfortegnelse:

Video: Ta regi på fremtiden din (Oktober 2024)

Video: Ta regi på fremtiden din (Oktober 2024)
Anonim

På denne månedens SC16 Supercomputing-konferanse skilte to trender seg ut. Den første er utseendet til Intels siste Xeon Phi (Knights Landing) og Nvidias siste Tesla (den Pascal-baserte P100) på Top500-listen over de raskeste datamaskinene i verden; begge systemene landet på toppen 20. Det andre er en stor vekt på hvordan brikke- og systemprodusenter tar konsepter fra moderne maskinlæringssystemer og bruker disse på superdatamaskiner.

På den nåværende revisjonen av Top500-listen, som blir oppdatert to ganger årlig, er toppen av diagrammet fremdeles fast i hendene på Sunway TaihuLight-datamaskinen fra Kinas National Supercomputing Center i Wuxi, og Tianhe-2-datamaskinen fra Kinas National Super Computer Sentrum i Guangzhou, slik det har vært siden ISC16-show i juni. Ingen andre datamaskiner er i nærheten av total ytelse, med systemene til tredje og fjerde rangering - fremdeles Titan-superdatamaskinen på Oak Ridge og Sequoia-systemet på Lawrence Livermore - begge leverer omtrent halvparten av ytelsen til Tianhe-2.

Den første av disse er basert på en unik kinesisk prosessor, 1, 45 GHz SW26010, som bruker en 64-bit RISC-kjerne. Dette har en uovertruffen 10.649.600 kjerner som leverer 125, 4 petaflops med teoretisk toppgjennomstrømning og 93 petaflops med maksimal målt ytelse på Linpack målestokk ved bruk av 15, 4 megawatt effekt. Det skal bemerkes at selv om denne maskinen topper listene i Linpack-ytelsen med en stor margin, klarer den ikke like bra i andre tester. Det er andre benchmarks som HPCG (benchmark) for høy ytelse, hvor maskiner har en tendens til å bare se 1 til 10 prosent av sin teoretiske toppytelse, og hvor toppsystemet - i dette tilfellet Riken K-maskinen - fortsatt leverer mindre enn 1 petaflop.

Men Linpack-testene er standarden for å snakke om high-performance computing (HPC) og hva som brukes til å lage Top500-listen. Ved hjelp av Linpack-testene var nr. 2-maskinen, Tianhe-2, nr. 1 på diagrammet de siste årene, og bruker Xeon E5 og eldre Xeon Phi (Knights Corner) -akseleratorer. Dette tilbyr 54, 9 petaflops med teoretisk toppytelse, og benchmarks på 33, 8 petaflops i Linpack. Mange observatører mener at et forbud mot eksport av de nyere versjonene av Xeon Phi (Knights Landing) førte til at kineserne opprettet sin egen superdataprosessor.

Knights Landing, formelt Xeon Phi 7250, spilte en stor rolle i de nye systemene på listen, og startet med at Cori-superdatamaskinen på Lawrence Berkeley National Laboratory kom på en femteplass, med en toppytelse på 27, 8 petaflops og en målt ytelse på 14 petaflops. Dette er et Cray XC40-system, som bruker Aries-koblingen. Merk at Knights Landing kan fungere som en hovedprosessor, med 68 kjerner per prosessor som leverer 3 topp teraflops. (Intel lister opp en annen versjon av brikken med 72 kjerner ved 3, 46 teraflops med topp teoretisk dobbel presisjonsytelse på prislisten, men ingen av maskinene på listen bruker denne versjonen, kanskje fordi den er dyrere og bruker mer energi.)

Tidligere kunne Xeon Phis bare kjøre som akseleratorer i systemer som ble kontrollert av tradisjonelle Xeon-prosessorer. På sjetteplass var Oakforest-PACS-systemet til Japans Joint Center for Advanced High Performance Computer, med 24, 9 topp petaflops. Dette er bygget av Fujitsu, ved hjelp av Knights Landing og Intels Omni-Path-sammenkobling. Knights Landing brukes også i nr. 12-systemet (Marconi-datamaskinen ved Italias CINECA, bygget av Lenovo og bruker Omni-Path) og nr. 33-systemet (Camphor 2 ved Japans Kyoto-universitet, bygget av Cray og ved bruk av Væren inter~~POS=TRUNC).

Nvidia var også godt representert på den nye listen. System nr. 8, Piz Daint på Swiss Swiss Supercomputing Center, ble oppgradert til en Cray XC50 med Xeons og Nvidia Tesla P100, og tilbyr nå i underkant av 16 petaflops med teoretisk toppytelse, og 9, 8 petaflops av Linpack-ytelse - en stor oppgradering fra 7, 8 petaflops med topp ytelse og 6, 3 petaflops med Linpack-ytelse i sin tidligere iterasjon basert på Cray XC30 med Nvidia K20x-akseleratorer.

Det andre P100-baserte systemet på listen var Nvidias egen DGX Saturn V, basert på selskapets egne DGX-1-systemer og en Infiniband-sammenkobling, som kom inn på nr. 28 på listen. Legg merke til at Nvidia nå selger både prosessorer og DGX-1-apparatet, som inkluderer programvare og åtte Tesla P100-er. DGX Saturn V-systemet, som Nvidia bruker for intern AI-forskning, scorer nesten 4, 9 topp petaflops og 3, 3 Linpack petaflops. Men det Nvidia påpeker er at den bare bruker 350 kilowatt kraft, noe som gjør den mye mer energieffektiv. Som et resultat topper dette systemet Green500-listen over de mest energieffektive systemene. Nvidia påpeker at dette er betydelig mindre energi enn det Xeon Phi-baserte Camphor 2-systemet, som har lignende ytelse (nesten 5, 5 petaflops peak og 3, 1 Linpack petaflops).

Det er en interessant sammenligning, med Nvidia som viser bedre energieffektivitet på GPU-er og Intel touter en mer kjent programmeringsmodell. Jeg er sikker på at vi vil se mer konkurranse i årene som kommer, ettersom de forskjellige arkitekturene konkurrerer om å se hvilken av dem som vil være den første til å nå "exascale computing" eller om den kinesiske hjemmevokste tilnærmingen kommer dit i stedet. For øyeblikket forventer det amerikanske energidepartementet Exascale Computing Project at de første exascale-maskinene skal installeres i 2022 og går i drift året etter.

Jeg synes det er interessant å merke seg at til tross for vektleggingen av mange kjerneakseleratorer som Nvidia Tesla og Intel Xeon Phi-løsningene, er det bare 96 systemer som bruker slike akseleratorer (inkludert de som bruker Xeon Phi alene); i motsetning til 104 systemer for et år siden. Intel fortsetter å være den største brikkeleverandøren, med brikkene i 462 av de 500 systemene, fulgt av IBM Power-prosessorer i 22. Hewlett-Packard Enterprise opprettet 140 systemer (inkludert de som er bygget av Silicon Graphics, som HPE kjøpte), Lenovo bygde 92, og Cray 56.

Machine Learning Competition

Det var en rekke kunngjøringer på eller rundt showet, de fleste omhandlet en form for kunstig intelligens eller maskinlæring. Nvidia kunngjorde et partnerskap med IBM om en ny dybdelæringsprogramvaresett kalt IBM PowerAI som kjører IBM Power-servere ved å bruke Nvidias NVLink-sammenkobling.

AMD, som har vært en ettertanke i både HPC og maskinlæringsmiljøer, jobber for å endre det. På dette området fokuserte selskapet på sine egne Radeon GPU-er, presset sine FirePro S9300 x2-server-GPU-er og kunngjorde et partnerskap med Google Cloud Platform for å gjøre det mulig å bruke den over skyen. Men AMD har ikke investert så mye i programvare for programmering av GPU-er, ettersom den har lagt vekt på OpenCL over Nvidias mer proprietære tilnærming. På utstillingen introduserte AMD en ny versjon av sin Radeon Open Compute Platform (ROCm), og spionerte planer om å støtte GPU-ene i heterogene datamaskinscenarier med flere CPUer, inkludert de kommende "Zen" x86 CPUer, ARM-arkitekturer som starter med Caviums ThunderX og IBM Power 8-prosessorer.

På utstillingen snakket Intel om en ny versjon av den nåværende Xeon E5v4 (Broadwell) -brikken som er innstilt på flytende punkt, og hvordan den neste versjonen basert på Skylake-plattformen skal ut neste år. Men i en senere hendelse den uken ga Intel en serie kunngjøringer designet for å plassere brikkene sine i kunstig intelligens eller maskinlæringsplass. (Her tar ExtremeTech.) Mye av dette har konsekvenser for høy ytelse databehandling, men er stort sett atskilt. Til å begynne med, i tillegg til de vanlige Xeon-prosessorene, promoterer selskapet også FPGA-er for å gjøre mye av inferencing i nevrale nettverk. Det er en stor grunn til at selskapet nylig kjøpte Altera, og slike FPGA-er brukes nå av selskaper som Microsoft.

Men fokuset på AI forrige uke tok for seg noen nyere chips. For det første er det Xeon Phi, der Intel har indikert at den nåværende Knights Landing-versjonen vil bli supplert neste år med en ny versjon kalt Knights Mill, rettet mot markedet "dyp læring". Kunngjort ved IDF, er dette en annen 14nm-versjon, men med støtte for beregninger av halvpresisjon, som ofte brukes i trening av nevrale nettverk. En av de store fordelene med de nåværende Nvidia-brikkene i dyp læring er faktisk deres støtte for halvpresisjonsberegninger og 8-bits heltalloperasjoner, som Nvidia ofte omtaler som dyp læring "tera-ops." Intel har sagt at Knights Mill vil levere opptil fire ganger ytelsen til Knights Landing for dyp læring. (Denne brikken er fortsatt beregnet for å bli fulgt senere av en 10nm-versjon kalt Knights Hill, sannsynligvis rettet mer mot det tradisjonelle databehandlingsmarkedet med høy ytelse.)

Det mest interessante for neste år er et design fra Nervana, som Intel nylig kjøpte, som bruker en rekke prosesseringsklynger designet for å utføre enkle matematikkoperasjoner koblet til høybåndbreddeminne (HBM). Først opp i denne familien vil Lake Crest, som ble designet før Intel kjøpte selskapet og produsert på en 28nm TSMC-prosess. På grunn av testversjoner i første halvdel av neste år, sier Intel at det vil levere mer rå beregningsytelse enn en GPU. Dette vil etter hvert bli fulgt av Knights Crest, som på en eller annen måte implementerer Nervanas teknologi sammen med Xeon, med detaljer som fortsatt ikke er kunngjort.

"Vi forventer at Nervanas teknologier vil produsere en banebrytende økning i ytelsen på 100 ganger i løpet av de neste tre årene for å trene komplekse nevrale nettverk, slik at dataforskere kan løse sine største AI-utfordringer raskere, " skrev Intel-administrerende direktør Brian Krzanich.

Intel kunngjorde nylig planer om å anskaffe Movidius, som gjør DSP-baserte brikker spesielt velegnet for datafinansiering - igjen, og tar beslutninger basert på tidligere trente modeller.

Det er en komplisert og utviklende historie - absolutt ikke så grei som Nvidias press for GPU-ene overalt. Men det det gjør klart er bare hvor raskt maskinlæring tar fart, og de mange forskjellige måtene som selskaper planlegger å løse problemet, fra GPU-er som de fra Nvidia og AMD, til mange sentrale x86-prosessorer som Xeon Phi, til FPGAer, til spesialiserte produkter for opplæring som Nervana og IBMs TrueNorth, til tilpassede DSP-lignende inferencing-motorer som Googles Tensor Processing Units. Det vil være veldig interessant å se om markedet har plass til alle disse tilnærmingene.

Hvorfor maskinlæring er fremtiden