Hjem Fremover tenking Googles sky tpus deler av en trend mot ai-spesifikke prosessorer

Googles sky tpus deler av en trend mot ai-spesifikke prosessorer

2024

Video: Diving into the TPU v2 and v3 (Oktober 2024)

I løpet av de siste ukene har det vært en rekke viktige introduksjoner av nye databehandlingsplattformer designet spesielt for å jobbe på dype nevrale nettverk for maskinlæring, inkludert Googles nye "cloud TPUs" og Nvidias nye Volta-design.

For meg er dette den mest interessante trenden innen dataarkitektur - enda mer enn AMD og nå introduserer Intel 16-kjerne- og 18-kjerners CPUer. Selvfølgelig er det andre alternative tilnærminger, men Nvidia og Google får fortjent mye oppmerksomhet for sine unike tilnærminger.

Hos Google I / O så jeg den introdusere hva en "sky TPU" (for Tensor Processing Unit, som indikerer at den er optimalisert for Googles rammeverk for læring av maskin TensorFlow). Den forrige generasjonen TPU, introdusert på fjorårets show, er en ASIC designet først og fremst for inferencing - å kjøre maskinlæringsoperasjoner - men den nye versjonen er designet for å konkludere og trene slike algoritmer.

I en fersk artikkel ga Google flere detaljer om den opprinnelige TPU, som den beskrev som inneholder en matrise på 256 by-256 flere akkumulerte (MAC) enheter (65 536 totalt) med en toppytelse på 92 teraops (billioner operasjoner pr. sekund). Det får instruksjonene fra en verts CPU over PCIe Gen 3-buss. Google sa at dette var en 28nm-dyse som var mindre enn halvparten av størrelsen på en Intel Haswell Xeon 22nm-prosessor, og at det utkonkurrerte den prosessoren og Nvidias 28nm K80-prosessor.

Den nye versjonen, kalt TPU 2.0 eller sky TPU, (sett over), inneholder faktisk fire prosessorer på brettet, og Google sa at hvert brett er i stand til å nå 180 teraflops (180 billioner flytende punktoperasjoner per sekund). Like viktig er brettene designet for å fungere sammen ved hjelp av et tilpasset høyhastighetsnettverk, slik at de fungerer som en enkelt maskin som lærer superdatamaskiner som Google kaller en "TPU-pod."

Denne TPU-poden inneholder 64 andre generasjons TPU-er og gir opptil 11, 5 petaflops for å fremskynde opplæringen av en eneste stor maskinlæringsmodell. På konferansen sa Fei Fei Li, som leder Googles AI-forskning, at selv om en av selskapets store læringsmodeller for oversettelse tar en hel dag å trene på 32 av de beste kommersielt tilgjengelige GPU-ene, kan det nå være opplæring til samme nøyaktighet på en ettermiddag ved å bruke en åttedel av en TPU-pod. Det er et stort hopp.

Forstå at dette ikke er små systemer - en pod ser ut til å være omtrent på størrelse med fire normale databeholder.

Og hver enkelt prosessor ser ut til å ha veldig store varmeavleder, noe som betyr at platene ikke kan stables for tett. Google har ennå ikke gitt mange detaljer om hva som har endret seg i denne versjonen av prosessorene eller sammenkoblingen, men det er sannsynligvis også dette er basert på 8-bit MAC-er.

Uken før introduserte Nvidia sin siste oppføring i denne kategorien, en massiv brikke kjent som Telsa V100 Volta, som den beskrev som den første CPU med denne nye Volta-arkitekturen, designet for avanserte GPU-er.

Nvidia sa at den nye brikken er i stand til 120 TensorFlow-teraflops (eller 15 32-biters TFLOPS eller 7, 5 64-biters.) Denne bruker en ny arkitektur som inkluderer 80 Streaming Multiprocessors (SMs), som hver inneholder åtte nye "Tensor Cores" og er en 4x4x4 matrise som er i stand til å utføre 64 FMA (Fused Multiply-Add) -operasjoner per klokke. Nvidia sa at den vil tilby brikken i sine DGX-1V-arbeidsstasjoner med 8 V100-brett i tredje kvartal, etter firmaets tidligere DGX-1 som brukte den tidligere P100-arkitekturen.

Selskapet sa at denne $ 149 000-boksen skulle levere 960 teraflops med treningsytelse, ved å bruke 3200 watt. Senere, sa den første, ville den sende en personlig DGX-stasjon med fire V100-er, og i fjerde kvartal sa den at de store serverleverandørene vil sende V100-servere.

Denne brikken er den første som ble annonsert for å bruke TSMCs 12nm-prosessor, og den vil være en enorm chip med 21, 1 milliarder transistorer på 815 kvadratmeter. Nvidia siterte både Microsoft og Amazon som tidlige kunder for brikken.

Merk at det er store forskjeller mellom disse tilnærmingene. Google TPU-er er spesiallagde brikker, designet for TensorFlow-applikasjoner, mens Nvidia V100 er en noe mer generell brikke, som er i stand til forskjellige typer matematikk for andre applikasjoner.

I mellomtiden ser de andre store skyleverandørene på alternativer, med Microsoft som bruker både GPU-er for trening og feltprogrammerbare gate-arrays (FPGA-er) for inferencing, og tilbyr begge til kunder. Amazon Web Services gjør nå både GPU- og FPGA-forekomster tilgjengelige for utviklere. Og Intel har presset FPGA-er og en rekke andre teknikker. I mellomtiden jobber en rekke nye oppstarter med alternative tilnærminger.

På noen måter er dette den mest drastiske endringen vi har sett i arbeidsstasjons- og serverprosessorer på mange år, i det minste siden utviklerne først begynte å bruke "GPU-beregning" for flere år siden. Det vil være fascinerende å se hvordan dette utvikler seg.