Hjem Fremover tenking Oracle, nvidia, arm ta søkelys på hot chips

Oracle, nvidia, arm ta søkelys på hot chips

Video: Why you should make useless things | Simone Giertz (Oktober 2024)

Video: Why you should make useless things | Simone Giertz (Oktober 2024)
Anonim

Mens mye av spenningen til brikken forrige uke kom fra Intels Broadwell-kunngjøring, var det en rekke andre brikker diskutert i detalj på den årlige Hot Chips-konferansen, som har hatt en tendens til å fokusere mest på brikker designet for servere og datasentre.

Showet er kjent for high-end chips, med Intel, Oracle og IBM som alle diskuterte de siste oppføringene sine, men bare Oracle's Sparc M7 var virkelig ny. I stedet endte mye av showet med å fokusere på ARM-baserte produkter, inkludert de første detaljene i Nvidias kommende 64-biters "Denver" -versjon av Tegra K1-prosessoren

Oracle, Intel og IBM sikter høyt med serverbrikker

Av high-end chips, kom de mest imponerende nyhetene fra Oracle, som diskuterte neste generasjon av sin SPARC-prosessor, kjent en M7. Denne brikken vil ha 32 S4 SPARC-kjerner (hver med opptil åtte dynamiske tråder), 64 MB L3-cache, åtte DDR4-minnekontrollere (opptil 2 TB per prosessor og 160 GBps minne båndbredde med DDR4-2133) og åtte dataanalytiske akseleratorer koblet over et on-chip nettverk.

Chippen er organisert i åtte klynger med fire kjerner hver med delt L2-cache og en partisjonert 8 MB L3-cache med mer enn 192 GBps båndbredde mellom en kjerneklynge og dens lokale L3-cache. Sammenlignet med M6 (en 28nm-brikke med 12 3, 6 GHz SPARC S3-kjerner), leverer M7 3-3, 5 ganger bedre ytelse på minnebåndbredde, heltal gjennomstrømning, OLTP, Java, ERP-systemer og flytende punktgjennomgang. Stephen Phillips, Oracle's Senior Director for SPARC Architecture, sa at målet var en økning i trinnsfunksjon i ytelse, snarere enn trinnvis gevinst.

M7 kan skalere til 8 stikkontakter limfrie (opptil 256 kjerner, 2000 tråder og 16 TB minne), og med en ASIC-bryter for å styre trafikken mellom dem i en SMP-konfigurasjon, opptil 32 prosessorer, slik at du kan havne med et system med 1 024 kjerner, 8192 tråder og opptil 64 TB minne. Ganske imponerende. Oracle sa at den tilbyr 3 til 3, 5 ganger bedre ytelse på en rekke tester, sammenlignet med fjorårets SPARC M6. Selskapet sa at dette vil være optimalisert for Orakles egen programvarestabel, produsert på en 20nm prosess, og tilgjengelig i systemer en gang neste år.

IBM ga også flere detaljer om Power8-linjen sin, som den kunngjorde ved fjorårets show. Den versjonen av brikken hadde 12 kjerner, hver med opptil åtte tråder med 512 kB SRAM nivå 2-hurtigbuffer per kjerne (6 MB totalt L2) og 96 MB delt delt innebygd DRAM som en nivå 3-cache. Denne enorme brikken, som måler 650 kvadratmeter med 4, 2 milliarder transistorer, er produsert på IBMs 22nm SOI-prosess og begynte frakt i juni, ifølge IBM.

For noen måneder siden kunngjorde IBM en versjon med seks kjerner som måler 362 mm 2. Årets snakk handlet om hvordan IBM kan kombinere to av de sekskjernede versjonene i en enkelt pakke med 48 baner med PCIe Gen 3. IBM sa at en to-socket-versjon med totalt 24 kjerner og 192 tråder vil overgå en to-prosessor Xeon Ivy Bridge-server med 24 kjerner (med 48 tråder). IBM selger Power stort sett på høyytelses- og spesialiserte markedsplasser, så de fleste vil ikke sammenligne de to, men det er interessant. I et forsøk på å gjøre Power-arkitekturen mer mainstream, kunngjorde IBM i fjor Open Power Consortium, og i år sa selskapet at den hadde en full open source-programvarestabel for plattformen. Men foreløpig har ingen andre enn IBM kunngjort en server basert på plattformen.

Intel snakket om "Ivytown", serverversjonen av Ivy Bridge, som inkluderer versjonene av Xeon E5 introdusert for et år siden, og Xeon E7 introdusert i februar. Årets snakk fokuserte på hvordan Intel nå i utgangspunktet har en arkitektur som kan dekke begge markedene, med brikker som tillater opptil 15 kjerner, to DDR3-minnekontrollere, tre QPI-lenker og 40 PCI Gen 3-baner, som er ordnet i et modulært gulv plan som kan gjøres om til tre forskjellige matriser, hver designet for forskjellige stikkontakter, med totalt mer enn 75 varianter. Dette kan brukes i to-, fire- og åttekontaksservere uten spesielle koblinger.

Disse sjetongene utgjør selvfølgelig mesteparten av serverkjøp i disse dager, ettersom Intel står for de aller fleste serverenheter. Men mye av informasjonen ble tidligere dekket på ISSCC, og Intel forventes stort sett å introdusere den neste versjonen av E5-familien (E5-1600v3 og E5-2600 v3) ganske snart, basert på en oppdatert versjon som bruker en variant av Haswell-arkitektur kalt Haswell-EP. (Forrige uke kunngjorde Dell nye arbeidsstasjoner basert på disse nye sjetongene.)

Intel diskuterte også Atom C2000, kjent som Avoton, som gikk i produksjon i slutten av 2013. Denne brikken og Ivy Bridge og Haswell-brikkene er alle basert på Intels 22nm-prosess.

Nvidia, AMD, Applied Micro Aim at New Markets for ARM

Showets største overraskelse var sannsynligvis fokuset på ARM-basert teknologi, inkludert nøkkelord fra ARM-høyttalere og Nvidias detaljering av den forestående "Denver" -versjonen av Tegra K1-prosessoren.

I en hovednotat diskuterte ARM CTO Mike Muller kraftbegrensningene i alt fra sensorer til servere og fokuserte på hvordan ARM prøvde å utvide til bedriften. Muller presset også konseptet med å bruke ARM-sensorbrikker for Internet of Things, et tema som også ble gjentatt i en hovednote fra Qualcomms Rob Chandhok. Men ingen av selskapene kunngjorde nye kjerner eller prosessorer.

I stedet kom den store nyheten på den fronten fra Nvidia, som ga mye mer detaljer om den nye versjonen av K1-prosessoren. Da selskapets Denver-prosjekt først ble kunngjort, hørtes det ut som at denne brikken skulle være rettet mot det høyytelsesdatamarkedet, men nå ser det ut til at selskapet har fokusert mer på ting som nettbrett og bilmarkedet. Tegra K1 kommer i to versjoner. Den første, som ble kunngjort tidligere i år og nå sendes i selskapets Shield-nettbrett, har fire 32-biters ARM Cortex-A15-kjerner pluss en "kraftfull kompanjongkjerne" med lav effekt i 4 + 1-konfigurasjonen som Nvidia har presset inn Tegra-linjen i flere år.

Denver-versjonen er ganske annerledes med to nye 64-bits kjerner designet av Nvidia, og selskapet er i ferd med å fortelle ytelsesgevinstene de får. Kjernen er syvveis superscalar (noe som betyr at den kan utføre opptil syv mikro-ops samtidig), og har en 128 kB firveis L1 instruksjonsbuffer og en 64 kB firveis L1 datacache. Brikken kombinerer to av disse kjernene, sammen med en 2 MB nivå 2-cache som serverer begge kjernene, som de 192 "CUDA-kjernene" (grafikkjerner) den deler med 32-bit K1. Som sådan representerer det en stor avgang fra 4 + 1-arkitekturen.

En stor endring inkluderer det Nvidia kaller "dynamisk kodeoptimalisering", som er designet for å ta ofte brukte ARM-kode og konvertere den til mikrokode som er spesielt optimalisert for prosessoren. Dette er lagret i 128 MB hurtigminne (skåret ut av det tradisjonelle systemminnet). Målet er å gi den ytelsen til en ut-av-ordre utførelse uten å kreve så mye krefter som den teknikken vanligvis bruker. Konseptet er ikke nytt - Transmeta prøvde det for mange år siden med Crusoe-brikken - men Nvidia sier at dette nå fungerer spesielt bedre.

Nvidia viste flere benchmarks, der den hevdet at den nye brikken kan oppnå betydelig høyere ytelse enn eksisterende fire- eller åttekjerne mobile CPU-er - spesielt siterer Qualcomms Snapdragon 800 (MSM8974), Apple A7 (noen ganger kalt Cyclone) brukt på iPhone 5s - og til og med noen vanlige PC-prosessorer. Nvidia sa at den utkonkurrerte en Atom (Bay Trail) prosessor og liknet Intels 1, 4 GHz dual-core Celeron (Haswell) prosessor. Selvfølgelig har jeg en tendens til å ta leverandørens ytelsesnummer med et korn med salt: ikke bare velger leverandørene referansemerkene, det er ikke i det hele tatt klart at vi snakker om de samme klokkehastighetene eller den samme strømtilførselen.

I mellomtiden snakket AMD i chips rettet mer mot servere mer om Opteron A1100, kjent som "Seattle", med selskapet som sa at det foreløpig var prøvetaking og burde være tilgjengelig på servere rundt slutten av dette året. Denne brikken har åtte 64-biters Cortex A57 CPU-kjerner; 4 MB L2-cache og 8MB L3-cache; to minnekanaler for opptil 128 GB DDR3- eller DDR4-minne med feilretting; mange integrerte I / O (8 baner hver av PCIe Gen3 og 6 Gbps SATA og to 10 Gbps Ethernet-porter); en Cortex A5 "systemkontrollprosessor" for sikker oppstart; og en akselerator for å øke hastigheten på kryptering og dekryptering. Den er produsert på GlobalFoundries 28nm prosess. AMD har ennå ikke gitt detaljer om frekvensen, effekten eller ytelsen til brikken, men viste et grunnleggende diagram av brikken. (ovenfor)

Applied Micro har lenge hevdet å ha den første ARM-serverbrikken på markedet, med sin X-Gene 1 (kjent som Storm) som inneholder 8 2.4GHZ proprietære ARMv8-kjerner, fire DDR3-minnekontrollere, PCIe Gen3 og 6 Gbps SATA, og 10 Gbps Ethernet. Dette er for tiden i produksjon på TSMCs 40nm prosess, sier selskapet.

På Hot Chips dyttet Applied Micro sin X-Gene 2 (Shadowcat) design, som vil være tilgjengelig med åtte eller 16 "forbedrede" kjerner, som kjører i hastigheter fra 2, 4 til 2, 8 GHz, og legger til en RoCE (RDMA over Converged Ethernet) Host Kanaladapter som en samtrafikk designet for å muliggjøre lav latensforbindelser mellom klynger av mikroserver. Dette er designet for å brukes i klynger, med et enkelt serverstativ som støtter opp til 6.480 tråder og 50 TB minne, som alle deler en enkelt lagringsplass. Selskapet sier at X-Gene 2 vil tilby om lag 60 prosent bedre helhetsytelse, det dobbelte av ytelsen på Memcache, og omtrent 25 prosent bedre Apache Web-servering. Det er produsert på en 28nm prosess og er for tiden prøvetaking.

Applied Micro sier at X-Gene 2 fyller et gap mellom konkurrerende mikroserver (Cavium ThunderX, Intel Atom C2000 "Avoton" og AMD Opteron A1100 "Seattle") og Xeon-servere i full størrelse. Det ga noen detaljer om neste generasjon, X-Gene 3 (Skylark), som er beregnet for å starte prøvetaking neste år. Denne brikken vil ha 16 ARMv8 kjerner som kjører på opptil 3 GHz, og vil bli produsert ved bruk av 16nm FinFet-teknologi.

Oracle, nvidia, arm ta søkelys på hot chips