Hjem Fremover tenking Hot chips: maskinlæring tar sentrum

Hot chips: maskinlæring tar sentrum

Video: Machine Learning With A $10 AI Processor | Sipeed M1n AI Development Kit (Oktober 2024)

Video: Machine Learning With A $10 AI Processor | Sipeed M1n AI Development Kit (Oktober 2024)
Anonim

Det hotteste emnet innen databehandling i disse dager er maskinlæring, og det er absolutt synlig på maskinvaresiden. De siste ukene har vi hørt mye om nye brikker designet for dyp læring, fra Nvidias Tesla P100 og Drive PX 2 til Googles Tensor-prosesseringsenheter til Intels Xeon Phi. Så det er ikke overraskende at vi på Hot Chips-konferansen forrige uke hørte fra en rekke forskjellige selskaper med noen veldig forskjellige tilnærminger til design skreddersydd for maskinlæring og visjonsbehandling.

Kanskje den største nyheten var Nvidias avsløring av mer detaljer om sin Parker-brikke, brukt i sin Drive PX 2-modul for selvkjørende biler og rettet mot dyp læring for autonome maskiner. Denne brikken bruker to spesialbyggede ARM-kompatible Denver CPU-kjerner, fire ARM Cortex-A57 kjerner og 256 av hva Nvidia betegner Pascal CUDA (grafikk) kjerner.

Nvidia sa at dette var den første brikken designet og vurdert for bilbruk, med spesielle elastisitetsfunksjoner, og snakket om raskere hastighet og minne, og bemerket at Denver-kjernen gir en betydelig forbedring av ytelsen per watt. Blant de nye funksjonene er maskinvareassistert virtualisering, med opptil 8 VMS for å muliggjøre integrering av bilfunksjoner som tradisjonelt gjøres på separate datamaskiner. Totalt sett sa selskapet at Drive PX 2-modellen kan ha to av disse Parker-brikkene og to separate GPU-er, med en total ytelse på 8 teraflops (dobbel presisjon) eller 24 dyp læringsoperasjoner (8-bit eller halvpresisjon.) selskapet inkluderte benchmarks som sammenlignet det med dagens mobilbehandling ved å bruke SpecInt_2000, et relativt gammelt referanseindeks. Men ytelsen ser imponerende ut, og Volvo har nylig sagt at de vil bruke den til å teste autonome kjøretøy fra og med neste år.

Selvfølgelig er det mange andre tilnærminger.

Kinesisk oppstart DeePhi diskuterte en FPGA-basert plattform for nevrale nettverk, med to forskjellige arkitekturer avhengig av typen nettverk som er involvert. Aristoteles er designet for relativt små sammenvevd nevrale nettverk og basert på Xilinx Zynq 7000, mens Descartes er designet for større tilbakevendende nevrale nettverk som bruker lang korttidsminne (RNN-LSTM), basert på Kintex Ultrascale FPGA. DeePhi hevder at kompilatoren og arkitekturen har kuttet utviklingstiden sammenlignet med de fleste bruksområder av FPGA-er, og også at bruk av en FPGA kan gi bedre ytelse enn Nvidias Tegra K1- og K40-løsninger.

En annen tilnærming er å bruke en digital signalprosessor eller DSP, som vanligvis utfører en spesifikk funksjon eller et lite sett med funksjoner veldig raskt, og bruker veldig lite energi. Ofte er disse innebygd i andre, mer komplekse brikker for å få fart på visse funksjoner, for eksempel visjonsbehandling. En rekke selskaper, inkludert Movidius, CEVA og Cadence, delte løsningene sine på Hot Chips.

Movidius viste sin DSP-baserte løsning kjent som Myriad 2 visjonsbehandlingsenhet, og hadde den utstilt i DJI Phantom 4-dronen. Den viste også hvordan Myriad 2 overgår GPU-er og GoogLeNet-dype nevrale nettverk som ble brukt i 2014 ImageNet-konkurransen.

CEVA promoterte sin CEVA-XM4 Vision DSP, spesielt innstilt for visjonsbehandling og rettet mot bilmarkedet, sammen med CEVA Deep Neural Network 2-plattformen, som den sa kunne ta alt som er skrevet for Caffe- eller TensorFlow-rammer og optimalisere det for å kjøre på sin DSP. Den nye prosessoren skal være i SoCs neste år.

I mellomtiden diskuterte Cadence, som gjør Tensilica-familien av visjonsprosessorer (som kan legges inn i andre produkter) sin nyeste versjon, Vision P6, som har lagt til nye funksjoner som vektor flytende punktstøtte og andre funksjoner for convolutional nevrale nettverk.. De første produktene skal være ute om kort tid.

Microsoft snakket om detaljene i maskinvaren for HoloLens-headsettet, og sa at den brukte en 14nm Intel Atom Cherry Trail-prosessor som kjører Windows 10 og et tilpasset Holographic Processing Unit (HPU 1.0) sensorknutepunkt, produsert av TSMC på en 28nm prosess. Dette inkluderer 24 Tensilica DSP-kjerner.

Jeg ble spesielt tatt av en av Cadence-lysbildene som viste forskjeller i gjennomstrømning og effektivitet til GPU-er, FPGA-er og forskjellige typer DSP-er når det gjelder multiply-add-operasjoner, en av de viktigste byggesteinene for nevrale nettverk. Selv om det åpenbart er selvbetjent (som alle leverandørpresentasjoner er), påpekte det hvordan de forskjellige teknikkene varierer med hensyn til hastighet og effektivitet (ytelse per watt), for ikke å nevne kostnader og enkel programmering. Det er mange løsninger for forskjellige tilnærminger her, og det vil være interessant å se hvordan dette ryster ut de neste årene.

Hot chips: maskinlæring tar sentrum