Hjem Fremover tenking Utfordringer for chipmaking står overfor Moore's law

Utfordringer for chipmaking står overfor Moore's law

Video: Euisik Yoon | 2017 LNF Users Symposium Keynote (Oktober 2024)

Video: Euisik Yoon | 2017 LNF Users Symposium Keynote (Oktober 2024)
Anonim

Hvert par år er det historier om hvordan Moores lov - konseptet om at antall transistorer i et gitt område dobles hvert annet år eller så - dør. Slike historier har eksistert i flere tiår, men vi fortsetter å se nye brikker med flere transistorer hvert par år, ganske mye etter planen.

For eksempel introduserte Intel i februar en transistorbrikke på 4, 3 milliarder kalt Xeon E7v2 eller Ivytown på en 541 kvadratmillimeter dyse ved hjelp av sin 22nm-prosess. For et tiår siden var Intels high-end Xeon, kjent som Gallatin, en chip på 130 nm med 82 millioner transistorer på en 555 kvadratmeter. Det er ikke helt å følge med en dobling annethvert år, men det er nært.

Det betyr selvfølgelig ikke at det vil fortsette å jobbe for alltid, og faktisk gjør brikkeproduksjon noen store endringer som påvirker både produksjonen og utformingen av brikkene, og alle disse vil ha varige konsekvenser for brukerne.

Det mest åpenbare er at det har vært klart i lang tid at klokkehastighetene ikke blir raskere. Tross alt introduserte Intel Pentium-brikker i 2004 som kjørte på 3, 6 GHz; i dag kjører selskapets toppende Core i7 på 3, 5 GHz med en maksimal turbohastighet på 3, 9 GHz. (Selvfølgelig er det noen mennesker som overklokker, men det har alltid vært tilfelle.)

I stedet reagerte designere ved å legge til flere kjerner til brikkene og ved å øke effektiviteten til hver enkelt kjerne. I dag er selv den laveste endebrikken du kan få for en stasjonær eller bærbar datamaskin en dobbelkjernebrikke, og firkjerne-versjoner er vanlig. Selv i telefoner ser vi nå mange firekjernede og til og med okta-kjernedeler.

Det er flott for å kjøre flere applikasjoner samtidig (multi-tasking) eller for applikasjoner som virkelig kan dra nytte av flere kjerner og tråder, men de fleste applikasjoner gjør det fortsatt ikke. Utviklere - spesielt de som lager utviklerverktøy - har brukt mye tid på å få applikasjonene sine til å fungere bedre med flere kjerner, men det er fremdeles mange applikasjoner som mest avhenger av entrådig ytelse.

I tillegg legger prosessorutviklere mye mer grafikkkjerner og andre spesialiserte kjerner (som de som koder eller dekoder video, eller krypterer eller dekrypterer data) i en applikasjonsprosessor, i det mye av bransjen har kalt heterogen prosessering. AMD, Qualcomm og MediaTek har alle presset på dette konseptet, noe som gir mye mening for noen ting. Det hjelper absolutt i integrasjonen - gjør chipsene mindre og mindre strømhungrige; og ser ut til å være perfekt fornuftig i mobile prosessorer - for eksempel den store LITTE tilnærmingen som ARM har tatt der den kombinerer kraftigere, men mer strømhungrige kjerner, med de som bare tar litt kraft. For mange av oss er det en stor sak å skaffe brikker som bruker mindre strøm for samme ytelse - og derfor mobile enheter som går lenger på batterilading.

Bruken av et enormt antall kjerner - enten det er grafikkjerner eller spesialiserte x86-kjerner - har absolutt stor innvirkning på databehandlingen med høy ytelse, der ting som Nvidias Tesla-tavler eller Intels Xeon Phi (Knight's Corner) har stor innvirkning. Faktisk bruker de fleste av de topp superdatamaskiner i dag en av disse tilnærmingene. Men det fungerer fortsatt bare for visse typer bruk, først og fremst for applikasjoner primært for applikasjoner som bruker SIMD (enkeltinstruksjon, flere data) -kommandoer. For andre ting fungerer ikke denne tilnærmingen.

Og det er ikke bare at sjetongene som ikke kan løpe raskere. På produksjonssiden er det andre hindringer for å sette flere transistorer på en dyse. I løpet av det siste tiåret har vi sett alle slags nye teknikker for brikkeproduksjon, og beveger oss fra den tradisjonelle blandingen av silisium, oksygen og aluminium mot nye teknikker som "anstrengt silisium" (der ingeniører strekker ut silisiumatomer), og erstatter porter med høye K / metallportmaterialer, og som nylig beveger seg fra tradisjonelle plane porter mot 3D-porter kjent som FinFETs eller "TriGate" i Intel parlance. De to første teknikkene brukes nå av alle de avanserte brikkeprodusentene, og støperiene planlegger å introdusere FinFET-er i løpet av det neste året, etter Intels introduksjon fra 2012.

Et alternativ kalles FD-SOI (fullstendig utarmet silisium-på-isolator), en teknikk som spesielt ST Microelectronics har presset, som bruker et tynt isolasjonslag mellom silisiumsubstratet og kanalen for å gi bedre elektrisk kontroll av bittesmå transistorer, i teori som gir bedre ytelse og lavere kraft. Men foreløpig ser det ikke ut til å ha nesten fart fra de store produsentene som FinFET-er har.

Den siste tiden har Intel gjort en god del av hvor langt fremover det er med brikkeproduksjon, og faktisk startet det å sende volumproduksjon av Core-mikroprosessorene på sin 22nm-prosess med TriGate-teknologi for omtrent to år siden, og planlegger å sende 14nm produkter i andre halvår i år. I mellomtiden planlegger de store chip-støperiene 20nm produksjon i volum senere i år ved bruk av tradisjonelle plane transistorer, med 14 eller 16nm produkter med FinFET-er beregnet for neste år.

Intel har vist frem lysbilder som viser hvor langt fremover det er på brikketettheten, slik som denne fra analytikerdagen:

Men støperiene er uenige. Her er et lysbilde fra TSMCs siste investoroppringning, og sier at den kan lukke gapet neste år.

Det er klart, bare tiden vil vise seg.

I mellomtiden er det vanskeligere å få mindre matriser med de tradisjonelle litografiske verktøyene som brukes til å etse linjene i silisiumbrikken. Fordypningslitografi, som industrien har brukt i årevis, har nådd sin grense, slik at leverandørene nå vender seg til "dobbel mønstring" eller enda flere pass for å få finere dimensjoner. Selv om vi har sett litt fremgang i det siste, er det etterlengtede steg mot ekstrem ultrafiolett litografi, som bør tilby finere kontroll, fortsatt mange år unna.

Ting som FinFETs og flere mønstre er med på å lage neste generasjon chips, men til økende kostnader. Faktisk sier en rekke analytikere at kostnaden per transistor for produksjon ved 20 nm ikke kan være en forbedring i forhold til kostnadene på 28 nm, på grunn av behovet for dobbel mønster. Og nye strukturer som FinFET-er vil sannsynligvis også bli dyrere, i det minste i begynnelsen.

Som et resultat ser mange brikkeprodusenter på enda mer eksotiske metoder for å forbedre tettheten selv om tradisjonelle Moore's Law-teknikker ikke fungerer.

NAND flash-minne bruker den mest avanserte prosessteknologien, slik at det allerede har alvorlige problemer med konvensjonell horisontal skalering. Løsningen er å lage vertikale NAND-strenger. De enkelte minnecellene blir ikke mindre, men fordi du kan stable så mange oppå hverandre - alle på samme underlag - får du mye større tetthet i samme fotavtrykk. For eksempel ville en 16-lags 3D NAND-brikke produsert på en 40nm prosess omtrent tilsvarer en konvensjonell 2D NAND-brikke laget på en 10nm prosess (den mest avanserte prosessen som er i bruk nå er 16nm). Samsung sier at den allerede produserer V-NAND (Vertical-NAND), og Toshiba og SanDisk vil følge med på det den kaller p-BiCS. Micron og SK Hynix utvikler også 3D NAND, men ser ut til å være fokusert på standard 2D NAND de neste par årene.

Merk at dette ikke er det samme som stabling av 3D-brikker. DRAM-minnet treffer også en skaleringsmur, men det har en annen arkitektur som krever en transistor og en kondensator i hver celle. Løsningen her er å stable flere fabrikerte DRAM-minnebrikker oppå hverandre, bore hull gjennom underlagene og deretter koble dem ved hjelp av en teknologi som kalles gjennom-silisium-vias (TSV-er). Sluttresultatet er det samme - høyere tetthet i et mindre fotavtrykk - men det er mer en avansert emballasjeprosess enn en ny fabrikasjonsprosess. Bransjen planlegger å bruke samme teknikk for å stable minne på toppen av logikken, ikke bare for å trimme fotavtrykket, men også for å forbedre ytelsen og redusere effekten. En løsning som har fått mye oppmerksomhet er Microns Hybrid Memory Cube. Etter hvert kan 3D-brikkestabling brukes til å lage kraftige mobilbrikker som kombinerer CPUer, minne, sensorer og andre komponenter i en enkelt pakke, men det er fremdeles mange problemer å løse med produksjon, testing og drift av disse såkalte heterogene 3D-stabler.

Men det er den neste generasjonen teknikker som brikkeprodusentene har snakket om som virker mye mer eksotiske. På chipkonferanser hører du mye om Directed Self Assembly (DSA), der nye materialer faktisk vil samle seg i det grunnleggende transistormønsteret - i det minste for ett lag av en brikke. Det høres litt ut som science fiction, men jeg kjenner en rekke forskere som mener at dette egentlig ikke er langt unna i det hele tatt.

I mellomtiden ser andre forskere på en klasse nye materialer - kjent som III-V halvledere i mer tradisjonelle produksjonsstiler; mens andre ser på forskjellige halvlederstrukturer for å supplere eller erstatte FinFET-er, for eksempel nanotråd.

En annen metode for å redusere kostnadene er å lage transistorer på en større skive. Bransjen har gjennomgått slike overganger før de flyttet fra 200 mm skiver til 300 mm skiver (omtrent 12 tommer i diameter) for omtrent et tiår siden. Nå snakkes det mye om å flytte til 450 mm skiver, med de fleste av de store produsentene av skiver og verktøyleverandørene som skaper et konsortium for å se på nødvendige teknologier. En slik overgang skal redusere produksjonskostnadene, men vil føre til høye kapitalkostnader, da det vil kreve nye fabrikker og en ny generasjon av chip-produserende verktøy. Intel har et anlegg i Arizona som vil være i stand til 450 mm produksjon, men har forsinket bestillingen av verktøyene, og mange av verktøyleverandørene forsinker tilbudene sine også, noe som gjør det sannsynlig at den første virkelige produksjonen av 450 mm skiver ikke vil være før 2019 eller 2020 tidligst.

Det ser ut til å bli vanskeligere og dyrere. Men det har vært tilfelle for halvlederproduksjon siden begynnelsen. Det store spørsmålet er alltid om forbedringene i ytelse og ekstra tetthet vil være verdt de ekstra kostnadene i produksjonen.

ISSCC: Utvidelse av Moore's Law

Hvordan utvide Moore's Law var et stort tema på den internasjonale konferansen International Solid State Circuits (ISSCC) forrige måned. Mark Horowitz, professor i Stanford University og grunnlegger av Rambus, bemerket at grunnen til at vi har databehandling i alt i dag, er fordi databehandling ble billig, på grunn av Moore's Law og Dennards regler for skalering. Dette har ført til forventninger om at dataenheter vil bli stadig billigere, mindre og kraftigere. (Stanford har planlagt ytelsen til prosessorer over tid på cpudb.stanford.edu).

Men han bemerket at klokkefrekvensen til mikroprosessorer sluttet å skalere rundt 2005 fordi strømtettheten ble et problem. Ingeniører har en reell effektgrense - fordi de ikke kunne gjøre brikkene varmere, så nå er alle datasystemer strømbegrenset. Som han bemerket, endrer kraftskalaen - strømforsyningsspenningen veldig sakte.

Bransjens første tilbøyelighet til å løse dette problemet er å endre teknologi. "Dessverre er jeg ikke optimistisk over at vi skal finne en teknologi som erstatter CMOS for databehandling, " sa han, både for tekniske og økonomiske problemer. Den eneste måten å få driften per sekund til å øke, er derfor å redusere energien per operasjon, sa han, og antydet at dette er grunnen til at alle har flerkjerneprosessorer i dag, også i mobiltelefonene sine. Men problemet er at du ikke kan fortsette å legge til kjerner fordi du raskt treffer et poeng med å redusere avkastningen når det gjelder ytelsesenergi og dø-området. CPU-designere har visst om dette i lang tid og har optimalisert CPUer i lang tid.

Horowitz sa at vi ikke skulle glemme energien som brukes av minnet. I presentasjonen viste han energiforstyrrelsen for en nåværende, uidentifisert prosessor med 8 kjerner der CPU-kjernene brukte omtrent 50 prosent av energien og on-die-minnet (L1, L2 og L3 cacher) brukte de andre 50 prosentene.. Dette inkluderer ikke engang det eksterne DRAM-systemminnet, noe som kan ende med å være 25 prosent av mer av den totale energiforbruket i systemet.

Mange snakker om å bruke spesialisert maskinvare (for eksempel ASIC-er), som kan være tusen ganger bedre med tanke på energi per operasjon sammenlignet med en generell CPU. Men som Horowitz bemerket, kommer effektiviteten her delvis fordi den brukes til spesifikke applikasjoner (for eksempel modembehandling, bildebehandling, videokomprimering og dekompresjon) som i utgangspunktet ikke får tilgang til minnet så mye. Derfor hjelper det så mye med energi - det handler ikke så mye om maskinvaren, det handler om å flytte algoritmen til et mye mer begrenset sted.

Den dårlige nyheten er at dette betyr at applikasjonene du kan bygge er begrenset. Den gode nyheten er at du kanskje kan bygge en mer generell motor som kan håndtere denne typen applikasjoner med "høy lokalitet", noe som betyr at de ikke trenger tilgang til minne. Han refererer til dette som Highly Local Computation Model og "sjablongapplikasjonene" som kan kjøres på den. Dette krever selvfølgelig en ny programmeringsmodell. Stanford har utviklet et domenespesifikt språk, en kompilator som kan bygge disse sjablongapplikasjonene og kjøre dem på FPGAer og ASICer.

Også på ISSCC-konferansen sa Ming-Kai Tsai, styreleder og administrerende direktør i MediaTek, at folk har spurt siden begynnelsen av 1990-tallet hvor lenge Moores lov faktisk vil vare. Men som Gordon Moore sa på ISSCC i 2003, "Ingen eksponentiell er for alltid. Men vi kan utsette det for alltid." Bransjen har gjort en god jobb med å opprettholde Moore's Law mer eller mindre, sa han. Transistorkostnaden har fortsatt sin historiske nedgang. For kostnaden for 100 gram ris (ca. 10 cent) kunne du kjøpe bare 100 transistorer i 1980, men innen 2013 kunne du kjøpe 5 millioner transistorer.

Tsai sa at mobile enheter har truffet et tak fordi prosessorer ikke kan kjøre effektivt i hastigheter over 3 GHz og fordi batteriteknologien ikke har forbedret seg mye. MediaTek har jobbet med dette problemet ved å bruke flerkjernede prosessorer og heterogen multiprosessering (HMP). Han sa at selskapet introduserte den første sanne 8-kjerne HMP-prosessoren i 2013, og tidligere denne uken kunngjorde det en 4-kjerners prosessor som bruker sin PTP (Performance, Thermal and Power) -teknologi for å øke ytelsen og redusere effekten ytterligere. Han snakket også om den raske fremgangen i tilkobling. Mange mobile applikasjoner som tidligere var umulige, er nå levedyktige på grunn av disse forbedringene i WLAN- og WWAN-nettverk, sa han.

MediaTek jobber med forskjellige teknologier for "Cloud 2.0" inkludert trådløse ladeløsninger, "Aster" SoC for wearables (måler bare 5, 4x6, 6 millimeter), og heterogene systemer som en del av HSA Foundation, sa han. Cloud 2.0, ifølge Tsai, vil være preget av mange flere enheter - spesielt bærbare - med mange flere radioer; mer enn 100 radioer per person innen 2030.

De store utfordringene for Cloud 2.0 vil være energi og båndbredde, sa Tsai. Den første vil kreve innovative integrerte systemer, maskinvare- og programvareløsninger; bedre batteriteknologi; og noen form for energihøsting. Det andre vil kreve mer effektiv bruk av tilgjengelig spekter, adaptive nettverk og mer pålitelig tilkobling.

Uansett hva som skjer med brikkefremstilling, er det sikkert å føre til nye applikasjoner og nye beslutninger som brikkeprodusenter, produktdesignere og til slutt sluttbrukere vil møte.

Utfordringer for chipmaking står overfor Moore's law