Pascal (mikroarkitektur) - Pascal (microarchitecture)

Nvidia Pascal
NVIDIA-GTX-1070-FoundersEdition-FL.jpg
GTX 1070, det andet kommercielt tilgængelige kort til brug af Pascal -arkitekturen
Udgivelses dato 5. april 2016
Fremstillingsproces
Historie
Forgænger Maxwell
Efterfølger

Pascal er kodenavnet til en GPU -mikroarkitektur udviklet af Nvidia som efterfølgeren til Maxwell -arkitekturen. Arkitekturen blev først introduceret i april 2016 med udgivelsen af ​​Tesla P100 (GP100) den 5. april 2016 og bruges primært i GeForce 10 -serien , der starter med GeForce GTX 1080 og GTX 1070 (begge ved hjælp af GP104 GPU) , der blev frigivet henholdsvis 17. maj 2016 og 10. juni 2016. Pascal blev fremstillet ved anvendelse TSMC 's 16  nm FinFET proces, og senere Samsung ' s 14  nm FinFET proces.

Arkitekturen er opkaldt efter den franske matematiker og fysiker fra det 17. århundrede, Blaise Pascal .

Den 18. marts 2019 annoncerede Nvidia, at i en driver, der skal betales til april 2019, vil de muliggøre DirectX Raytracing på Pascal-baserede kort, der starter med GTX 1060 6 GB og i de 16 seriekort , en funktion forbeholdt de Turing-baserede RTX -serien op til det punkt.

detaljer

Die shot af GP102 GPU fundet inde i GeForce GTX 1080 Ti -kort
Die shot af GP106 GPU fundet inde i GTX 1060 kort

I marts 2014 meddelte Nvidia, at efterfølgeren til Maxwell ville være Pascal mikroarkitektur; annonceret den 6. maj 2016 og frigivet den 27. maj samme år. Tesla P100 (GP100 -chip) har en anden version af Pascal -arkitekturen i forhold til GTX GPU'erne (GP104 -chip). De shader enheder i GP104 har en Maxwell -lignende design.

Arkitektoniske forbedringer af GP100 -arkitekturen omfatter følgende:

  • I Pascal består en SM (streaming-multiprocessor) af mellem 64-128 CUDA-kerner, afhængigt af om det er GP100 eller GP104. Maxwell pakket 128, Kepler 192, Fermi 32 og Tesla kun 8 CUDA -kerner ind i en SM; GP100 SM er opdelt i to behandlingsblokke, der hver har 32 CUDA-kerner med enkelt præcision, en instruktionsbuffer, en warp-planlægger, 2 teksturmappningsenheder og 2 forsendelsesenheder.
  • CUDA -beregningsevne 6.1.
  • Høj båndbredde 2-nogle kort har 16 GiB HBM2 i fire stakke med i alt 4096-bit bus med en hukommelsesbåndbredde på 720 GB/s.
  • Unified memory - en hukommelsesarkitektur, hvor CPU og GPU kan få adgang til både hovedsystemhukommelse og hukommelse på grafikkortet ved hjælp af en teknologi kaldet "Page Migration Engine".
  • NVLink -en bus med høj båndbredde mellem CPU og GPU og mellem flere GPU'er. Tillader meget højere overførselshastigheder end dem, der kan opnås ved brug af PCI Express; anslås at give mellem 80 og 200 GB/s.
  • 16-bit ( FP16 ) flydende punktoperationer (i daglig tale "halv præcision") kan udføres med dobbelt så høj hastighed som 32-bit flydende punktoperationer ("enkelt præcision") og 64-bit flydende punktoperationer (i daglig tale "dobbelt" præcision ") udført med halv hastighed ved 32-bit flydende punktoperationer.
  • Flere registre - dobbelt så mange registre pr. CUDA -kerne i forhold til Maxwell.
  • Mere delt hukommelse.
  • Dynamisk belastningsbalanceringsplanlægningssystem. Dette gør det muligt for planlæggeren at dynamisk justere mængden af ​​GPU'en, der er tildelt flere opgaver, og sikre, at GPU'en forbliver mættet med arbejde, undtagen når der ikke er mere arbejde, der sikkert kan distribueres til at distribuere. Nvidia har derfor sikkert aktiveret asynkron beregning i Pascals driver.
  • Instruktionsniveau og trådniveau forudbetaling.

Arkitektoniske forbedringer af GP104 -arkitekturen omfatter følgende:

  • CUDA -beregningsevne 6.1.
  • GDDR5X - ny hukommelsesstandard, der understøtter 10Gbit/s datahastigheder, opdateret hukommelsescontroller.
  • Simultan Multi -Projection - generering af flere projektioner af en enkelt geometri -strøm, når den kommer ind i SMP -motoren fra upstream shader -stadier.
  • DisplayPort 1.4, HDMI 2.0b.
  • Fjerde generations Delta Color Compression.
  • Forbedret SLI -interface - SLI -interface med højere båndbredde i forhold til de tidligere versioner.
  • PureVideo Feature Set H hardware video dekodning HEVC Main10 (10bit), Main12 (12bit) og VP9 hardware dekodning.
  • HDCP 2.2 -understøttelse til 4K DRM -beskyttet afspilning og streaming af indhold (Maxwell GM200 og GM204 mangler HDCP 2.2 -understøttelse, GM206 understøtter HDCP 2.2).
  • NVENC HEVC Main10 10bit hardware kodning.
  • GPU Boost 3.0.
  • Instruktion på forhånd. I grafiske opgaver begrænser driveren forudbetaling til pixel-niveau, fordi pixelopgaver typisk afsluttes hurtigt, og omkostningerne ved at foretage præference på pixelniveau er lavere end forudbetaling på instruktionsniveau (hvilket er dyrt). Compute-opgaver får forudgående trådniveau eller instruktionsniveau, fordi det kan tage længere tid at afslutte, og der er ingen garantier for, når en computeropgave er færdig. Derfor muliggør chaufføren den dyre forberedelse på instruktionsniveau til disse opgaver.

Oversigt

Grafisk processor klynge

En chip er opdelt i grafikprocessorklynger (GPC'er). For GP104 -chips omfatter en GPC 5 SM'er.

Streaming Multiprocessor "Pascal"

En "Streaming Multiprocessor" svarer til AMD's Compute Unit . En SMP omfatter 128 enkeltpræcisions-ALU'er ("CUDA-kerner") på GP104-chips og 64 enkelt-præcisions-ALU'er på GP100-chips.

Hvad AMD kalder en CU (computerenhed) kan sammenlignes med, hvad Nvidia kalder en SM (streaming -multiprocessor). Mens alle CU-versioner består af 64 skyggeprocessorer (dvs. 4 SIMD-vektorenheder (hver 16-lane brede) = 64), eksperimenterede Nvidia (kalder shader-processorer regelmæssigt for "CUDA-kerner") med meget forskellige tal:

  • Tesla 1 SM kombinerer 8 enkeltpræcision (FP32) shader-processorer
  • Fermi 1 kombinerer 32 enkeltpræcision (FP32) shader-processorer
  • Kepler 1 SM kombinerer 192 enkeltpræcision (FP32) shader-processorer og også 64 enheder med dobbelt præcision (FP64) (mindst GK110 GPU'er)
  • Maxwell 1 SM kombinerer 128 enkeltpræcision (FP32) shader-processorer
  • På Pascal afhænger det af:
    • På GP100 kombinerer 1 SM 64 enkeltpræcision (FP32) shader-processorer og også 32 dobbeltpræcision (FP64), der giver et 2: 1-forhold mellem enkelt- til dobbeltpræcisionsgennemstrømning. GP100 bruger mere fleksible FP32-kerner, der er i stand til at behandle et enkeltpræcisions- eller to halvpræcisions-tal i en to-elementers vektor. Nvidia agter at behandle beregningen af ​​algoritmer relateret til dyb læring med dem.
    • På GP104 kombinerer 1 SM 128 enkelt-præcision ALU'er, 4 dobbelt-præcision ALU'er, der leverer et 32: 1-forhold, og en halv-præcision ALU, der indeholder en vektor med to halvpræcisionsflåd, der kan udføre den samme instruktion på begge flydere, der giver et 64: 1 -forhold, hvis den samme instruktion bruges på begge elementer.

Polymorph-Engine 4.0

Polymorph Engine version 4.0 er den enhed, der er ansvarlig for Tessellation . Det korresponderer funktionelt med AMDs geometriske processor . Det er blevet flyttet fra shader -modulet til TPC'en for at tillade en Polymorph -motor at fodre flere SM'er i TPC'en.

Chips

  • GP100: Nvidia Tesla P100 GPU -accelerator er målrettet mod GPGPU -applikationer såsom FP64 dobbelt præcisionsberegning og dyb læringstræning, der bruger FP16. Den bruger HBM2 -hukommelse . Quadro GP100 bruger også GP100 GPU.
  • GP102: Denne GPU bruges i TITAN Xp, Titan X og GeForce GTX 1080 Ti. Det bruges også i Quadro P6000 og Tesla P40.
  • GP104: Denne GPU bruges i GeForce GTX 1070, GTX 1070 Ti og GTX 1080. GTX 1070 har 15/20 og GTX 1070 Ti har 19/20 af sine SM'er aktiveret. Begge er forbundet til GDDR5 -hukommelse, mens GTX 1080 er en fuld chip og er forbundet til GDDR5X -hukommelse. Det bruges også i Quadro P5000, Quadro P4000 og Tesla P4.
  • GP106: Denne GPU bruges i GeForce GTX 1060 med GDDR5/GDDR5X -hukommelse. Det bruges også i Quadro P2000.
  • GP107: Denne GPU bruges i GeForce GTX 1050 Ti og GeForce GTX 1050. Den bruges også i Quadro P1000, Quadro P600, Quadro P620 og Quadro P400.
  • GP108: Denne GPU bruges i GeForce GT 1010 og GeForce GT 1030.

På GP104-chippen består en SM af 128 enkeltpræcisions-ALU'er ("CUDA-kerner"), på GP100 af 64 enkelt-præcisions-ALU'er. På grund af forskellig organisering af chipsene, ligesom antallet af dobbelte præcisions -ALU'er, er den teoretiske dobbelte præcisionsydelse for GP100 halvdelen af ​​den teoretiske for enkeltpræcision; forholdet er 1/32 for GP104 -chippen.

Sammenligningstabel med nogle Kepler-, Maxwell- og Pascal -chips
GK104 GK110 GM204 (GTX 970) GM204 (GTX 980) GM200 GP104 GP100
Dedikeret teksturcache pr. SM 48 KiB Ikke relevant Ikke relevant Ikke relevant Ikke relevant Ikke relevant Ikke relevant
Tekstur (grafik eller beregning) eller skrivebeskyttet data (kun beregning) cache pr. SM Ikke relevant 48 KiB Ikke relevant Ikke relevant Ikke relevant Ikke relevant Ikke relevant
Programmerbar valgbar delt hukommelse/L1-partitioner pr. SM 48 KiB delt hukommelse + 16 KiB L1 -cache (standard) 48 KiB delt hukommelse + 16 KiB L1 -cache (standard) Ikke relevant Ikke relevant Ikke relevant Ikke relevant Ikke relevant
32 KiB delt hukommelse + 32 KiB L1 cache 32 KiB delt hukommelse + 32 KiB L1 cache
16 KiB delt hukommelse + 48 KiB L1 cache 16 KiB delt hukommelse + 48 KiB L1 -cache
Forenet L1 -cache/teksturcache pr. SM Ikke relevant Ikke relevant 48 KiB 48 KiB 48 KiB 48 KiB 24 KiB
Dedikeret delt hukommelse pr. SM Ikke relevant Ikke relevant 96 KiB 96 KiB 96 KiB 96 KiB 64 KiB
L2 cache pr. Chip 512 KiB 1536 KiB 1792 KiB 2048 KiB 3072 KiB 2048 KiB 4096 KiB

Ydeevne

Den teoretiske enkeltpræcision behandlingskraft for en Pascal GPU i GFLOPS beregnes som 2 X (operationer pr. FMA-instruktion pr. CUDA-kerne pr. Cyklus) × antal CUDA-kerner × kerneklokkehastighed (i GHz).

Den teoretiske dobbeltpræcision-behandlingskraft i en Pascal GPU er 1/2 af den enkelte præcisionsydelse på Nvidia GP100 og 1/32 af Nvidia GP102, GP104, GP106, GP107 & GP108.

Den teoretiske halvpræcision-behandlingskraft i en Pascal GPU er 2 × af den enkelte præcisionsydelse på GP100 og 1/64 på GP104, GP106, GP107 og GP108.

Efterfølger

Pascal-arkitekturen blev efterfulgt i 2017 af VoltaHPC , cloud computing og selvkørende bilmarkeder og i 2018 af Turing på forbruger- og erhvervsmarkedet.

Se også

Referencer