NVIDIAs så kallade "Hot Chips" är faktiskt "Hot Platforms"
Sep 03, 2024
Lämna ett meddelande
NVIDIA fokuserar på tekniska projekt på systemnivå och datacenternivå som syftar till att skapa avancerade system och plattformar som kan hantera komplexa generativa AI-utmaningar.
Tidigare denna månad stötte NVIDIA på sällsynta dåliga nyheter när rapporter dök upp om att företagets efterlängtade "Blackwell" GPU-acceleratorer kan bli försenade med så mycket som tre månader på grund av designfel. En talesperson för NVIDIA uppgav dock att allt går som planerat. Vissa leverantörer uppgav att ingenting har förändrats, medan andra noterade vissa normala förseningar.
Branschinsiders förväntar sig att när NVIDIA rapporterar sina finansiella resultat för andra kvartalet 2025 nästa onsdag, kommer användare att få mer insikter om statusen för Blackwell.
Det rapporteras att Blackwell chips-B100, B200 och GB200-kommer att vara en höjdpunkt på årets Hot Chips-konferens, som kommer att hållas nästa vecka på Stanford University i Kalifornien. NVIDIA kommer att introducera sin arkitektur, beskriva några nya innovationer, beskriva användningen av AI i chipdesign och diskutera vätskekylningsforskning i datacenter som används för att driva dessa växande AI-arbetsbelastningar. Enligt NVIDIAs direktör för Accelerated Computing Products, Dave Salvator, kommer företaget också att visa upp Blackwell-chips som redan finns i ett av dess datacenter.

▲ Blackwell-chips
Mycket av det som NVIDIA diskuterar om Blackwell är redan känt, som att Blackwell Ultra GPU lanseras nästa år, och nästa generations Rubin GPU och Vera CPU börjar rulla ut 2026. Salvator betonade dock att när han pratade om Blackwell, det är avgörande att se det som en plattform snarare än ett enda chip. Salvator påpekade detta i en briefing för journalister och analytiker denna vecka som en del av förberedelserna för Hot Chips.
"När du tänker på NVIDIA och plattformarna vi bygger är GPU, nätverk och till och med vår CPU bara början", sa han. "Vi gör konstruktion på systemnivå och datacenternivå för att bygga dessa system och plattformar som verkligen kan gå ut och ta itu med de riktigt tuffa generativa AI-utmaningarna. Vi har sett modellernas omfattning växa över tiden, och de flesta generativa AI-tillämpningar måste köras i realtid, med kraven på inferens som har ökat dramatiskt under de senaste åren. Stora språkmodeller i realtid kräver flera GPU:er, och inom en snar framtid kommer det att kräva flera servernoder."

Detta inkluderar inte bara Blackwell GPU:er och Grace-processorer, utan även NVLink Switch-chips, Bluefield-3 DPU:er, ConnextX-7 och ConnectX-8 NIC, Spectrum-4 Ethernet-switchar och Quantum -3 InfiniBand-omkopplare. Salvator gav också olika insikter för NVLink Switch (nedan), compute, Spectrum-X800 och Quantum-X800.
NVIDIA introducerade den mycket efterlängtade Blackwell-arkitekturen vid sin GTC 2024-konferens i mars i år, med hyperskaliga leverantörer och OEM-tillverkare som snabbt skrev på. Företaget riktar in sig på det snabbt växande generativa AI-området, där stora språkmodeller (LLM) blir ännu mer massiva. Metas Llama 3.1, som lanserades i juni, är ett bevis på denna trend, med en modell med 4,05 biljoner parametrar. Salvator noterade att allt eftersom LLM växer sig större, kvarstår efterfrågan på realtidsinferens, vilket kräver mer beräkning och lägre latens, vilket kräver en plattformsansats.
"Som med de flesta andra LLM:er förväntas tjänsterna som drivs av denna modell köras i realtid. För att uppnå detta behöver du flera GPU:er. Utmaningen är hur man uppnår en enorm balans mellan den höga prestandan hos GPU:erna, det höga utnyttjandet av GPU:erna och att ge en bra användarupplevelse för slutanvändarna som konsumerar dessa AI-drivna tjänster," sa han.
Need for Speed
Med Blackwell har NVIDIA fördubblat bandbredden för varje switch och ökat den från 900 GB/s till 1,8 TB/s. Företagets SHARP-teknik (Scalable Hierarchical Aggregation and Reduction Protocol) tar med sig mer datoranvändning i de system som faktiskt finns inom switcharna. Det tillåter oss att ladda ner vissa uppgifter från GPU:n för att påskynda prestanda och hjälper också till att jämna ut nätverkstrafiken över NVLink-tyget. Det här är innovationer som vi fortsätter att driva på plattformsnivå.
Multi-nod GB200 NVL72 är ett vätskekylt chassi som ansluter 72 Blackwell GPU: er och 36 Grace processorer i en rack-skala design. NVIDIA hävdar att det ger högre slutledningsprestanda för LLM:er med biljoner parametrar som GPT-MoE-1.8T, som effektivt fungerar som en enda GPU. Dess prestanda är 30 gånger högre än HGX H100-systemet, med träningshastighet fyra gånger snabbare än H100.
NVIDIA har också lagt till inbyggt stöd för FP4, med hjälp av företagets Quasar Quantization System, som levererar samma precision som FP16 samtidigt som bandbreddsanvändningen minskar med 75 %. Quasar Quantization System är programvara som utnyttjar Blackwells Transformer Engine för att säkerställa noggrannhet. Salvator visade detta genom att jämföra generativa AI-bilder skapade med FP4 och FP16, med liten eller ingen märkbar skillnad mellan de två.
Med FP4 kan modeller använda mindre minne och prestera ännu bättre än FP8 i Hopper GPU.
Vätskekylsystem
När det gäller vätskekylning kommer NVIDIA att introducera en varmvatten direkt chip-to-chip-metod, som kan minska datacentrets energiförbrukning med 28 %.
Salvator sa: "Det som är intressant med den här metoden är några av dess fördelar, som inkluderar ökad kylningseffektivitet, lägre driftskostnader, förlängd serverlivslängd och potentialen att återanvända infångad värme för andra användningsområden. Det hjälper definitivt till att förbättra kylningseffektiviteten. En av de sätt att uppnå detta, som namnet antyder, är att detta system faktiskt inte använder kylmaskiner. Om du tänker på hur ett kylskåp fungerar, men det kräver också elektricitet Vi behöver inte använda kylaggregat, vilket sparar energi och minskar driftskostnaderna."
Ett annat ämne är hur NVIDIA utnyttjar AI för att designa sina AI-chips med hjälp av Verilog, ett hårdvarubeskrivningsspråk som har använts i fyrtio år för att beskriva kretsar i kod. NVIDIA främjar denna ansträngning genom en autonom Verilog-agent som heter VerilogCoder.

Han sa, "Våra forskare har utvecklat en stor språkmodell som kan påskynda skapandet av Verilog-kod som beskriver våra system. Vi kommer att använda den i framtida produktgenerationer för att hjälpa till att bygga dessa koder. Den kan göra många saker. Det kan hjälpa påskynda design- och verifieringsprocessen. Det kan påskynda designens manuella operationer och i grunden automatisera många uppgifter."
