Introduction
我们在前面介绍了关于大语言模型的 scaling law, 如 Kaplan scaling law (Kaplan et al., 2020), Chinchilla scaling law (Hoffmann et al., 2022). 其核心结论为,大语言模型的能力随算力,模型大小,数据量的提升而提升。 其中,算力由 GPU/TPU/NPU 决定,因此,我们在本节介绍这些硬件的相关知识。
在介绍不同的显卡之前,我们先了解一下使用显卡加速计算的过程。
我们是如何通过 GPU 来加速计算的,TODO: 框架图
TODO:不同显卡算力,内存对比
Notation
在本文中,我们将使用 device 来表示显卡 (GPU, TPU) 等,使用 host 来表示 CPU.
- Hoffmann, J., Borgeaud, S., Mensch, A., Buchatskaya, E., Cai, T., Rutherford, E., de Las Casas, D., Hendricks, L. A., Welbl, J., Clark, A., Hennigan, T., Noland, E., Millican, K., van den Driessche, G., Damoc, B., Guy, A., Osindero, S., Simonyan, K., Elsen, E., … Sifre, L. (2022). Training Compute-Optimal Large Language Models. https://arxiv.org/abs/2203.15556
- Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., Gray, S., Radford, A., Wu, J., & Amodei, D. (2020). Scaling Laws for Neural Language Models. https://arxiv.org/abs/2001.08361
GPU
Introduction
GPU 全称为 graphic processing unit, 其主要用于高效并行计算,现在已经被广泛应用于游戏,科学记算,深度学习等领域。 我们在本文中主要关注针对机器学习领域的 GPU, 如 A100, H100, B200 等
overview of GPU
GPU 的架构如下所示
Memory
我们首先来了解一下 GPU 中的内存架构,GPU 的内存架构与 CPU 大体上相似,其内存架构图如下所示
分为了多个层级:
- Global memory: Global memory 用于存储模型权重,梯度和 activation 等,我们通常说的 GPU 显存指的就是 global memory,比如 A100 40GB, A100 80GB, 它代表了单张显卡所能容纳的最大数据大小。
- L2 cache: 对所有 SM 可见,所有的 thread 都可以访问这个内存,由于访问速度相对较慢,因此我们需要控制 memory access pattern.
- L1 data cache (SMEM unit): 对当前 CUDA block 的所有 threads 可见, 同一个 SM 的所有 CUDA blocks 可以共享一块物理内存,SMEM 一般用于保存 activation 或者 Tensor Core 的输入
- register file: 只对当前分区中的 CUDA cores (thread) 可见,对 H100 来说,每个 register file 可以存储 16384 个 32-bit 的 words, 因而每个 SM 中的 register file size 为 kb.
不同架构 GPU 的内存相关信息如下表所示
| GPU | Generation | register file size per SM | SMEM per SM | L2 cache | HBM |
|---|---|---|---|---|---|
| V100 | Volta | 256kb | 96kb | 6MB | 32GB |
| A100 | Amper | 256kb | 164kb | 40MB | 80GB |
| H100 | Hopper | 256kb | 228kb | 50MB | 80GB |
| H200 | Hopper | 256kb | 228kb | 50MB | 141GB |
| B200 | Blackwell | ? | ? | 126MB | 192GB |
Compute
GPU 由若干个 streaming multiprocessor (SM) 组成,每个 SM 是一个独立的模块,这提高了 GPU 并行处理计算任务的能力。
每个 SM 又进一步细化为若干个分区,称为 SM subpartition, 比如 H100 中每个 SM 就包含 4 个 subpartition, 如下图所示
TODO: add subpartition figure
接下来,每个 subpartition 由以下几部分组成:
- 1 个 Tensor Core, Tensor Core 用于进行矩阵和张量运算,相比于 CUDA core 拥有更高的算力
- 1 个 register file
- 1 个 warp scheduler
- 1 个 L1 data cache, 也称为 SMEM unit
每个 CUDA core 可以在一个 cycle 里执行一个算数操作,比如 f32.add, 每个分区包含 32 个 CUDA cores, 它们可以在一个 cycle 里执行相同的指令。CUDA core 主要用于 ReLU, point-wise vector operations 和 reduction 等操作。其数量的计算方式为 SMs 数 分区数 CUDA cores 数,比如对于 H100 的 FP32 CUDA core, 其数量为
其中 代表 SM 个数, 代表分区个数, 代表每个分区的 FP32 CUDA core 个数。
接下来我们可以基于 CUDA cores 来计算出对应架构的 peak FLOPs/s. 其计算方式为 CUDA cores 个数 * 频率,比如对于 H100 的 FP32 精度, 我们有
这个值刚好是 H100 datasheet 报告的 peak FLOPs 的一半,这是因为我们可以使用 FMA (fused-multiply-add) 来在一个时钟周期里完成两次操作。不同 GPU 的计算效率如下表所示 (除 SMs 之外其他数值单位为 TFLOPs/s)
| GPU | Generation | SMs | CUDA core (FP64) | CUDA core (FP32) | Tensor Core (FP64) | Tensor Core (TF32) | Tensor Core (BF16) | Tensor Core (FP8) | Tensor Core (INT*) |
|---|---|---|---|---|---|---|---|---|---|
| V100 | Volta | 80 | 7.8 | 15.7 | - | - | 125 | - | - |
| A100 | Amper | 108 | 9.7 | 19.5 | 19.5 | 156 | 312 | 624 | 624 |
| H100 | Hopper | 132 | 34 | 67 | 67 | 495 | 990 | 1979 | 1979 |
| H200 | Hopper | 132 | 34 | 67 | 67 | 495 | 990 | 1979 | 1979 |
| B200 | Blackwell | 148 | 40 | 80 | 40 | 1125 | 2250 | 4500 | 9000 |
Comparison with CPU
架构上 CPU 与 GPU 的对比如下表所示
TODO: add figure
| Components | CPU | GPU |
|---|---|---|
| ALU | a few powerful ALUs (reduce operation latency) | many smaller ALUs(low latency, high throughput) |
| Caches | large caches (reduce memory access latency) | small caches(more area dedicated to computation) |
| Control | Sophisticated control(branch prediction, data forwarding) | simple control(more area dedicated to computation) |
| clock frequency | high | moderate |
| latency | low | hgih |
| latency optimization | modest multi-threading (2) | massive number of threads |
可以看到,CPU 有少量 ALU, 有较大的 cache 和 control module, 而 GPU 则拥有较多的 ALU, 较小的 cache 以及 control module.
GPU 与 CPU 的核心不同在于两者的优化目标不一致:
- CPU: low-latency oriented, 在尽可短的时间内完成尽可能多的任务,也就是降低单个任务完成的 latency,适用于少量,复杂任务
- GPU: high-throughput oriented, 在一段时间内尽可能完成多的任务,即使单个任务的完成时间会变慢,适用于大量,简单任务
我们可以用出行方式来举个例子,当我们从一点到另一点时,CPU 相当于是跑车,能够快速完成任务。而 GPU 相当于公交车,在人数很多时,我们可以在一次运行中将多个乘客送到目的地。
与 CPU 不同,GPU 大部分 transistors 都被用于数据处理,而 CPU 则保存了一些 transistor 用于缓存和控制单元。
TODO: add figure
CPU 需要最小化每个 thread 的 latency, 在一段时间内,CPU 需要尽可能完成多的任务,因此 CPU 需要 low latency, 这就需要较大的 cache 和复杂的逻辑。
Multi-GPU
Intra Node
Inter Node
跨 node 层面的设计目前还没有统一,NVIDIA 提出了 DGX 架构,使用 InfiniBand 来在 node 之间进行通信,在 node 之上,还有两个抽象等级,分别是 Scalable Units (SUs) 和 SuperPod.
- Scalable Units: 一个 SU 由 32 个 nodes 和 8 个 leaf InfiniBand switches 组成,因此一个 SU 包括 256 个 GPU, 128 个 NVSwitch, 8 个 InfiniBand leaf switch
- SuperPod: 一个 SuperPod 连接了 4 个 SU, 通信方式包括 16 个 top level “spine” IB Switch, 因此一个 SuperPod 包括 1024 张 GPU, 512 个 NVSwitch,32 个 InfiniBand leaf switch 和 16 个 spine IB switches
InfiniBand 端口的带宽为 50GB/s (duplex), InfiniBand 有 64 个端口,因此一个 SU 的 IB 总带宽为 TB/s, 下表是不同 level 的通信效率对比
| Level | GPUs | Switches per Unit | Switch Type | Bandwidth per Unit (TB/s, full-duplex) | GPU-to-GPU Bandwidth (GB/s, full-duplex) | Fat Tree Bandwidth (GB/s, full-duplex) |
|---|---|---|---|---|---|---|
| Node | 8 | 4 | NVL | 3.6 | 450 | 450 |
| Leaf | 256 | 8 | IB | 12.8 | 50 | 400 |
| Spine | 1024 | 16 | IB | 51.2 | 50 | 400 |
Optimization
TPU
Acknowledgements
这篇 blog 参考了 Aleksa Gordić 写的一片关于 GPU 的 blog (Gordić, 2025)
- Gordić, A. (2025). Inside NVIDIA GPUs: Anatomy of high performance matmul kernels. https://www.aleksagordic.com/blog/matmul
GPU Specs
V100
V100 关键改进
- Volta architecture
- SM architecture: 支持深度学习
- 2nd NVIDIA NVLink
- HBM2 memory
- Volta Multi-process Service
V100 技术规格
| Tesla Product | Tesla K40 | Tesla M40 | Tesla P100 | Tesla V100 |
|---|---|---|---|---|
| GPU | GK180 (Kepler) | GM200 (Maxwell) | GP100 (Pascal) | GV100 (Volta) |
| SMs | 15 | 24 | 56 | 80 |
| TPCs | 15 | 24 | 28 | 40 |
| FP32 Cores / GPU | 2880 | 3072 | 3584 | 5120 |
| FP64 Cores / GPU | 960 | 96 | 1792 | 2560 |
| Tensor Cores / GPU | NA | NA | NA | 640 |
| GPU Boost Clock | 810/875 MHz | 1114 MHz | 1480 MHz | 1530 MHz |
| Peak FP32 TFLOPS² | 5 | 6.8 | 10.6 | 15.7 |
| Peak FP64 TFLOPS² | 1.7 | .21 | 5.3 | 7.8 |
| Peak Tensor TFLOPS² | NA | NA | NA | 125 |
| Memory Size | Up to 12 GB | Up to 24 GB | 16 GB | 16 GB |
| Memory Interface | 384-bit GDDR5 | 384-bit GDDR5 | 4096-bit HBM2 | 4096-bit HBM2 |
| TDP | 235 Watts | 250 Watts | 300 Watts | 300 Watts |
| Manufacturing Process | 28 nm | 28 nm | 16 nm FinFET+ | 12 nm FFN |
内存规格
| GPU | Kepler GK180 | Maxwell GM200 | Pascal GP100 | Volta GV100 |
|---|---|---|---|---|
| Compute Capability | 3.5 | 5.2 | 6.0 | 7.0 |
| Threads / Warp | 32 | 32 | 32 | 32 |
| Max Warps / SM | 64 | 64 | 64 | 64 |
| Max Threads / SM | 2048 | 2048 | 2048 | 2048 |
| Max Thread Blocks / SM | 32 | 32 | 32 | 32 |
| Max 32-bit Registers / SM | 65536 | 65536 | 65536 | 65536 |
| Max Registers / Block | 65536 | 65536 | 65536 | 65536 |
| Max Registers / Thread | 255 | 255 | 255 | 255 |
| Max Thread Block Size | 1024 | 1024 | 1024 | 1024 |
| FP32 Cores / SM | 192 | 128 | 64 | 64 |
| Ratio of SM Registers to FP32 Cores | 341 | 512 | 1024 | 1024 |
| Shared Memory Size / SM | 16 KB/32 KB/ 48 KB | 96 KB | 64 KB | Configurable up to 96 KB |
系统规格
| Specification | DGX-1 (Tesla P100) | DGX-1 (Tesla V100) |
|---|---|---|
| GPU | 8x Tesla P100 GPUs | 8x Tesla V100 GPUs |
| TFLOPS | 170 (GPU FP16) + 3 (CPU FP32) | 1 (GPU Tensor PFLOP) |
| GPU Memory | 16 GB per GPU / 128 GB per DGX-1 Node | 16 GB or 32 GB per GPU / 128-256 GB per DGX-1 Node |
| CPU | Dual 20-core Intel® Xeon® E5-2698 v4 | Dual 20-core Intel® Xeon® E5-2698 v4 |
| FP32 CUDA Cores | 28,672 Cores | 40,960 Cores |
| System Memory | Up to 512 GB 2133 MHz DDR4 LRDIMM | Up to 512 GB 2133 MHz DDR4 LRDIMM |
| Storage | 4x 1.92 TB SSD RAID 0 | 4x 1.92 TB SSD RAID 0 |
| Network Interconnect | Dual 10 GbE, 4 IB EDR | Dual 10 GbE, 4 IB EDR |
| System Dimensions | 866 D x 444 W x 131 H (mm) | 866 D x 444 W x 131 H (mm) |
| System Weight | 80 lbs | 80 lbs |
| Max Power TDP | 3200 W | 3200 W |
| Operating Temp | 10 - 35°C | 10 - 35°C |
A100
A100 关键改进
- Ampere 架构:使用 MIG 来将 A100 切分为更小的实例或者链接更多 GPU
- Tensor Cores: 312 TFLOPs/s
- NVLink: 更高的 throughput
- MIG (multi-instance GPU): 一个 A100 可以切分为至多 7 个硬件层面隔离的实例
- HBM2e: 更大的 HBM, 更快的 bandwidth, 更高的 DRAM 使用效率
- structure sparsity: 稀疏运算可以带来 2 倍的算力提升
A100 技术规格
| A100 80GB PCIe | A100 80GB SXM | |
|---|---|---|
| FP64 | 9.7 TFLOPS | 9.7 TFLOPS |
| FP64 Tensor Core | 19.5 TFLOPS | 19.5 TFLOPS |
| FP32 | 19.5 TFLOPS | 19.5 TFLOPS |
| Tensor Float 32 (TF32) | 156 TFLOPS | 312 TFLOPS | 156 TFLOPS | 312 TFLOPS* |
| BFLOAT16 Tensor Core | 312 TFLOPS | 624 TFLOPS* | 312 TFLOPS | 624 TFLOPS* |
| FP16 Tensor Core | 312 TFLOPS | 624 TFLOPS* | 312 TFLOPS | 624 TFLOPS* |
| INT8 Tensor Core | 624 TOPS | 1248 TOPS* | 624 TOPS | 1248 TOPS* |
| GPU Memory | 80GB HBM2e | 80GB HBM2e |
| GPU Memory Bandwidth | 1,935 GB/s | 2,039 GB/s |
| Max Thermal Design Power (TDP) | 300W | 400W *** |
| Multi-Instance GPU | Up to 7 MIGs @ 10GB | Up to 7 MIGs @ 10GB |
| Form Factor | PCIe Dual-slot air-cooled or single-slot liquid-cooled | SXM |
| Interconnect | NVIDIA® NVLink® Bridge for 2 GPUs: 600 GB/s ** PCIe Gen4: 64 GB/s | NVLink: 600 GB/s PCIe Gen4: 64 GB/s |
| Server Options | Partner and NVIDIA-Certified Systems™ with 1-8 GPUs | NVIDIA HGX™ A100-Partner and NVIDIA-Certified Systems with 4,8, or 16 GPUs NVIDIA DGX™ A100 with 8 GPUs |
H100
H100 关键改进
- Hopper 架构
- Tensor Core: 更强的 tensor core
- transformer engine: 加速基于 transformer 架构模型的训练
- NVLink: 900GB/s 的 bandwidth
- 2nd MIG: 支持 multi-tenant, multi-user 使用
- DPX: 基于 DPX 指令集加速动态规划算法
H100 技术规格
| H100 SXM | H100 NVL | |
|---|---|---|
| FP64 | 34 teraFLOPS | 30 teraFLOPs |
| FP64 Tensor Core | 67 teraFLOPS | 60 teraFLOPs |
| FP32 | 67 teraFLOPS | 60 teraFLOPs |
| TF32 Tensor Core* | 989 teraFLOPS | 835 teraFLOPs |
| BFLOAT16 Tensor Core* | 1,979 teraFLOPS | 1,671 teraFLOPS |
| FP16 Tensor Core* | 1,979 teraFLOPS | 1,671 teraFLOPS |
| FP8 Tensor Core* | 3,958 teraFLOPS | 3,341 teraFLOPS |
| INT8 Tensor Core* | 3,958 teraFLOPS | 3,341 teraFLOPS |
| GPU Memory | 80GB | 94GB |
| GPU Memory Bandwidth | 3.35TB/s | 3.9TB/s |
| Decoders | 7 NVDEC 7 JPEG | 7 NVDEC 7 JPEG |
| Max Thermal Design Power (TDP) | Up to 700W (configurable) | 350-400W (configurable) |
| Multi-Instance GPUs | Up to 7 MIGS @ 10GB each | Up to 7 MIGS @ 12GB each |
| Form Factor | SXM | PCIe dual-slot air-cooled |
| Interconnect | NVIDIA NVLink™: 900GB/s PCIe Gen5: 128GB/s | NVIDIA NVLink: 600GB/s PCIe Gen5: 128GB/s |
| Server Options | NVIDIA HGX H100 Partner and NVIDIA- Certified Systems™ with 4 or 8 GPUs NVIDIA DGX H100 with 8 GPUs | Partner and NVIDIA-Certified Systems with 1–8 GPUs |
| NVIDIA AI Enterprise | Add-on | Included |
H200
H200 关键改进
- 更高的 HBM 内存和带宽
- 更高的 LLM inference 速度
H200 技术规格
| H200 SXM | H200 NVL | |
|---|---|---|
| FP64 | 34 teraFLOPS | 30 teraFLOPs |
| FP64 Tensor Core | 67 teraFLOPS | 60 teraFLOPs |
| FP32 | 67 teraFLOPS | 60 teraFLOPs |
| TF32 Tensor Core* | 989 teraFLOPS | 835 teraFLOPs |
| BFLOAT16 Tensor Core* | 1,979 teraFLOPS | 1,671 teraFLOPS |
| FP16 Tensor Core* | 1,979 teraFLOPS | 1,671 teraFLOPS |
| FP8 Tensor Core* | 3,958 teraFLOPS | 3,341 teraFLOPS |
| INT8 Tensor Core* | 3,958 teraFLOPS | 3,341 teraFLOPS |
| GPU Memory | 141GB | 141GB |
| GPU Memory Bandwidth | 4.8TB/s | 4.8TB/s |
| Decoders | 7 NVDEC 7 JPEG | 7 NVDEC 7 JPEG |
| Confidential Computing | Supported | Supported |
| Max Thermal Design Power (TDP) | Up to 700W (configurable) | Up to 600W (configurable) |
| Multi-Instance GPUs | Up to 7 MIGS @ 18GB each | Up to 7 MIGS @ 18GB each |
| Form Factor | SXM | PCIe dual-slot air-cooled |
| Interconnect | NVIDIA NVLink™: 900GB/s PCIe Gen5: 128GB/s | 2- or 4-way NVIDIA NVLink bridge: 900GB/s per GPUPCIe Gen5: 128GB/s |
| Server Options | NVIDIA HGX H200 Partner and NVIDIA- Certified Systems™ with 4 or 8 GPUs | NVIDIA MGX™ H200 NVL partner and NVIDIA-Certified Systems with up to 8 GPUs |
| NVIDIA AI Enterprise | Add-on | Included |
相比于 H100, H200 升级了 HBM 和 bandwidth
B200
B200 关键改进
- blackwell 架构: GPU 之间的通信效率大幅度提升
- Grace CPU: GPU 可以与 Grace CPu 之间达到 900GB/s 的 bidirectional bandwidth
- 5th NVIDIA NVLink: 可以链接 576 块 GPU 来支持计算,NVlink 的带宽可以达到 130TB/s
- RAS engine: 自动识别故障来提高效率
- NVIDIA networking
B2100 技术规格
system specification 如下
| Specification | GB200 NVL72 | GB200 NVL4 | HGX B200 |
|---|---|---|---|
| NVIDIA Blackwell GPUs | Grace CPUs | 72 | 36 | 4 | 2 | 8 | 0 |
| CPU Cores | 2,592 Arm® Neoverse V2 Cores | 144 Arm Neoverse V2 Cores | - |
| Total NVFP4 Tensor Core² | 1,440 | 720 PFLOPS | 80 | 40 PFLOPS | 144 | 72 PFLOPS |
| Total FP8/FP6 Tensor Core² | 720 PFLOPS | 40 PFLOPS | 72 PFLOPS |
| Total Fast Memory | 31 TB | 1.8 TB | 1.4 TB |
| Total Memory Bandwidth | 576 TB/s | 32 TB/s | 62 TB/s |
| Total NVLink Bandwidth | 130 TB/s | 7.2 TB/s | 14.4 TB/s |
individual specification 如下
| Specification | GB200 NVL72 | GB200 NVL4 | HGX B200 |
|---|---|---|---|
| FP4 Tensor Core | 20 PFLOPS | 20 PFLOPS | 18 PFLOPS |
| FP8/FP6 Tensor Core² | 10 PFLOPS | 10 PFLOPS | 9 PFLOPS |
| INT8 Tensor Core² | 10 POPS | 10 POPS | 9 POPS |
| FP16/BF16 Tensor Core² | 5 PFLOPS | 5 PFLOPS | 4.5 PFLOPS |
| TF32 Tensor Core² | 2.5 PFLOPS | 2.5 PFLOPS | 2.2 PFLOPS |
| FP32 | 80 TFLOPS | 80 TFLOPS | 75 TFLOPS |
| FP64 / FP64 Tensor Core | 40 TFLOPS | 40 TFLOPS | 37 TFLOPS |
| GPU Memory Bandwidth | 186 GB HBM3E 8 TB/s | 186 GB HBM3E 8 TB/s | 180 GB HBM3E 7.7 TB/s |
| Multi-Instance GPU (MIG) | - | 7 | - |
| Decompression Engine | - | Yes | - |
| Decoders | - | 7 NVDEC³ 7 nvJPEG | - |
| Max Thermal Design Power (TDP) | Configurable up to 1,200 W | Configurable up to 1,200 W | Configurable up to 1,000 W |
| Interconnect | - | Fifth-generation NVLink: 1.8 TB/s PCIe Gen5: 128 GB/s | - |
| Server Options | NVIDIA GB200 NVL72 partner and NVIDIA-Certified Systems™ with 72 GPUs | NVIDIA MGX partner and NVIDIA-Certified Systems | NVIDIA HGX B200 partner and NVIDIA-Certified Systems with 8 GPUs |
B300
B300 关键改进
- Blackwell 架构
- AI reasoning inference: 支持 test-time scaling, 对 attention layer 和 FLOPs 都有加速
- HBM3e: 支持更大的 batch size 和 throughput
- ConnectX-8 SuperNIC, 一个 host2 个 ConnectX-8 设备,支持 800Gb/s 的 GPU 之间通信
- Grace-CPU: 更强的表现和带宽
- 5th NVIDIA NVLink: 更高的通信效率
B3100 技术规格
system specification 如下
| GB300 NVL72 | HGX B300 | |
|---|---|---|
| Blackwell Ultra GPUs| Grace CPUs | 72 | 36 | 8 | 0 |
| CPU Cores | 2,592 Arm Neoverse V2 Cores | - |
| Total FP4 Tensor Core | 1 1,440 PFLOPS | 1,080 PFLOPS | 144 PFLOPS | 108 PFLOPS |
| Total FP8/FP6 Tensor Core | 2 720 PFLOPS | 72 PFLOPS |
| Total Fast Memory | 37 TB | 2.1 TB |
| Total Memory Bandwidth | 576 TB/s | 62 TB/s |
| Total NVLink Switch Bandwidth | 130 TB/s | 14.4 TB/s |
individual specification 如下
| GB300 NVL72 | HGX B300 | |
|---|---|---|
| FP4 Tensor Core | 20 PFLOPS | 15 PFLOPS | 18 PFLOPS | 14 PFLOPS |
| FP8/FP6 Tensor Core2 | 10 PFLOPS | 9 PFLOPS |
| INT8 Tensor Core2 | 330 TOPS | 307 TOPS |
| FP16/BF16 Tensor Core | 5 PFLOPS | 4.5 PLFOPS |
| TF32 Tensor Core2 | 2.5 PFLOPS | 2.2 PFLOPS |
| FP32 | 80 TFLOPS | 75 TFLOPS |
| FP64/FP64 Tensor Core | 1.3 TFLOPS | 1.2 TFLOPS |
| GPU Memory | Bandwidth | 279 GB HBM3E | 8 TB/s | 270 GB HBM3E | 7.7 TB/s |
| Multi-Instance GPU (MIG) | 7 | 7 |
| Decompression Engine | Yes | Yes |
| Decoders | 7 NVDEC3 7 nvJPEG | 7 NVDEC3 7 nvJPEG |
| Max Thermal Design Power (TDP) | Configurable up to 1,400 W | Configurable up to 1,100 W |
| Interconnect | Fifth-Generation NVLink: 1.8 TB/s PCIe Gen6: 256 GB/s | Fifth-Generation NVLink: 1.8 TB/s PCIe Gen6: 256 GB/s |
| Server Options | NVIDIA GB300 NVL72 partner and NVIDIA-Certified Systems™ | NVIDIA HGX B300 partner and NVIDIA-Certified Systems |