
– GPU: 72 Rubin GPU (HBM4 メモリ搭載、GPU あたり 288GB、Transformer Engine サポート)
– スーパーチップユニット: 1 Vera CPU + 2 Rubin GPU の組み合わせ
– その他のチップ: NVLink 6 スイッチ、ConnectX-9 SuperNIC、BlueField-4 DPU、Spectrum-6 Ethernet スイッチなどを含む 6 つのチップのエクストリーム共同設計。
– 推論: 5 倍の向上 (NVFP4 ベースで 3.6 EFLOPS、GPU あたり 50 PFLOPS)
– トレーニング: 3.5 倍の向上 (NVFP4 に基づく 2.5 EFLOPS)
– トークンあたりのコスト: MoE モデルの 1/10 (推論コストを大幅に削減)
– MoE モデルのトレーニング: 必要な GPU の数を 1/4 に削減
– メモリ:
HBM4 20.7TB + LPDDR5X 54TB
– 帯域幅: NVLink 6 で GPU あたり 3.6 TB/秒、ラック全体で 260 TB/秒 (インターネット帯域幅全体を超える)
HBM4 は複数層の RAM で構成されており、「テラ」という単位で使用されます。
システム構成上、1GPUは288GBですが、
十分な RAM がなかったらさらに驚くでしょう。



