GPU 算力硬體規劃

Llama3 在 GPU 的推論速度(token/秒)

主流 GPU 在 Llama3 8B / 70B 的效能比較
GPU
記憶體(VRAM)
8B Q4_K_M
8B F16
70B Q4_K_M
70B F16

RTX 4090

24GB

127.74

54.34

超過記憶體

超過記憶體

RTX A6000

48GB

102.22

40.25

14.58

超過記憶體

L40S

48GB

113.60

43.42

15.31

超過記憶體

RTX 6000 Ada

48GB

130.99

51.97

18.36

超過記憶體

A100

80GB

138.31

54.56

22.11

超過記憶體

H100

80GB

144.49

67.79

25.01

超過記憶體

M2 Ultra

192GB

76.28

36.25

12.13

4.71


Llama3 模型所需要的 VRAM

模型
Q4_K_M(量化後)
F16(原始)

Llama3 8B

4.58 GB

14.96 GB

Llama3 70B

39.59 GB

131.42 GB

資料來源


硬體配置推薦

MaiAgent 支援各種 Nvidia GPU。

名稱
VRAM

NVIDIA H200

141 GB

NVIDIA RTX PRO 6000 Blackwell

96 GB

NVIDIA H100

80 GB

RTX 6000 Ada

48 GB

NVIDIA A100

80GB

NVIDIA L40S

48 GB

若需要更詳細的資訊,歡迎聯繫 MaiAgent 的專業顧問討論,請來信 [email protected]

Last updated

Was this helpful?