GPU 算力硬體規劃

Llama3 在 GPU 的推論速度(token/秒)

主流 GPU 在 Llama3 8B / 70B 的效能比較

GPU
記憶體(VRAM)
8B Q4_K_M
8B F16
70B Q4_K_M
70B F16

RTX 4090

24GB

127.74

54.34

超過記憶體

超過記憶體

RTX A6000

48GB

102.22

40.25

14.58

超過記憶體

L40S

48GB

113.60

43.42

15.31

超過記憶體

RTX 6000 Ada

48GB

130.99

51.97

18.36

超過記憶體

A100

80GB

138.31

54.56

22.11

超過記憶體

H100

80GB

144.49

67.79

25.01

超過記憶體

M2 Ultra

192GB

76.28

36.25

12.13

4.71


Llama3 模型所需要的 VRAM

模型
Q4_K_M(量化後)
F16(原始)

Llama3 8B

4.58 GB

14.96 GB

Llama3 70B

39.59 GB

131.42 GB

資料來源


硬體配置推薦

MaiAgent 推薦兩種組合,適合不同族群。

  1. H100(80GB) 兩張:預算較高,追求品質與效能

  2. L40S(48GB) 、RTX 6000 Ada(48GB) 兩張:預算一般,追求性價比

若需要更詳細的資訊,歡迎聯繫 MaiAgent 的專業顧問討論,請來信 [email protected]

Last updated

Was this helpful?