GPU 算力硬體規劃
Llama3 在 GPU 的推論速度(token/秒)

GPU
記憶體(VRAM)
8B Q4_K_M
8B F16
70B Q4_K_M
70B F16
RTX 4090
24GB
127.74
54.34
超過記憶體
超過記憶體
RTX A6000
48GB
102.22
40.25
14.58
超過記憶體
L40S
48GB
113.60
43.42
15.31
超過記憶體
RTX 6000 Ada
48GB
130.99
51.97
18.36
超過記憶體
A100
80GB
138.31
54.56
22.11
超過記憶體
H100
80GB
144.49
67.79
25.01
超過記憶體
M2 Ultra
192GB
76.28
36.25
12.13
4.71
Llama3 模型所需要的 VRAM
模型
Q4_K_M(量化後)
F16(原始)
Llama3 8B
4.58 GB
14.96 GB
Llama3 70B
39.59 GB
131.42 GB
資料來源
硬體配置推薦
MaiAgent 推薦兩種組合,適合不同族群。
H100(80GB) 兩張:預算較高,追求品質與效能
L40S(48GB) 、RTX 6000 Ada(48GB) 兩張:預算一般,追求性價比
若需要更詳細的資訊,歡迎聯繫 MaiAgent 的專業顧問討論,請來信 [email protected]
Last updated
Was this helpful?