GPU 算力硬體規劃
Llama3 在 GPU 的推論速度(token/秒)

GPU
記憶體(VRAM)
8B Q4_K_M
8B F16
70B Q4_K_M
70B F16
RTX 4090
24GB
127.74
54.34
超過記憶體
超過記憶體
RTX A6000
48GB
102.22
40.25
14.58
超過記憶體
L40S
48GB
113.60
43.42
15.31
超過記憶體
RTX 6000 Ada
48GB
130.99
51.97
18.36
超過記憶體
A100
80GB
138.31
54.56
22.11
超過記憶體
H100
80GB
144.49
67.79
25.01
超過記憶體
M2 Ultra
192GB
76.28
36.25
12.13
4.71
Llama3 模型所需要的 VRAM
模型
Q4_K_M(量化後)
F16(原始)
Llama3 8B
4.58 GB
14.96 GB
Llama3 70B
39.59 GB
131.42 GB
資料來源
硬體配置推薦
MaiAgent 支援各種 Nvidia GPU。
名稱
VRAM
NVIDIA H200
141 GB
NVIDIA RTX PRO 6000 Blackwell
96 GB
NVIDIA H100
80 GB
RTX 6000 Ada
48 GB
NVIDIA A100
80GB
NVIDIA L40S
48 GB
若需要更詳細的資訊,歡迎聯繫 MaiAgent 的專業顧問討論,請來信 [email protected]
Last updated
Was this helpful?
