GPU 算力硬體規劃
Llama3 在 GPU 的推論速度(token/秒)

GPU
記憶體(VRAM)
8B Q4_K_M
8B F16
70B Q4_K_M
70B F16
Llama3 模型所需要的 VRAM
模型
Q4_K_M(量化後)
F16(原始)
硬體配置推薦
名稱
VRAM
Last updated
Was this helpful?

Last updated
Was this helpful?
Was this helpful?