GPU 算力硬體規劃

Llama3 在 GPU 的推論速度（token/秒）

GPU

記憶體(VRAM)

8B Q4_K_M

8B F16

70B Q4_K_M

70B F16

RTX 4090

24GB

127.74

54.34

超過記憶體

超過記憶體

RTX A6000

48GB

102.22

40.25

14.58

超過記憶體

L40S

48GB

113.60

43.42

15.31

超過記憶體

RTX 6000 Ada

48GB

130.99

51.97

18.36

超過記憶體

A100

80GB

138.31

54.56

22.11

超過記憶體

H100

80GB

144.49

67.79

25.01

超過記憶體

M2 Ultra

192GB

76.28

36.25

12.13

4.71

Llama3 模型所需要的 VRAM

模型

Q4_K_M（量化後）

F16（原始）

Llama3 8B

4.58 GB

14.96 GB

Llama3 70B

39.59 GB

131.42 GB

資料來源

GitHub - XiongjieDai/GPU-Benchmarks-on-LLM-Inference: Multiple NVIDIA GPUs or Apple Silicon for Large Language Model Inference?GitHub

硬體配置推薦

MaiAgent 支援各種 Nvidia GPU。

名稱

VRAM

NVIDIA H200

141 GB

NVIDIA RTX PRO 6000 Blackwell

96 GB

NVIDIA H100

80 GB

RTX 6000 Ada

48 GB

NVIDIA A100

80GB

NVIDIA L40S

48 GB

若需要更詳細的資訊，歡迎聯繫 MaiAgent 的專業顧問討論，請來信 [email protected]

Previous雲端模型推論 API 服務 NextCelery 週期性任務配置與 OAuth Token 刷新

Last updated 4 months ago

Was this helpful?