NVIDIA显卡
| 显卡型号 |
显存 |
0.5B |
1B |
3B |
7B |
13B |
32B |
70B |
| RTX 5090 D |
32GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
FP16
19GB
|
INT8
17GB
|
INT4
21GB
|
✗
|
| RTX 5080 |
16GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
INT8
10GB
|
INT4
9GB
|
✗
|
✗
|
| RTX 5070 |
12GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
INT8
10GB
|
INT4
9GB
|
✗
|
✗
|
| RTX 4090 |
24GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
FP16
19GB
|
INT8
17GB
|
INT4
21GB
|
✗
|
| RTX 4080 |
16GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
INT8
10GB
|
INT4
9GB
|
✗
|
✗
|
| RTX 4060 |
8GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
INT4
5GB
|
✗
|
✗
|
✗
|
| RTX 3080 |
10GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
INT8
10GB
|
INT4
9GB
|
✗
|
✗
|
| RTX 3060 |
12GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
INT8
10GB
|
INT4
9GB
|
✗
|
✗
|
| RTX 2080 |
8GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
INT4
5GB
|
✗
|
✗
|
✗
|
| RTX 2060 |
6GB |
FP16
2GB
|
FP16
3GB
|
INT8
4GB
|
INT4
5GB
|
✗
|
✗
|
✗
|
| GTX 1080 |
8GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
INT4
5GB
|
✗
|
✗
|
✗
|
| GTX 1060 |
6GB |
FP16
2GB
|
FP16
3GB
|
INT8
4GB
|
INT4
5GB
|
✗
|
✗
|
✗
|
苹果Silicon芯片
| 芯片型号 |
GPU核心 |
统一内存 |
0.5B |
1B |
3B |
7B |
13B |
32B |
70B |
| M4 Max |
32/40 |
128GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
FP16
19GB
|
FP16
34GB
|
FP16
84GB
|
INT8
91GB
|
| 64GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
FP16
19GB
|
FP16
34GB
|
INT8
42GB
|
INT4
46GB
|
| 48GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
FP16
19GB
|
FP16
34GB
|
INT8
42GB
|
INT4
46GB
|
| 36GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
FP16
19GB
|
FP16
34GB
|
INT4
21GB
|
✗
|
| M4 Pro |
16/20 |
64GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
FP16
19GB
|
FP16
34GB
|
INT8
42GB
|
INT4
46GB
|
| 48GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
FP16
19GB
|
FP16
34GB
|
INT8
42GB
|
INT4
46GB
|
| 24GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
FP16
19GB
|
INT8
17GB
|
INT4
21GB
|
✗
|
| M4 |
8/10 |
32GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
FP16
19GB
|
INT8
17GB
|
INT4
21GB
|
✗
|
| 24GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
FP16
19GB
|
INT8
17GB
|
INT4
21GB
|
✗
|
| 16GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
INT8
10GB
|
INT4
9GB
|
✗
|
✗
|
| 8GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
INT4
5GB
|
✗
|
✗
|
✗
|
| M3 Max |
30/40 |
96GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
FP16
19GB
|
FP16
34GB
|
FP16
84GB
|
INT8
91GB
|
| 64GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
FP16
19GB
|
FP16
34GB
|
INT8
42GB
|
INT4
46GB
|
| 48GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
FP16
19GB
|
FP16
34GB
|
INT8
42GB
|
INT4
46GB
|
| 36GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
FP16
19GB
|
FP16
34GB
|
INT4
21GB
|
✗
|
| M3 Pro |
14/18 |
36GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
FP16
19GB
|
FP16
34GB
|
INT4
21GB
|
✗
|
| 18GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
INT8
10GB
|
INT8
17GB
|
✗
|
✗
|
| M3 |
8/10 |
24GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
FP16
19GB
|
INT8
17GB
|
INT4
21GB
|
✗
|
| 16GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
INT8
10GB
|
INT4
9GB
|
✗
|
✗
|
| 8GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
INT4
5GB
|
✗
|
✗
|
✗
|
| M2 Ultra |
60/76 |
192GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
FP16
19GB
|
FP16
34GB
|
FP16
84GB
|
FP16
182GB
|
| 128GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
FP16
19GB
|
FP16
34GB
|
FP16
84GB
|
INT8
91GB
|
| 64GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
FP16
19GB
|
FP16
34GB
|
INT8
42GB
|
INT4
46GB
|
| M2 Max |
30/38 |
96GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
FP16
19GB
|
FP16
34GB
|
FP16
84GB
|
INT8
91GB
|
| 64GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
FP16
19GB
|
FP16
34GB
|
INT8
42GB
|
INT4
46GB
|
| 32GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
FP16
19GB
|
INT8
17GB
|
INT4
21GB
|
✗
|
| M2 Pro |
16/19 |
32GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
FP16
19GB
|
INT8
17GB
|
INT4
21GB
|
✗
|
| 16GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
INT8
10GB
|
INT4
9GB
|
✗
|
✗
|
| M1 Ultra |
48/64 |
128GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
FP16
19GB
|
FP16
34GB
|
FP16
84GB
|
INT8
91GB
|
| 64GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
FP16
19GB
|
FP16
34GB
|
INT8
42GB
|
INT4
46GB
|
| M1 Max |
24/32 |
64GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
FP16
19GB
|
FP16
34GB
|
INT8
42GB
|
INT4
46GB
|
| 32GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
FP16
19GB
|
INT8
17GB
|
INT4
21GB
|
✗
|
| M1 Pro |
14/16 |
32GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
FP16
19GB
|
INT8
17GB
|
INT4
21GB
|
✗
|
| 16GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
INT8
10GB
|
INT4
9GB
|
✗
|
✗
|
| M1 |
7/8 |
16GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
INT8
10GB
|
INT4
9GB
|
✗
|
✗
|
| 8GB |
FP16
2GB
|
FP16
3GB
|
FP16
8GB
|
INT4
5GB
|
✗
|
✗
|
✗
|
参考说明
1. 精度说明
- FP32: 全精度浮点推理 (4字节/参数)
- FP16: 半精度浮点推理 (2字节/参数)
- INT8: 8位量化推理 (1字节/参数)
- INT4: 4位量化推理 (0.5字节/参数)
2. 显存估算
- 显存需求 = 模型参数量 × 精度系数 × (1 + KV Cache开销)
- 运行时开销(KV Cache等): 约30-50%
3. 快速估算参考
- FP32: 显存(GB) ≈ 参数量(B) × 4
- FP16: 显存(GB) ≈ 参数量(B) × 2.6
- INT8: 显存(GB) ≈ 参数量(B) × 1.3
- INT4: 显存(GB) ≈ 参数量(B) × 0.65
4. 架构特性说明
- NVIDIA显卡:专用显存,Tensor核心加速,CUDA生态完善
- 苹果Silicon:统一内存架构,Metal性能着色器,CoreML框架优化
5. 苹果芯片补充说明:
- 统一内存架构(UMA)让CPU和GPU共享同一内存池,无需数据复制
- Metal性能着色器支持16位和8位量化推理
- CoreML框架提供本地模型优化和加速
- 实际性能受限于软件生态支持和优化程度