单卡4090上DeepSeek-R1-0528-Qwen3-8B 实测
DeepSeek 官方发布的,用最新的DeepSeek-R1-0528版本蒸馏 Qwen3-8B 得到的模型:DeepSeek-R1-0528-Qwen3-8B 跑分竟然直逼Qwen3满血版 Qwen3-235B-A22B了:
DeepSeek 官方发布的,用最新的DeepSeek-R1-0528版本蒸馏 Qwen3-8B 得到的模型:DeepSeek-R1-0528-Qwen3-8B 跑分竟然直逼Qwen3满血版 Qwen3-235B-A22B了:

这样的话,DeepSeek-R1-0528-Qwen3-8B 堪称目前性价比最高的大模型了。我们来部署到本地 RTX4090(24G显存)来测试下
参数组合1
启动命令:
vllm serve /models/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B \ --served-model-name DeepSeek-R1-0528-Qwen3-8B \ --api-key sk-xxx \ --port 7869 \ --max-model-len 10540 \ --gpu-memory-utilization 0.90 \ --enable-auto-tool-choice \ --tool-call-parser hermes
压测命令:
nohup python3 -u simple-bench-to-api.py --url http://10.96.3.223:7869/v1 \ --model DeepSeek-R1-0528-Qwen3-8B \ --concurrencys 1,10,20,50,100 \ --prompt "Introduce the history of China" \ --max_tokens 1024,4096,10240 \ --api_key sk-xxx \ --duration_seconds 30 \ > benth-r1-0528-qwen3-10240.log 2>&1 &
压测结果如下:
----- max_tokens=1024 压测结果汇总 -----
| 指标 \ 并发数 | 1个并发 | 10个并发 | 20个并发 | 50个并发 | 100个并发 |
|---|---|---|---|---|---|
| 总请求数 | 3 | 27 | 48 | 105 | 185 |
| 成功率 | 100.00% | 100.00% | 100.00% | 100.00% | 100.00% |
| 平均延迟 | 13.1560s | 14.7524s | 15.2715s | 17.1412s | 23.4642s |
| 最大延迟 | 14.1435s | 20.2841s | 21.7768s | 24.4412s | 41.1241s |
| 最小延迟 | 11.7941s | 6.2046s | 9.1591s | 7.4672s | 9.3285s |
| P90延迟 | 14.0209s | 18.1715s | 19.2143s | 21.0572s | 29.1133s |
| P95延迟 | 14.0822s | 18.5137s | 19.9681s | 21.5135s | 32.7988s |
| P99延迟 | 14.1312s | 19.8598s | 21.4741s | 23.3975s | 37.6550s |
| 平均首字延迟 | 0.1987s | 0.0970s | 0.1405s | 0.3079s | 1.1710s |
| 总生成tokens数 | 2182 | 20101 | 34893 | 74542 | 130638 |
| 单并发最小吞吐量 | 56.09 tokens/s | 50.56 tokens/s | 47.06 tokens/s | 40.71 tokens/s | 21.27 tokens/s |
| 单并发最大吞吐量 | 56.16 tokens/s | 51.44 tokens/s | 50.70 tokens/s | 48.89 tokens/s | 38.22 tokens/s |
| 单并发平均吞吐量 | 56.14 tokens/s | 50.80 tokens/s | 48.06 tokens/s | 42.19 tokens/s | 32.20 tokens/s |
| 总体吞吐量 | 55.22 tokens/s | 435.99 tokens/s | 754.77 tokens/s | 1485.17 tokens/s | 2390.58 tokens/s |
----- max_tokens=4096 压测结果汇总 -----
| 指标 \ 并发数 | 1个并发 | 10个并发 | 20个并发 | 50个并发 | 100个并发 |
|---|---|---|---|---|---|
| 总请求数 | 3 | 25 | 50 | 107 | 179 |
| 成功率 | 100.00% | 100.00% | 100.00% | 100.00% | 100.00% |
| 平均延迟 | 12.2663s | 14.4451s | 15.0243s | 17.2213s | 23.8897s |
| 最大延迟 | 15.4569s | 18.5146s | 21.7379s | 26.8887s | 41.5970s |
| 最小延迟 | 10.5655s | 10.6864s | 10.7346s | 8.1223s | 9.2115s |
| P90延迟 | 14.5209s | 17.2858s | 19.0862s | 21.1964s | 30.3959s |
| P95延迟 | 14.9889s | 18.1453s | 20.5350s | 22.6637s | 33.5880s |
| P99延迟 | 15.3633s | 18.4743s | 21.3195s | 25.3779s | 36.5828s |
| 平均首字延迟 | 0.0437s | 0.0948s | 0.1750s | 0.2974s | 1.3063s |
| 总生成tokens数 | 2057 | 18223 | 35633 | 76202 | 129779 |
| 单并发最小吞吐量 | 55.99 tokens/s | 50.26 tokens/s | 47.29 tokens/s | 40.67 tokens/s | 20.81 tokens/s |
| 单并发最大吞吐量 | 56.19 tokens/s | 52.50 tokens/s | 49.71 tokens/s | 46.26 tokens/s | 38.16 tokens/s |
| 单并发平均吞吐量 | 56.12 tokens/s | 50.81 tokens/s | 47.99 tokens/s | 42.09 tokens/s | 32.65 tokens/s |
| 总体吞吐量 | 55.85 tokens/s | 399.19 tokens/s | 782.59 tokens/s | 1623.63 tokens/s | 2426.51 tokens/s |
----- max_tokens=10240 压测结果汇总 -----
| 指标 \ 并发数 | 1个并发 | 10个并发 | 20个并发 | 50个并发 | 100个并发 |
|---|---|---|---|---|---|
| 总请求数 | 3 | 22 | 46 | 109 | 176 |
| 成功率 | 100.00% | 100.00% | 100.00% | 100.00% | 100.00% |
| 平均延迟 | 13.1315s | 15.9144s | 15.4921s | 16.7611s | 24.4778s |
| 最大延迟 | 16.0463s | 21.2813s | 23.4083s | 23.2089s | 40.5274s |
| 最小延迟 | 11.5989s | 11.0520s | 7.4350s | 7.7567s | 9.1167s |
| P90延迟 | 15.1869s | 19.1415s | 19.1001s | 21.1872s | 32.3001s |
| P95延迟 | 15.6166s | 19.5221s | 20.3329s | 21.9979s | 33.8168s |
| P99延迟 | 15.9604s | 20.9155s | 22.5287s | 23.0982s | 38.1103s |
| 平均首字延迟 | 0.0418s | 0.0964s | 0.1898s | 0.3062s | 1.6611s |
| 总生成tokens数 | 2202 | 17632 | 33718 | 75719 | 128582 |
| 单并发最小吞吐量 | 55.98 tokens/s | 50.18 tokens/s | 47.10 tokens/s | 40.90 tokens/s | 17.87 tokens/s |
| 单并发最大吞吐量 | 56.14 tokens/s | 53.01 tokens/s | 50.33 tokens/s | 47.59 tokens/s | 38.72 tokens/s |
| 单并发平均吞吐量 | 56.09 tokens/s | 50.67 tokens/s | 47.91 tokens/s | 42.24 tokens/s | 32.62 tokens/s |
| 总体吞吐量 | 55.85 tokens/s | 380.57 tokens/s | 730.14 tokens/s | 1558.24 tokens/s | 2301.95 tokens/s |
参数组合2
尝试了更过不同参数的组合,在单卡 4090 上可以成功启动的参数组合如下:
vllm serve /models/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B \ --served-model-name DeepSeek-R1-0528-Qwen3-8B \ --api-key sk-xxx \ --port 7869 \ --max-model-len 24876 \ --gpu-memory-utilization 0.85 \ --enable-auto-tool-choice \ --tool-call-parser hermes
或
vllm serve /models/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B \ --served-model-name DeepSeek-R1-0528-Qwen3-8B \ --api-key sk-xxx \ --port 7869 \ --max-model-len 32968 \ --gpu-memory-utilization 0.90 \ --enable-auto-tool-choice \ --tool-call-parser hermes
用后一个来测试
第一次压测
第一次压测命令:
nohup python3 -u simple-bench-to-api.py --url http://10.96.3.223:7869/v1 \ --model DeepSeek-R1-0528-Qwen3-8B \ --concurrencys 1,10,20,50,100 \ --prompt "Introduce the history of China" \ --max_tokens 1024,8192,16384,32768 \ --api_key sk-kkk \ --duration_seconds 30 \ > benth-r1-0528-qwen3-32968.log 2>&1 &
----- max_tokens=1024 压测结果汇总 -----
| 指标 \ 并发数 | 1个并发 | 10个并发 | 20个并发 | 50个并发 | 100个并发 |
|---|---|---|---|---|---|
| 总请求数 | 2 | 28 | 49 | 104 | 186 |
| 成功率 | 100.00% | 100.00% | 100.00% | 100.00% | 100.00% |
| 平均延迟 | 16.1108s | 13.6314s | 14.8294s | 17.7628s | 23.2048s |
| 最大延迟 | 17.7657s | 20.3976s | 20.0662s | 25.3038s | 35.6728s |
| 最小延迟 | 14.4559s | 8.9860s | 9.6081s | 8.5363s | 9.6052s |
| P90延迟 | 17.4347s | 17.9606s | 17.4656s | 22.5058s | 29.5531s |
| P95延迟 | 17.6002s | 19.8520s | 18.4883s | 23.6059s | 31.0621s |
| P99延迟 | 17.7326s | 20.3916s | 19.7404s | 25.1387s | 33.0784s |
| 平均首字延迟 | 0.3012s | 0.0973s | 0.1420s | 0.3132s | 1.4738s |
| 总生成tokens数 | 1771 | 19251 | 34614 | 75831 | 128887 |
| 单并发最小吞吐量 | 55.94 tokens/s | 50.39 tokens/s | 47.30 tokens/s | 40.44 tokens/s | 20.36 tokens/s |
| 单并发最大吞吐量 | 56.10 tokens/s | 51.48 tokens/s | 51.21 tokens/s | 47.93 tokens/s | 37.82 tokens/s |
| 单并发平均吞吐量 | 56.02 tokens/s | 50.81 tokens/s | 48.10 tokens/s | 41.83 tokens/s | 32.41 tokens/s |
| 总体吞吐量 | 54.90 tokens/s | 454.13 tokens/s | 731.11 tokens/s | 1562.05 tokens/s | 2372.54 tokens/s |
----- max_tokens=8192 压测结果汇总 -----
| 指标 \ 并发数 | 1个并发 | 10个并发 | 20个并发 | 50个并发 | 100个并发 |
|---|---|---|---|---|---|
| 总请求数 | 3 | 27 | 52 | 103 | 190 |
| 成功率 | 100.00% | 100.00% | 100.00% | 100.00% | 100.00% |
| 平均延迟 | 13.2034s | 13.8672s | 14.5378s | 17.9765s | 22.7437s |
| 最大延迟 | 14.7306s | 23.4009s | 20.1522s | 28.0994s | 42.5372s |
| 最小延迟 | 12.3863s | 6.2609s | 6.9905s | 7.6203s | 8.8140s |
| P90延迟 | 14.2832s | 18.3119s | 17.9139s | 22.5066s | 29.5394s |
| P95延迟 | 14.5069s | 19.0185s | 19.5273s | 24.0162s | 31.2228s |
| P99延迟 | 14.6859s | 22.3383s | 20.0297s | 25.0757s | 36.0013s |
| 平均首字延迟 | 0.0451s | 0.0901s | 0.1756s | 0.3294s | 1.1897s |
| 总生成tokens数 | 2211 | 18904 | 35721 | 75739 | 130876 |
| 单并发最小吞吐量 | 55.92 tokens/s | 50.47 tokens/s | 47.00 tokens/s | 40.51 tokens/s | 21.86 tokens/s |
| 单并发最大吞吐量 | 56.05 tokens/s | 51.64 tokens/s | 49.51 tokens/s | 44.15 tokens/s | 38.37 tokens/s |
| 单并发平均吞吐量 | 56.01 tokens/s | 50.83 tokens/s | 47.88 tokens/s | 41.69 tokens/s | 32.41 tokens/s |
| 总体吞吐量 | 55.78 tokens/s | 427.66 tokens/s | 829.92 tokens/s | 1692.58 tokens/s | 2316.75 tokens/s |
----- max_tokens=16384 压测结果汇总 -----
| 指标 \ 并发数 | 1个并发 | 10个并发 | 20个并发 | 50个并发 | 100个并发 |
|---|---|---|---|---|---|
| 总请求数 | 2 | 28 | 52 | 101 | 186 |
| 成功率 | 100.00% | 100.00% | 100.00% | 100.00% | 100.00% |
| 平均延迟 | 16.2153s | 13.0972s | 14.7297s | 18.1097s | 23.1703s |
| 最大延迟 | 17.7120s | 18.4788s | 21.3524s | 26.1255s | 43.9478s |
| 最小延迟 | 14.7186s | 6.7531s | 8.2044s | 11.1353s | 8.6388s |
| P90延迟 | 17.4126s | 17.7039s | 17.6757s | 21.5402s | 29.6175s |
| P95延迟 | 17.5623s | 17.9821s | 20.1932s | 23.5134s | 32.4940s |
| P99延迟 | 17.6821s | 18.3695s | 21.3107s | 25.9862s | 38.1441s |
| 平均首字延迟 | 0.0461s | 0.0921s | 0.1877s | 0.3158s | 1.2198s |
| 总生成tokens数 | 1807 | 18545 | 36273 | 75049 | 129940 |
| 单并发最小吞吐量 | 55.77 tokens/s | 50.58 tokens/s | 47.20 tokens/s | 40.48 tokens/s | 23.01 tokens/s |
| 单并发最大吞吐量 | 56.01 tokens/s | 51.86 tokens/s | 50.20 tokens/s | 47.28 tokens/s | 37.58 tokens/s |
| 单并发平均吞吐量 | 55.89 tokens/s | 50.93 tokens/s | 47.97 tokens/s | 41.77 tokens/s | 32.27 tokens/s |
| 总体吞吐量 | 55.66 tokens/s | 418.17 tokens/s | 759.61 tokens/s | 1552.52 tokens/s | 2274.84 tokens/s |
----- max_tokens=32768 压测结果汇总 -----
| 指标 \ 并发数 | 1个并发 | 10个并发 | 20个并发 | 50个并发 | 100个并发 |
|---|---|---|---|---|---|
| 总请求数 | 3 | 28 | 49 | 102 | 175 |
| 成功率 | 100.00% | 100.00% | 100.00% | 100.00% | 100.00% |
| 平均延迟 | 13.3621s | 13.5011s | 15.2774s | 17.7676s | 23.2684s |
| 最大延迟 | 15.8395s | 17.8286s | 22.0366s | 26.8561s | 37.3278s |
| 最小延迟 | 8.5884s | 10.8692s | 7.5357s | 8.6383s | 9.5384s |
| P90延迟 | 15.8033s | 15.0031s | 18.5937s | 22.4662s | 31.5832s |
| P95延迟 | 15.8214s | 16.9938s | 19.8098s | 23.6155s | 33.9086s |
| P99延迟 | 15.8359s | 17.7888s | 21.2849s | 24.8183s | 36.9063s |
| 平均首字延迟 | 0.0426s | 0.0977s | 0.1663s | 0.3213s | 1.2846s |
| 总生成tokens数 | 2239 | 19087 | 35442 | 74552 | 125191 |
| 单并发最小吞吐量 | 55.92 tokens/s | 50.60 tokens/s | 47.22 tokens/s | 40.59 tokens/s | 21.08 tokens/s |
| 单并发最大吞吐量 | 56.44 tokens/s | 51.67 tokens/s | 50.28 tokens/s | 48.15 tokens/s | 40.69 tokens/s |
| 单并发平均吞吐量 | 56.09 tokens/s | 50.86 tokens/s | 47.88 tokens/s | 41.88 tokens/s | 33.23 tokens/s |
| 总体吞吐量 | 55.80 tokens/s | 455.87 tokens/s | 756.94 tokens/s | 1530.94 tokens/s | 2347.09 tokens/s |
资源消耗:
|=========================================+======================+======================|| 1 NVIDIA GeForce RTX 4090 On | 00000000:23:00.0 Off | Off || 53% 57C P2 317W / 450W | 23938MiB / 24564MiB | 96% Default || | | N/A |+-----------------------------------------+----------------------+----------------------+
第二次压测
从第一次压测的结果来看,100并发还比较轻松。所以调高下并发,进一步挖掘潜力。
第二次压测命令:
nohup python3 -u simple-bench-to-api.py --url http://10.96.3.223:7869/v1 \ --model DeepSeek-R1-0528-Qwen3-8B \ --concurrencys 10,100,200,500,1000 \ --prompt "Introduce the history of China" \ --max_tokens 1024,8192,16384,32768 \ --api_key sk-xxx \ --duration_seconds 30 \ > benth-r1-0528-qwen3-32968.log 2>&1 &
----- max_tokens=1024 压测结果汇总 -----
| 指标 \ 并发数 | 10个并发 | 100个并发 | 200个并发 | 500个并发 | 1000个并发 |
|---|---|---|---|---|---|
| 总请求数 | 29 | 193 | 270 | 540 | 1009 |
| 成功率 | 100.00% | 100.00% | 100.00% | 100.00% | 100.00% |
| 平均延迟 | 13.0669s | 22.3391s | 37.3623s | 80.4597s | 146.0543s |
| 最大延迟 | 18.3782s | 37.2610s | 60.4406s | 138.4210s | 264.9363s |
| 最小延迟 | 6.7765s | 9.0848s | 12.2690s | 16.4402s | 22.1194s |
| P90延迟 | 16.6298s | 29.0581s | 50.4048s | 124.6118s | 242.1567s |
| P95延迟 | 17.3254s | 30.7143s | 54.2149s | 129.3948s | 250.2386s |
| P99延迟 | 18.1074s | 33.8267s | 60.0537s | 134.5030s | 259.4909s |
| 平均首字延迟 | 0.1027s | 1.0510s | 5.6072s | 34.5247s | 98.9192s |
| 总生成tokens数 | 19109 | 133137 | 187015 | 384680 | 719967 |
| 单并发最小吞吐量 | 50.59 tokens/s | 22.32 tokens/s | 10.32 tokens/s | 5.33 tokens/s | 7.31 tokens/s |
| 单并发最大吞吐量 | 51.22 tokens/s | 38.19 tokens/s | 33.59 tokens/s | 31.24 tokens/s | 31.35 tokens/s |
| 单并发平均吞吐量 | 50.84 tokens/s | 32.79 tokens/s | 23.82 tokens/s | 17.05 tokens/s | 16.04 tokens/s |
| 总体吞吐量 | 461.61 tokens/s | 2503.64 tokens/s | 2641.71 tokens/s | 2644.94 tokens/s | 2696.36 tokens/s |
----- max_tokens=8192 压测结果汇总 -----
| 指标 \ 并发数 | 10个并发 | 100个并发 | 200个并发 | 500个并发 | 1000个并发 |
|---|---|---|---|---|---|
| 总请求数 | 28 | 190 | 269 | 535 | 1015 |
| 成功率 | 100.00% | 100.00% | 100.00% | 100.00% | 100.00% |
| 平均延迟 | 13.9500s | 23.5167s | 37.4740s | 82.1300s | 144.9221s |
| 最大延迟 | 19.1683s | 38.9236s | 75.2502s | 140.2943s | 265.8268s |
| 最小延迟 | 10.0906s | 12.1116s | 12.1939s | 16.1915s | 22.0707s |
| P90延迟 | 17.4206s | 29.5265s | 50.2104s | 126.2641s | 239.9954s |
| P95延迟 | 18.1194s | 30.9831s | 54.7613s | 133.7224s | 252.8417s |
| P99延迟 | 18.9487s | 36.3652s | 59.1451s | 137.6999s | 259.2010s |
| 平均首字延迟 | 0.0955s | 1.1323s | 5.4710s | 37.8268s | 96.7926s |
| 总生成tokens数 | 19690 | 134098 | 188159 | 385106 | 722739 |
| 单并发最小吞吐量 | 50.55 tokens/s | 21.78 tokens/s | 10.68 tokens/s | 7.16 tokens/s | 7.42 tokens/s |
| 单并发最大吞吐量 | 51.25 tokens/s | 37.03 tokens/s | 35.30 tokens/s | 31.44 tokens/s | 31.27 tokens/s |
| 单并发平均吞吐量 | 50.76 tokens/s | 31.90 tokens/s | 23.86 tokens/s | 17.73 tokens/s | 15.78 tokens/s |
| 总体吞吐量 | 456.61 tokens/s | 2356.05 tokens/s | 2423.85 tokens/s | 2570.20 tokens/s | 2699.32 tokens/s |
----- max_tokens=16384 压测结果汇总 -----
| 指标 \ 并发数 | 10个并发 | 100个并发 | 200个并发 | 500个并发 | 1000个并发 |
|---|---|---|---|---|---|
| 总请求数 | 29 | 188 | 260 | 551 | 1004 |
| 成功率 | 100.00% | 100.00% | 100.00% | 100.00% | 100.00% |
| 平均延迟 | 13.0967s | 23.4280s | 39.0516s | 80.8912s | 148.4802s |
| 最大延迟 | 18.8189s | 39.3510s | 68.8186s | 135.0338s | 267.9082s |
| 最小延迟 | 5.8197s | 10.5966s | 15.3229s | 14.9725s | 23.8719s |
| P90延迟 | 17.1641s | 29.5371s | 54.8759s | 125.1614s | 246.7136s |
| P95延迟 | 17.8492s | 31.3555s | 56.6210s | 129.7505s | 254.9421s |
| P99延迟 | 18.5961s | 34.9637s | 63.7886s | 133.0816s | 265.0209s |
| 平均首字延迟 | 0.0933s | 1.1082s | 5.4438s | 37.5474s | 98.9394s |
| 总生成tokens数 | 19161 | 133043 | 184762 | 387706 | 718227 |
| 单并发最小吞吐量 | 50.59 tokens/s | 21.44 tokens/s | 8.73 tokens/s | 7.23 tokens/s | 5.99 tokens/s |
| 单并发最大吞吐量 | 51.23 tokens/s | 37.83 tokens/s | 36.09 tokens/s | 31.00 tokens/s | 31.19 tokens/s |
| 单并发平均吞吐量 | 50.82 tokens/s | 32.15 tokens/s | 23.57 tokens/s | 17.94 tokens/s | 15.40 tokens/s |
| 总体吞吐量 | 453.81 tokens/s | 2233.30 tokens/s | 2592.92 tokens/s | 2569.43 tokens/s | 2661.52 tokens/s |
----- max_tokens=32768 压测结果汇总 -----
| 指标 \ 并发数 | 10个并发 | 100个并发 | 200个并发 | 500个并发 | 1000个并发 |
|---|---|---|---|---|---|
| 总请求数 | 27 | 191 | 268 | 542 | 1009 |
| 成功率 | 100.00% | 100.00% | 100.00% | 100.00% | 100.00% |
| 平均延迟 | 13.1699s | 22.6426s | 38.6177s | 81.6865s | 145.3222s |
| 最大延迟 | 19.7875s | 37.7713s | 64.1689s | 146.3270s | 262.9438s |
| 最小延迟 | 6.2428s | 8.3407s | 14.4707s | 18.4526s | 20.0713s |
| P90延迟 | 16.5878s | 29.6937s | 52.8598s | 125.4535s | 241.6068s |
| P95延迟 | 18.5026s | 31.1065s | 56.5146s | 133.2288s | 253.2925s |
| P99延迟 | 19.6476s | 35.2454s | 61.3012s | 141.5724s | 260.3908s |
| 平均首字延迟 | 0.1003s | 1.1726s | 5.9043s | 34.0546s | 97.1565s |
| 总生成tokens数 | 17946 | 131866 | 189152 | 390252 | 721451 |
| 单并发最小吞吐量 | 50.50 tokens/s | 22.31 tokens/s | 8.35 tokens/s | 6.29 tokens/s | 6.44 tokens/s |
| 单并发最大吞吐量 | 52.82 tokens/s | 37.73 tokens/s | 33.14 tokens/s | 31.41 tokens/s | 31.85 tokens/s |
| 单并发平均吞吐量 | 50.88 tokens/s | 32.57 tokens/s | 23.64 tokens/s | 16.71 tokens/s | 15.93 tokens/s |
| 总体吞吐量 | 432.75 tokens/s | 2234.59 tokens/s | 2607.86 tokens/s | 2645.37 tokens/s | 2722.12 tokens/s |
资源消耗
|=========================================+======================+======================|| 1 NVIDIA GeForce RTX 4090 On | 00000000:23:00.0 Off | Off || 76% 64C P2 415W / 450W | 24088MiB / 24564MiB | 96% Default || | | N/A |+-----------------------------------------+----------------------+----------------------+
结论:
单卡RTX4090(24G)上部署DeepSeek-R1-0528-Qwen3-8B,并发量控制在100左右,可取得用户体验和吞吐量的最佳平衡:单个用户体感吞吐量在 35+tokens/s 以上,总体吞吐量在 2200+ tokens/s。并发可撑到1000,但是到200并发时首字延迟已经翻5倍到近6秒,长尾慢请求就很明显了。
功能评测
再来看下功能跑分情况,用高考题和hellaswag数据集分别测试下
高考题评测
针对 2010-2022 数学高考客观题的评测结果:
"total_score": 2160.0,"correct_score": 2145.0,"scoring_rate": 0.993,"question_num": 432.0,"type": { "2010-2022_Math_I_MCQs": { "total_score": 1070.0, "correct_score": 1060.0, "question_num": 214.0, "scoring_rate": 0.991 }, "2010-2022_Math_II_MCQs": { "total_score": 1090.0, "correct_score": 1085.0, "question_num": 218.0, "scoring_rate": 0.995 }},
hellaswag 评测
先来看下相同参数,对 Qwen/Qwen3-8B 跑 hellaswag 评测集的结果:
| Tasks | Version | Filter | n-shot | Metric | Value | Stderr | ||
|---|---|---|---|---|---|---|---|---|
| hellaswag | 1 | none | 0 | acc | ↑ | 0.5714 | ± | 0.0049 |
| none | 0 | acc_norm | ↑ | 0.7497 | ± | 0.0043 |
相同参数 DeepSeek-R1-0528-Qwen3-8B 跑 hellaswag 评测集的结果:
| Tasks | Version | Filter | n-shot | Metric | Value | Stderr | ||
|---|---|---|---|---|---|---|---|---|
| hellaswag | 1 | none | 0 | acc | ↑ | 0.5839 | ± | 0.0049 |
| none | 0 | acc_norm | ↑ | 0.7579 | ± | 0.0043 |
可以看到分数从 74.97 分提升到了 75.79 分。确实有提升,但是提升不大。本地部署的小尺寸模型跑这个数据集目前都还没有看到很高的分数。当然还没有具体分析失败case的情况,怀疑有部分题目可能是本地部署的上下文限制造成失败的。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多推荐


所有评论(0)