单卡4090上DeepSeek-R1-0528-Qwen3-8B 实测

DeepSeek 官方发布的，用最新的DeepSeek-R1-0528版本蒸馏 Qwen3-8B 得到的模型：DeepSeek-R1-0528-Qwen3-8B 跑分竟然直逼Qwen3满血版 Qwen3-235B-A22B了：

小马不会过河

2573人浏览 · 2025-06-05 19:24:27

小马不会过河 · 2025-06-05 19:24:27 发布

DeepSeek 官方发布的，用最新的DeepSeek-R1-0528版本蒸馏 Qwen3-8B 得到的模型：DeepSeek-R1-0528-Qwen3-8B 跑分竟然直逼Qwen3满血版 Qwen3-235B-A22B了：

这样的话，DeepSeek-R1-0528-Qwen3-8B 堪称目前性价比最高的大模型了。我们来部署到本地 RTX4090（24G显存）来测试下

参数组合1

启动命令：

vllm serve /models/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B \  --served-model-name DeepSeek-R1-0528-Qwen3-8B \  --api-key sk-xxx \  --port 7869 \  --max-model-len 10540 \  --gpu-memory-utilization 0.90 \  --enable-auto-tool-choice \  --tool-call-parser hermes

压测命令：

nohup python3 -u simple-bench-to-api.py --url http://10.96.3.223:7869/v1 \  --model DeepSeek-R1-0528-Qwen3-8B \  --concurrencys 1,10,20,50,100 \  --prompt "Introduce the history of China" \  --max_tokens 1024,4096,10240 \  --api_key sk-xxx \  --duration_seconds 30 \  > benth-r1-0528-qwen3-10240.log 2>&1 &

压测结果如下：

----- max_tokens=1024 压测结果汇总 -----

指标 \ 并发数	1个并发	10个并发	20个并发	50个并发	100个并发
总请求数	3	27	48	105	185
成功率	100.00%	100.00%	100.00%	100.00%	100.00%
平均延迟	13.1560s	14.7524s	15.2715s	17.1412s	23.4642s
最大延迟	14.1435s	20.2841s	21.7768s	24.4412s	41.1241s
最小延迟	11.7941s	6.2046s	9.1591s	7.4672s	9.3285s
P90延迟	14.0209s	18.1715s	19.2143s	21.0572s	29.1133s
P95延迟	14.0822s	18.5137s	19.9681s	21.5135s	32.7988s
P99延迟	14.1312s	19.8598s	21.4741s	23.3975s	37.6550s
平均首字延迟	0.1987s	0.0970s	0.1405s	0.3079s	1.1710s
总生成tokens数	2182	20101	34893	74542	130638
单并发最小吞吐量	56.09 tokens/s	50.56 tokens/s	47.06 tokens/s	40.71 tokens/s	21.27 tokens/s
单并发最大吞吐量	56.16 tokens/s	51.44 tokens/s	50.70 tokens/s	48.89 tokens/s	38.22 tokens/s
单并发平均吞吐量	56.14 tokens/s	50.80 tokens/s	48.06 tokens/s	42.19 tokens/s	32.20 tokens/s
总体吞吐量	55.22 tokens/s	435.99 tokens/s	754.77 tokens/s	1485.17 tokens/s	2390.58 tokens/s

----- max_tokens=4096 压测结果汇总 -----

指标 \ 并发数	1个并发	10个并发	20个并发	50个并发	100个并发
总请求数	3	25	50	107	179
成功率	100.00%	100.00%	100.00%	100.00%	100.00%
平均延迟	12.2663s	14.4451s	15.0243s	17.2213s	23.8897s
最大延迟	15.4569s	18.5146s	21.7379s	26.8887s	41.5970s
最小延迟	10.5655s	10.6864s	10.7346s	8.1223s	9.2115s
P90延迟	14.5209s	17.2858s	19.0862s	21.1964s	30.3959s
P95延迟	14.9889s	18.1453s	20.5350s	22.6637s	33.5880s
P99延迟	15.3633s	18.4743s	21.3195s	25.3779s	36.5828s
平均首字延迟	0.0437s	0.0948s	0.1750s	0.2974s	1.3063s
总生成tokens数	2057	18223	35633	76202	129779
单并发最小吞吐量	55.99 tokens/s	50.26 tokens/s	47.29 tokens/s	40.67 tokens/s	20.81 tokens/s
单并发最大吞吐量	56.19 tokens/s	52.50 tokens/s	49.71 tokens/s	46.26 tokens/s	38.16 tokens/s
单并发平均吞吐量	56.12 tokens/s	50.81 tokens/s	47.99 tokens/s	42.09 tokens/s	32.65 tokens/s
总体吞吐量	55.85 tokens/s	399.19 tokens/s	782.59 tokens/s	1623.63 tokens/s	2426.51 tokens/s

----- max_tokens=10240 压测结果汇总 -----

指标 \ 并发数	1个并发	10个并发	20个并发	50个并发	100个并发
总请求数	3	22	46	109	176
成功率	100.00%	100.00%	100.00%	100.00%	100.00%
平均延迟	13.1315s	15.9144s	15.4921s	16.7611s	24.4778s
最大延迟	16.0463s	21.2813s	23.4083s	23.2089s	40.5274s
最小延迟	11.5989s	11.0520s	7.4350s	7.7567s	9.1167s
P90延迟	15.1869s	19.1415s	19.1001s	21.1872s	32.3001s
P95延迟	15.6166s	19.5221s	20.3329s	21.9979s	33.8168s
P99延迟	15.9604s	20.9155s	22.5287s	23.0982s	38.1103s
平均首字延迟	0.0418s	0.0964s	0.1898s	0.3062s	1.6611s
总生成tokens数	2202	17632	33718	75719	128582
单并发最小吞吐量	55.98 tokens/s	50.18 tokens/s	47.10 tokens/s	40.90 tokens/s	17.87 tokens/s
单并发最大吞吐量	56.14 tokens/s	53.01 tokens/s	50.33 tokens/s	47.59 tokens/s	38.72 tokens/s
单并发平均吞吐量	56.09 tokens/s	50.67 tokens/s	47.91 tokens/s	42.24 tokens/s	32.62 tokens/s
总体吞吐量	55.85 tokens/s	380.57 tokens/s	730.14 tokens/s	1558.24 tokens/s	2301.95 tokens/s

参数组合2

尝试了更过不同参数的组合，在单卡 4090 上可以成功启动的参数组合如下：

vllm serve /models/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B \  --served-model-name DeepSeek-R1-0528-Qwen3-8B \  --api-key sk-xxx \  --port 7869 \  --max-model-len 24876 \  --gpu-memory-utilization 0.85 \  --enable-auto-tool-choice \  --tool-call-parser hermes

或

vllm serve /models/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B \  --served-model-name DeepSeek-R1-0528-Qwen3-8B \  --api-key sk-xxx \  --port 7869 \  --max-model-len 32968 \  --gpu-memory-utilization 0.90 \  --enable-auto-tool-choice \  --tool-call-parser hermes

用后一个来测试

第一次压测

第一次压测命令：

nohup python3 -u simple-bench-to-api.py --url http://10.96.3.223:7869/v1 \  --model DeepSeek-R1-0528-Qwen3-8B \  --concurrencys 1,10,20,50,100 \  --prompt "Introduce the history of China" \  --max_tokens 1024,8192,16384,32768 \  --api_key sk-kkk \  --duration_seconds 30 \  > benth-r1-0528-qwen3-32968.log 2>&1 &

----- max_tokens=1024 压测结果汇总 -----

指标 \ 并发数	1个并发	10个并发	20个并发	50个并发	100个并发
总请求数	2	28	49	104	186
成功率	100.00%	100.00%	100.00%	100.00%	100.00%
平均延迟	16.1108s	13.6314s	14.8294s	17.7628s	23.2048s
最大延迟	17.7657s	20.3976s	20.0662s	25.3038s	35.6728s
最小延迟	14.4559s	8.9860s	9.6081s	8.5363s	9.6052s
P90延迟	17.4347s	17.9606s	17.4656s	22.5058s	29.5531s
P95延迟	17.6002s	19.8520s	18.4883s	23.6059s	31.0621s
P99延迟	17.7326s	20.3916s	19.7404s	25.1387s	33.0784s
平均首字延迟	0.3012s	0.0973s	0.1420s	0.3132s	1.4738s
总生成tokens数	1771	19251	34614	75831	128887
单并发最小吞吐量	55.94 tokens/s	50.39 tokens/s	47.30 tokens/s	40.44 tokens/s	20.36 tokens/s
单并发最大吞吐量	56.10 tokens/s	51.48 tokens/s	51.21 tokens/s	47.93 tokens/s	37.82 tokens/s
单并发平均吞吐量	56.02 tokens/s	50.81 tokens/s	48.10 tokens/s	41.83 tokens/s	32.41 tokens/s
总体吞吐量	54.90 tokens/s	454.13 tokens/s	731.11 tokens/s	1562.05 tokens/s	2372.54 tokens/s

----- max_tokens=8192 压测结果汇总 -----

指标 \ 并发数	1个并发	10个并发	20个并发	50个并发	100个并发
总请求数	3	27	52	103	190
成功率	100.00%	100.00%	100.00%	100.00%	100.00%
平均延迟	13.2034s	13.8672s	14.5378s	17.9765s	22.7437s
最大延迟	14.7306s	23.4009s	20.1522s	28.0994s	42.5372s
最小延迟	12.3863s	6.2609s	6.9905s	7.6203s	8.8140s
P90延迟	14.2832s	18.3119s	17.9139s	22.5066s	29.5394s
P95延迟	14.5069s	19.0185s	19.5273s	24.0162s	31.2228s
P99延迟	14.6859s	22.3383s	20.0297s	25.0757s	36.0013s
平均首字延迟	0.0451s	0.0901s	0.1756s	0.3294s	1.1897s
总生成tokens数	2211	18904	35721	75739	130876
单并发最小吞吐量	55.92 tokens/s	50.47 tokens/s	47.00 tokens/s	40.51 tokens/s	21.86 tokens/s
单并发最大吞吐量	56.05 tokens/s	51.64 tokens/s	49.51 tokens/s	44.15 tokens/s	38.37 tokens/s
单并发平均吞吐量	56.01 tokens/s	50.83 tokens/s	47.88 tokens/s	41.69 tokens/s	32.41 tokens/s
总体吞吐量	55.78 tokens/s	427.66 tokens/s	829.92 tokens/s	1692.58 tokens/s	2316.75 tokens/s

----- max_tokens=16384 压测结果汇总 -----

指标 \ 并发数	1个并发	10个并发	20个并发	50个并发	100个并发
总请求数	2	28	52	101	186
成功率	100.00%	100.00%	100.00%	100.00%	100.00%
平均延迟	16.2153s	13.0972s	14.7297s	18.1097s	23.1703s
最大延迟	17.7120s	18.4788s	21.3524s	26.1255s	43.9478s
最小延迟	14.7186s	6.7531s	8.2044s	11.1353s	8.6388s
P90延迟	17.4126s	17.7039s	17.6757s	21.5402s	29.6175s
P95延迟	17.5623s	17.9821s	20.1932s	23.5134s	32.4940s
P99延迟	17.6821s	18.3695s	21.3107s	25.9862s	38.1441s
平均首字延迟	0.0461s	0.0921s	0.1877s	0.3158s	1.2198s
总生成tokens数	1807	18545	36273	75049	129940
单并发最小吞吐量	55.77 tokens/s	50.58 tokens/s	47.20 tokens/s	40.48 tokens/s	23.01 tokens/s
单并发最大吞吐量	56.01 tokens/s	51.86 tokens/s	50.20 tokens/s	47.28 tokens/s	37.58 tokens/s
单并发平均吞吐量	55.89 tokens/s	50.93 tokens/s	47.97 tokens/s	41.77 tokens/s	32.27 tokens/s
总体吞吐量	55.66 tokens/s	418.17 tokens/s	759.61 tokens/s	1552.52 tokens/s	2274.84 tokens/s

----- max_tokens=32768 压测结果汇总 -----

指标 \ 并发数	1个并发	10个并发	20个并发	50个并发	100个并发
总请求数	3	28	49	102	175
成功率	100.00%	100.00%	100.00%	100.00%	100.00%
平均延迟	13.3621s	13.5011s	15.2774s	17.7676s	23.2684s
最大延迟	15.8395s	17.8286s	22.0366s	26.8561s	37.3278s
最小延迟	8.5884s	10.8692s	7.5357s	8.6383s	9.5384s
P90延迟	15.8033s	15.0031s	18.5937s	22.4662s	31.5832s
P95延迟	15.8214s	16.9938s	19.8098s	23.6155s	33.9086s
P99延迟	15.8359s	17.7888s	21.2849s	24.8183s	36.9063s
平均首字延迟	0.0426s	0.0977s	0.1663s	0.3213s	1.2846s
总生成tokens数	2239	19087	35442	74552	125191
单并发最小吞吐量	55.92 tokens/s	50.60 tokens/s	47.22 tokens/s	40.59 tokens/s	21.08 tokens/s
单并发最大吞吐量	56.44 tokens/s	51.67 tokens/s	50.28 tokens/s	48.15 tokens/s	40.69 tokens/s
单并发平均吞吐量	56.09 tokens/s	50.86 tokens/s	47.88 tokens/s	41.88 tokens/s	33.23 tokens/s
总体吞吐量	55.80 tokens/s	455.87 tokens/s	756.94 tokens/s	1530.94 tokens/s	2347.09 tokens/s

资源消耗：

|=========================================+======================+======================||   1  NVIDIA GeForce RTX 4090        On  | 00000000:23:00.0 Off |                  Off || 53%   57C    P2             317W / 450W |  23938MiB / 24564MiB |     96%      Default ||                                         |                      |                  N/A |+-----------------------------------------+----------------------+----------------------+

第二次压测

从第一次压测的结果来看，100并发还比较轻松。所以调高下并发，进一步挖掘潜力。

第二次压测命令：

nohup python3 -u simple-bench-to-api.py --url http://10.96.3.223:7869/v1 \  --model DeepSeek-R1-0528-Qwen3-8B \  --concurrencys 10,100,200,500,1000 \  --prompt "Introduce the history of China" \  --max_tokens 1024,8192,16384,32768 \  --api_key sk-xxx \  --duration_seconds 30 \  > benth-r1-0528-qwen3-32968.log 2>&1 &

----- max_tokens=1024 压测结果汇总 -----

指标 \ 并发数	10个并发	100个并发	200个并发	500个并发	1000个并发
总请求数	29	193	270	540	1009
成功率	100.00%	100.00%	100.00%	100.00%	100.00%
平均延迟	13.0669s	22.3391s	37.3623s	80.4597s	146.0543s
最大延迟	18.3782s	37.2610s	60.4406s	138.4210s	264.9363s
最小延迟	6.7765s	9.0848s	12.2690s	16.4402s	22.1194s
P90延迟	16.6298s	29.0581s	50.4048s	124.6118s	242.1567s
P95延迟	17.3254s	30.7143s	54.2149s	129.3948s	250.2386s
P99延迟	18.1074s	33.8267s	60.0537s	134.5030s	259.4909s
平均首字延迟	0.1027s	1.0510s	5.6072s	34.5247s	98.9192s
总生成tokens数	19109	133137	187015	384680	719967
单并发最小吞吐量	50.59 tokens/s	22.32 tokens/s	10.32 tokens/s	5.33 tokens/s	7.31 tokens/s
单并发最大吞吐量	51.22 tokens/s	38.19 tokens/s	33.59 tokens/s	31.24 tokens/s	31.35 tokens/s
单并发平均吞吐量	50.84 tokens/s	32.79 tokens/s	23.82 tokens/s	17.05 tokens/s	16.04 tokens/s
总体吞吐量	461.61 tokens/s	2503.64 tokens/s	2641.71 tokens/s	2644.94 tokens/s	2696.36 tokens/s

----- max_tokens=8192 压测结果汇总 -----

指标 \ 并发数	10个并发	100个并发	200个并发	500个并发	1000个并发
总请求数	28	190	269	535	1015
成功率	100.00%	100.00%	100.00%	100.00%	100.00%
平均延迟	13.9500s	23.5167s	37.4740s	82.1300s	144.9221s
最大延迟	19.1683s	38.9236s	75.2502s	140.2943s	265.8268s
最小延迟	10.0906s	12.1116s	12.1939s	16.1915s	22.0707s
P90延迟	17.4206s	29.5265s	50.2104s	126.2641s	239.9954s
P95延迟	18.1194s	30.9831s	54.7613s	133.7224s	252.8417s
P99延迟	18.9487s	36.3652s	59.1451s	137.6999s	259.2010s
平均首字延迟	0.0955s	1.1323s	5.4710s	37.8268s	96.7926s
总生成tokens数	19690	134098	188159	385106	722739
单并发最小吞吐量	50.55 tokens/s	21.78 tokens/s	10.68 tokens/s	7.16 tokens/s	7.42 tokens/s
单并发最大吞吐量	51.25 tokens/s	37.03 tokens/s	35.30 tokens/s	31.44 tokens/s	31.27 tokens/s
单并发平均吞吐量	50.76 tokens/s	31.90 tokens/s	23.86 tokens/s	17.73 tokens/s	15.78 tokens/s
总体吞吐量	456.61 tokens/s	2356.05 tokens/s	2423.85 tokens/s	2570.20 tokens/s	2699.32 tokens/s

----- max_tokens=16384 压测结果汇总 -----

指标 \ 并发数	10个并发	100个并发	200个并发	500个并发	1000个并发
总请求数	29	188	260	551	1004
成功率	100.00%	100.00%	100.00%	100.00%	100.00%
平均延迟	13.0967s	23.4280s	39.0516s	80.8912s	148.4802s
最大延迟	18.8189s	39.3510s	68.8186s	135.0338s	267.9082s
最小延迟	5.8197s	10.5966s	15.3229s	14.9725s	23.8719s
P90延迟	17.1641s	29.5371s	54.8759s	125.1614s	246.7136s
P95延迟	17.8492s	31.3555s	56.6210s	129.7505s	254.9421s
P99延迟	18.5961s	34.9637s	63.7886s	133.0816s	265.0209s
平均首字延迟	0.0933s	1.1082s	5.4438s	37.5474s	98.9394s
总生成tokens数	19161	133043	184762	387706	718227
单并发最小吞吐量	50.59 tokens/s	21.44 tokens/s	8.73 tokens/s	7.23 tokens/s	5.99 tokens/s
单并发最大吞吐量	51.23 tokens/s	37.83 tokens/s	36.09 tokens/s	31.00 tokens/s	31.19 tokens/s
单并发平均吞吐量	50.82 tokens/s	32.15 tokens/s	23.57 tokens/s	17.94 tokens/s	15.40 tokens/s
总体吞吐量	453.81 tokens/s	2233.30 tokens/s	2592.92 tokens/s	2569.43 tokens/s	2661.52 tokens/s

----- max_tokens=32768 压测结果汇总 -----

指标 \ 并发数	10个并发	100个并发	200个并发	500个并发	1000个并发
总请求数	27	191	268	542	1009
成功率	100.00%	100.00%	100.00%	100.00%	100.00%
平均延迟	13.1699s	22.6426s	38.6177s	81.6865s	145.3222s
最大延迟	19.7875s	37.7713s	64.1689s	146.3270s	262.9438s
最小延迟	6.2428s	8.3407s	14.4707s	18.4526s	20.0713s
P90延迟	16.5878s	29.6937s	52.8598s	125.4535s	241.6068s
P95延迟	18.5026s	31.1065s	56.5146s	133.2288s	253.2925s
P99延迟	19.6476s	35.2454s	61.3012s	141.5724s	260.3908s
平均首字延迟	0.1003s	1.1726s	5.9043s	34.0546s	97.1565s
总生成tokens数	17946	131866	189152	390252	721451
单并发最小吞吐量	50.50 tokens/s	22.31 tokens/s	8.35 tokens/s	6.29 tokens/s	6.44 tokens/s
单并发最大吞吐量	52.82 tokens/s	37.73 tokens/s	33.14 tokens/s	31.41 tokens/s	31.85 tokens/s
单并发平均吞吐量	50.88 tokens/s	32.57 tokens/s	23.64 tokens/s	16.71 tokens/s	15.93 tokens/s
总体吞吐量	432.75 tokens/s	2234.59 tokens/s	2607.86 tokens/s	2645.37 tokens/s	2722.12 tokens/s

资源消耗

|=========================================+======================+======================||   1  NVIDIA GeForce RTX 4090        On  | 00000000:23:00.0 Off |                  Off || 76%   64C    P2             415W / 450W |  24088MiB / 24564MiB |     96%      Default ||                                         |                      |                  N/A |+-----------------------------------------+----------------------+----------------------+

结论：

单卡RTX4090（24G）上部署DeepSeek-R1-0528-Qwen3-8B，并发量控制在100左右，可取得用户体验和吞吐量的最佳平衡：单个用户体感吞吐量在 35+tokens/s 以上，总体吞吐量在 2200+ tokens/s。并发可撑到1000，但是到200并发时首字延迟已经翻5倍到近6秒，长尾慢请求就很明显了。

功能评测

再来看下功能跑分情况，用高考题和hellaswag数据集分别测试下

高考题评测

针对 2010-2022 数学高考客观题的评测结果：

"total_score": 2160.0,"correct_score": 2145.0,"scoring_rate": 0.993,"question_num": 432.0,"type": {    "2010-2022_Math_I_MCQs": {        "total_score": 1070.0,        "correct_score": 1060.0,        "question_num": 214.0,        "scoring_rate": 0.991    },    "2010-2022_Math_II_MCQs": {        "total_score": 1090.0,        "correct_score": 1085.0,        "question_num": 218.0,        "scoring_rate": 0.995    }},

hellaswag 评测

先来看下相同参数，对 Qwen/Qwen3-8B 跑 hellaswag 评测集的结果：

Tasks	Version	Filter	n-shot	Metric		Value		Stderr
hellaswag	1	none	0	acc	↑	0.5714	±	0.0049
		none	0	acc_norm	↑	0.7497	±	0.0043

相同参数 DeepSeek-R1-0528-Qwen3-8B 跑 hellaswag 评测集的结果：

Tasks	Version	Filter	n-shot	Metric		Value		Stderr
hellaswag	1	none	0	acc	↑	0.5839	±	0.0049
		none	0	acc_norm	↑	0.7579	±	0.0043

可以看到分数从 74.97 分提升到了 75.79 分。确实有提升，但是提升不大。本地部署的小尺寸模型跑这个数据集目前都还没有看到很高的分数。当然还没有具体分析失败case的情况，怀疑有部分题目可能是本地部署的上下文限制造成失败的。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述