DeepSeek 官方发布的,用最新的DeepSeek-R1-0528版本蒸馏 Qwen3-8B 得到的模型:DeepSeek-R1-0528-Qwen3-8B 跑分竟然直逼Qwen3满血版 Qwen3-235B-A22B了:

img

这样的话,DeepSeek-R1-0528-Qwen3-8B 堪称目前性价比最高的大模型了。我们来部署到本地 RTX4090(24G显存)来测试下

参数组合1

启动命令:

vllm serve /models/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B \  --served-model-name DeepSeek-R1-0528-Qwen3-8B \  --api-key sk-xxx \  --port 7869 \  --max-model-len 10540 \  --gpu-memory-utilization 0.90 \  --enable-auto-tool-choice \  --tool-call-parser hermes

压测命令:

nohup python3 -u simple-bench-to-api.py --url http://10.96.3.223:7869/v1 \  --model DeepSeek-R1-0528-Qwen3-8B \  --concurrencys 1,10,20,50,100 \  --prompt "Introduce the history of China" \  --max_tokens 1024,4096,10240 \  --api_key sk-xxx \  --duration_seconds 30 \  > benth-r1-0528-qwen3-10240.log 2>&1 &

压测结果如下:

----- max_tokens=1024 压测结果汇总 -----

指标 \ 并发数 1个并发 10个并发 20个并发 50个并发 100个并发
总请求数 3 27 48 105 185
成功率 100.00% 100.00% 100.00% 100.00% 100.00%
平均延迟 13.1560s 14.7524s 15.2715s 17.1412s 23.4642s
最大延迟 14.1435s 20.2841s 21.7768s 24.4412s 41.1241s
最小延迟 11.7941s 6.2046s 9.1591s 7.4672s 9.3285s
P90延迟 14.0209s 18.1715s 19.2143s 21.0572s 29.1133s
P95延迟 14.0822s 18.5137s 19.9681s 21.5135s 32.7988s
P99延迟 14.1312s 19.8598s 21.4741s 23.3975s 37.6550s
平均首字延迟 0.1987s 0.0970s 0.1405s 0.3079s 1.1710s
总生成tokens数 2182 20101 34893 74542 130638
单并发最小吞吐量 56.09 tokens/s 50.56 tokens/s 47.06 tokens/s 40.71 tokens/s 21.27 tokens/s
单并发最大吞吐量 56.16 tokens/s 51.44 tokens/s 50.70 tokens/s 48.89 tokens/s 38.22 tokens/s
单并发平均吞吐量 56.14 tokens/s 50.80 tokens/s 48.06 tokens/s 42.19 tokens/s 32.20 tokens/s
总体吞吐量 55.22 tokens/s 435.99 tokens/s 754.77 tokens/s 1485.17 tokens/s 2390.58 tokens/s

----- max_tokens=4096 压测结果汇总 -----

指标 \ 并发数 1个并发 10个并发 20个并发 50个并发 100个并发
总请求数 3 25 50 107 179
成功率 100.00% 100.00% 100.00% 100.00% 100.00%
平均延迟 12.2663s 14.4451s 15.0243s 17.2213s 23.8897s
最大延迟 15.4569s 18.5146s 21.7379s 26.8887s 41.5970s
最小延迟 10.5655s 10.6864s 10.7346s 8.1223s 9.2115s
P90延迟 14.5209s 17.2858s 19.0862s 21.1964s 30.3959s
P95延迟 14.9889s 18.1453s 20.5350s 22.6637s 33.5880s
P99延迟 15.3633s 18.4743s 21.3195s 25.3779s 36.5828s
平均首字延迟 0.0437s 0.0948s 0.1750s 0.2974s 1.3063s
总生成tokens数 2057 18223 35633 76202 129779
单并发最小吞吐量 55.99 tokens/s 50.26 tokens/s 47.29 tokens/s 40.67 tokens/s 20.81 tokens/s
单并发最大吞吐量 56.19 tokens/s 52.50 tokens/s 49.71 tokens/s 46.26 tokens/s 38.16 tokens/s
单并发平均吞吐量 56.12 tokens/s 50.81 tokens/s 47.99 tokens/s 42.09 tokens/s 32.65 tokens/s
总体吞吐量 55.85 tokens/s 399.19 tokens/s 782.59 tokens/s 1623.63 tokens/s 2426.51 tokens/s

----- max_tokens=10240 压测结果汇总 -----

指标 \ 并发数 1个并发 10个并发 20个并发 50个并发 100个并发
总请求数 3 22 46 109 176
成功率 100.00% 100.00% 100.00% 100.00% 100.00%
平均延迟 13.1315s 15.9144s 15.4921s 16.7611s 24.4778s
最大延迟 16.0463s 21.2813s 23.4083s 23.2089s 40.5274s
最小延迟 11.5989s 11.0520s 7.4350s 7.7567s 9.1167s
P90延迟 15.1869s 19.1415s 19.1001s 21.1872s 32.3001s
P95延迟 15.6166s 19.5221s 20.3329s 21.9979s 33.8168s
P99延迟 15.9604s 20.9155s 22.5287s 23.0982s 38.1103s
平均首字延迟 0.0418s 0.0964s 0.1898s 0.3062s 1.6611s
总生成tokens数 2202 17632 33718 75719 128582
单并发最小吞吐量 55.98 tokens/s 50.18 tokens/s 47.10 tokens/s 40.90 tokens/s 17.87 tokens/s
单并发最大吞吐量 56.14 tokens/s 53.01 tokens/s 50.33 tokens/s 47.59 tokens/s 38.72 tokens/s
单并发平均吞吐量 56.09 tokens/s 50.67 tokens/s 47.91 tokens/s 42.24 tokens/s 32.62 tokens/s
总体吞吐量 55.85 tokens/s 380.57 tokens/s 730.14 tokens/s 1558.24 tokens/s 2301.95 tokens/s

参数组合2

尝试了更过不同参数的组合,在单卡 4090 上可以成功启动的参数组合如下:

vllm serve /models/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B \  --served-model-name DeepSeek-R1-0528-Qwen3-8B \  --api-key sk-xxx \  --port 7869 \  --max-model-len 24876 \  --gpu-memory-utilization 0.85 \  --enable-auto-tool-choice \  --tool-call-parser hermes  

vllm serve /models/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B \  --served-model-name DeepSeek-R1-0528-Qwen3-8B \  --api-key sk-xxx \  --port 7869 \  --max-model-len 32968 \  --gpu-memory-utilization 0.90 \  --enable-auto-tool-choice \  --tool-call-parser hermes

用后一个来测试

第一次压测

第一次压测命令:

nohup python3 -u simple-bench-to-api.py --url http://10.96.3.223:7869/v1 \  --model DeepSeek-R1-0528-Qwen3-8B \  --concurrencys 1,10,20,50,100 \  --prompt "Introduce the history of China" \  --max_tokens 1024,8192,16384,32768 \  --api_key sk-kkk \  --duration_seconds 30 \  > benth-r1-0528-qwen3-32968.log 2>&1 &

----- max_tokens=1024 压测结果汇总 -----

指标 \ 并发数 1个并发 10个并发 20个并发 50个并发 100个并发
总请求数 2 28 49 104 186
成功率 100.00% 100.00% 100.00% 100.00% 100.00%
平均延迟 16.1108s 13.6314s 14.8294s 17.7628s 23.2048s
最大延迟 17.7657s 20.3976s 20.0662s 25.3038s 35.6728s
最小延迟 14.4559s 8.9860s 9.6081s 8.5363s 9.6052s
P90延迟 17.4347s 17.9606s 17.4656s 22.5058s 29.5531s
P95延迟 17.6002s 19.8520s 18.4883s 23.6059s 31.0621s
P99延迟 17.7326s 20.3916s 19.7404s 25.1387s 33.0784s
平均首字延迟 0.3012s 0.0973s 0.1420s 0.3132s 1.4738s
总生成tokens数 1771 19251 34614 75831 128887
单并发最小吞吐量 55.94 tokens/s 50.39 tokens/s 47.30 tokens/s 40.44 tokens/s 20.36 tokens/s
单并发最大吞吐量 56.10 tokens/s 51.48 tokens/s 51.21 tokens/s 47.93 tokens/s 37.82 tokens/s
单并发平均吞吐量 56.02 tokens/s 50.81 tokens/s 48.10 tokens/s 41.83 tokens/s 32.41 tokens/s
总体吞吐量 54.90 tokens/s 454.13 tokens/s 731.11 tokens/s 1562.05 tokens/s 2372.54 tokens/s

----- max_tokens=8192 压测结果汇总 -----

指标 \ 并发数 1个并发 10个并发 20个并发 50个并发 100个并发
总请求数 3 27 52 103 190
成功率 100.00% 100.00% 100.00% 100.00% 100.00%
平均延迟 13.2034s 13.8672s 14.5378s 17.9765s 22.7437s
最大延迟 14.7306s 23.4009s 20.1522s 28.0994s 42.5372s
最小延迟 12.3863s 6.2609s 6.9905s 7.6203s 8.8140s
P90延迟 14.2832s 18.3119s 17.9139s 22.5066s 29.5394s
P95延迟 14.5069s 19.0185s 19.5273s 24.0162s 31.2228s
P99延迟 14.6859s 22.3383s 20.0297s 25.0757s 36.0013s
平均首字延迟 0.0451s 0.0901s 0.1756s 0.3294s 1.1897s
总生成tokens数 2211 18904 35721 75739 130876
单并发最小吞吐量 55.92 tokens/s 50.47 tokens/s 47.00 tokens/s 40.51 tokens/s 21.86 tokens/s
单并发最大吞吐量 56.05 tokens/s 51.64 tokens/s 49.51 tokens/s 44.15 tokens/s 38.37 tokens/s
单并发平均吞吐量 56.01 tokens/s 50.83 tokens/s 47.88 tokens/s 41.69 tokens/s 32.41 tokens/s
总体吞吐量 55.78 tokens/s 427.66 tokens/s 829.92 tokens/s 1692.58 tokens/s 2316.75 tokens/s

----- max_tokens=16384 压测结果汇总 -----

指标 \ 并发数 1个并发 10个并发 20个并发 50个并发 100个并发
总请求数 2 28 52 101 186
成功率 100.00% 100.00% 100.00% 100.00% 100.00%
平均延迟 16.2153s 13.0972s 14.7297s 18.1097s 23.1703s
最大延迟 17.7120s 18.4788s 21.3524s 26.1255s 43.9478s
最小延迟 14.7186s 6.7531s 8.2044s 11.1353s 8.6388s
P90延迟 17.4126s 17.7039s 17.6757s 21.5402s 29.6175s
P95延迟 17.5623s 17.9821s 20.1932s 23.5134s 32.4940s
P99延迟 17.6821s 18.3695s 21.3107s 25.9862s 38.1441s
平均首字延迟 0.0461s 0.0921s 0.1877s 0.3158s 1.2198s
总生成tokens数 1807 18545 36273 75049 129940
单并发最小吞吐量 55.77 tokens/s 50.58 tokens/s 47.20 tokens/s 40.48 tokens/s 23.01 tokens/s
单并发最大吞吐量 56.01 tokens/s 51.86 tokens/s 50.20 tokens/s 47.28 tokens/s 37.58 tokens/s
单并发平均吞吐量 55.89 tokens/s 50.93 tokens/s 47.97 tokens/s 41.77 tokens/s 32.27 tokens/s
总体吞吐量 55.66 tokens/s 418.17 tokens/s 759.61 tokens/s 1552.52 tokens/s 2274.84 tokens/s

----- max_tokens=32768 压测结果汇总 -----

指标 \ 并发数 1个并发 10个并发 20个并发 50个并发 100个并发
总请求数 3 28 49 102 175
成功率 100.00% 100.00% 100.00% 100.00% 100.00%
平均延迟 13.3621s 13.5011s 15.2774s 17.7676s 23.2684s
最大延迟 15.8395s 17.8286s 22.0366s 26.8561s 37.3278s
最小延迟 8.5884s 10.8692s 7.5357s 8.6383s 9.5384s
P90延迟 15.8033s 15.0031s 18.5937s 22.4662s 31.5832s
P95延迟 15.8214s 16.9938s 19.8098s 23.6155s 33.9086s
P99延迟 15.8359s 17.7888s 21.2849s 24.8183s 36.9063s
平均首字延迟 0.0426s 0.0977s 0.1663s 0.3213s 1.2846s
总生成tokens数 2239 19087 35442 74552 125191
单并发最小吞吐量 55.92 tokens/s 50.60 tokens/s 47.22 tokens/s 40.59 tokens/s 21.08 tokens/s
单并发最大吞吐量 56.44 tokens/s 51.67 tokens/s 50.28 tokens/s 48.15 tokens/s 40.69 tokens/s
单并发平均吞吐量 56.09 tokens/s 50.86 tokens/s 47.88 tokens/s 41.88 tokens/s 33.23 tokens/s
总体吞吐量 55.80 tokens/s 455.87 tokens/s 756.94 tokens/s 1530.94 tokens/s 2347.09 tokens/s

资源消耗:

|=========================================+======================+======================||   1  NVIDIA GeForce RTX 4090        On  | 00000000:23:00.0 Off |                  Off || 53%   57C    P2             317W / 450W |  23938MiB / 24564MiB |     96%      Default ||                                         |                      |                  N/A |+-----------------------------------------+----------------------+----------------------+

第二次压测

从第一次压测的结果来看,100并发还比较轻松。所以调高下并发,进一步挖掘潜力。

第二次压测命令:

nohup python3 -u simple-bench-to-api.py --url http://10.96.3.223:7869/v1 \  --model DeepSeek-R1-0528-Qwen3-8B \  --concurrencys 10,100,200,500,1000 \  --prompt "Introduce the history of China" \  --max_tokens 1024,8192,16384,32768 \  --api_key sk-xxx \  --duration_seconds 30 \  > benth-r1-0528-qwen3-32968.log 2>&1 &

----- max_tokens=1024 压测结果汇总 -----

指标 \ 并发数 10个并发 100个并发 200个并发 500个并发 1000个并发
总请求数 29 193 270 540 1009
成功率 100.00% 100.00% 100.00% 100.00% 100.00%
平均延迟 13.0669s 22.3391s 37.3623s 80.4597s 146.0543s
最大延迟 18.3782s 37.2610s 60.4406s 138.4210s 264.9363s
最小延迟 6.7765s 9.0848s 12.2690s 16.4402s 22.1194s
P90延迟 16.6298s 29.0581s 50.4048s 124.6118s 242.1567s
P95延迟 17.3254s 30.7143s 54.2149s 129.3948s 250.2386s
P99延迟 18.1074s 33.8267s 60.0537s 134.5030s 259.4909s
平均首字延迟 0.1027s 1.0510s 5.6072s 34.5247s 98.9192s
总生成tokens数 19109 133137 187015 384680 719967
单并发最小吞吐量 50.59 tokens/s 22.32 tokens/s 10.32 tokens/s 5.33 tokens/s 7.31 tokens/s
单并发最大吞吐量 51.22 tokens/s 38.19 tokens/s 33.59 tokens/s 31.24 tokens/s 31.35 tokens/s
单并发平均吞吐量 50.84 tokens/s 32.79 tokens/s 23.82 tokens/s 17.05 tokens/s 16.04 tokens/s
总体吞吐量 461.61 tokens/s 2503.64 tokens/s 2641.71 tokens/s 2644.94 tokens/s 2696.36 tokens/s

----- max_tokens=8192 压测结果汇总 -----

指标 \ 并发数 10个并发 100个并发 200个并发 500个并发 1000个并发
总请求数 28 190 269 535 1015
成功率 100.00% 100.00% 100.00% 100.00% 100.00%
平均延迟 13.9500s 23.5167s 37.4740s 82.1300s 144.9221s
最大延迟 19.1683s 38.9236s 75.2502s 140.2943s 265.8268s
最小延迟 10.0906s 12.1116s 12.1939s 16.1915s 22.0707s
P90延迟 17.4206s 29.5265s 50.2104s 126.2641s 239.9954s
P95延迟 18.1194s 30.9831s 54.7613s 133.7224s 252.8417s
P99延迟 18.9487s 36.3652s 59.1451s 137.6999s 259.2010s
平均首字延迟 0.0955s 1.1323s 5.4710s 37.8268s 96.7926s
总生成tokens数 19690 134098 188159 385106 722739
单并发最小吞吐量 50.55 tokens/s 21.78 tokens/s 10.68 tokens/s 7.16 tokens/s 7.42 tokens/s
单并发最大吞吐量 51.25 tokens/s 37.03 tokens/s 35.30 tokens/s 31.44 tokens/s 31.27 tokens/s
单并发平均吞吐量 50.76 tokens/s 31.90 tokens/s 23.86 tokens/s 17.73 tokens/s 15.78 tokens/s
总体吞吐量 456.61 tokens/s 2356.05 tokens/s 2423.85 tokens/s 2570.20 tokens/s 2699.32 tokens/s

----- max_tokens=16384 压测结果汇总 -----

指标 \ 并发数 10个并发 100个并发 200个并发 500个并发 1000个并发
总请求数 29 188 260 551 1004
成功率 100.00% 100.00% 100.00% 100.00% 100.00%
平均延迟 13.0967s 23.4280s 39.0516s 80.8912s 148.4802s
最大延迟 18.8189s 39.3510s 68.8186s 135.0338s 267.9082s
最小延迟 5.8197s 10.5966s 15.3229s 14.9725s 23.8719s
P90延迟 17.1641s 29.5371s 54.8759s 125.1614s 246.7136s
P95延迟 17.8492s 31.3555s 56.6210s 129.7505s 254.9421s
P99延迟 18.5961s 34.9637s 63.7886s 133.0816s 265.0209s
平均首字延迟 0.0933s 1.1082s 5.4438s 37.5474s 98.9394s
总生成tokens数 19161 133043 184762 387706 718227
单并发最小吞吐量 50.59 tokens/s 21.44 tokens/s 8.73 tokens/s 7.23 tokens/s 5.99 tokens/s
单并发最大吞吐量 51.23 tokens/s 37.83 tokens/s 36.09 tokens/s 31.00 tokens/s 31.19 tokens/s
单并发平均吞吐量 50.82 tokens/s 32.15 tokens/s 23.57 tokens/s 17.94 tokens/s 15.40 tokens/s
总体吞吐量 453.81 tokens/s 2233.30 tokens/s 2592.92 tokens/s 2569.43 tokens/s 2661.52 tokens/s

----- max_tokens=32768 压测结果汇总 -----

指标 \ 并发数 10个并发 100个并发 200个并发 500个并发 1000个并发
总请求数 27 191 268 542 1009
成功率 100.00% 100.00% 100.00% 100.00% 100.00%
平均延迟 13.1699s 22.6426s 38.6177s 81.6865s 145.3222s
最大延迟 19.7875s 37.7713s 64.1689s 146.3270s 262.9438s
最小延迟 6.2428s 8.3407s 14.4707s 18.4526s 20.0713s
P90延迟 16.5878s 29.6937s 52.8598s 125.4535s 241.6068s
P95延迟 18.5026s 31.1065s 56.5146s 133.2288s 253.2925s
P99延迟 19.6476s 35.2454s 61.3012s 141.5724s 260.3908s
平均首字延迟 0.1003s 1.1726s 5.9043s 34.0546s 97.1565s
总生成tokens数 17946 131866 189152 390252 721451
单并发最小吞吐量 50.50 tokens/s 22.31 tokens/s 8.35 tokens/s 6.29 tokens/s 6.44 tokens/s
单并发最大吞吐量 52.82 tokens/s 37.73 tokens/s 33.14 tokens/s 31.41 tokens/s 31.85 tokens/s
单并发平均吞吐量 50.88 tokens/s 32.57 tokens/s 23.64 tokens/s 16.71 tokens/s 15.93 tokens/s
总体吞吐量 432.75 tokens/s 2234.59 tokens/s 2607.86 tokens/s 2645.37 tokens/s 2722.12 tokens/s

资源消耗

|=========================================+======================+======================||   1  NVIDIA GeForce RTX 4090        On  | 00000000:23:00.0 Off |                  Off || 76%   64C    P2             415W / 450W |  24088MiB / 24564MiB |     96%      Default ||                                         |                      |                  N/A |+-----------------------------------------+----------------------+----------------------+

结论:

单卡RTX4090(24G)上部署DeepSeek-R1-0528-Qwen3-8B,并发量控制在100左右,可取得用户体验和吞吐量的最佳平衡:单个用户体感吞吐量在 35+tokens/s 以上,总体吞吐量在 2200+ tokens/s。并发可撑到1000,但是到200并发时首字延迟已经翻5倍到近6秒,长尾慢请求就很明显了。

功能评测

再来看下功能跑分情况,用高考题和hellaswag数据集分别测试下

高考题评测

针对 2010-2022 数学高考客观题的评测结果:

"total_score": 2160.0,"correct_score": 2145.0,"scoring_rate": 0.993,"question_num": 432.0,"type": {    "2010-2022_Math_I_MCQs": {        "total_score": 1070.0,        "correct_score": 1060.0,        "question_num": 214.0,        "scoring_rate": 0.991    },    "2010-2022_Math_II_MCQs": {        "total_score": 1090.0,        "correct_score": 1085.0,        "question_num": 218.0,        "scoring_rate": 0.995    }},

hellaswag 评测

先来看下相同参数,对 Qwen/Qwen3-8B 跑 hellaswag 评测集的结果:

Tasks Version Filter n-shot Metric Value Stderr
hellaswag 1 none 0 acc 0.5714 ± 0.0049
none 0 acc_norm 0.7497 ± 0.0043

相同参数 DeepSeek-R1-0528-Qwen3-8B 跑 hellaswag 评测集的结果:

Tasks Version Filter n-shot Metric Value Stderr
hellaswag 1 none 0 acc 0.5839 ± 0.0049
none 0 acc_norm 0.7579 ± 0.0043

可以看到分数从 74.97 分提升到了 75.79 分。确实有提升,但是提升不大。本地部署的小尺寸模型跑这个数据集目前都还没有看到很高的分数。当然还没有具体分析失败case的情况,怀疑有部分题目可能是本地部署的上下文限制造成失败的。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐