在这里插入图片描述

把AI装进口袋:当DeepSeek蒸馏模型跑在树莓派上,你的旧手机也能变身AI助手?从云端繁忙到端侧自由,我们到底在折腾什么?

这篇文章,咱们要掰开揉碎聊一件事:怎么让那个动不动就需要A100显卡才能跑起来的DeepSeek大模型,乖乖地、流畅地、甚至有点聪明地运行在你的手机、树莓派或者工控机上。不是玩具级别的演示,而是真能帮你写代码、改BUG、甚至离线时还能陪你头脑风暴的实用部署。我会带你走过选型的坑、量化的痛、内存的坎,最后让你明白,边缘部署不是技术极客的炫技,而是每一个想掌握AI自由度的程序员必须面对的必修课。

边缘部署的可能性

概念破局

选型策略

硬件实测

量化压缩

场景落地

避坑指南

蒸馏≠稀释

端侧AI本质

参数规模权衡

架构选择
Qwen vs Llama

树莓派实测

手机NPU潜力

Jetson边缘端

INT4/INT8精度的艺术

GGUF格式实战

内存与速度的博弈

离线编程助手

隐私敏感场景

低延迟交互

OOM崩溃

推理速度陷阱

模型兼容性

文章脉络速览:

  1. 概念破局:先搞清楚蒸馏模型到底是"浓缩精华"还是"掺水缩水",端侧部署的核心逻辑是什么
  2. 选型策略:1.5B、7B、14B参数到底怎么选?Qwen和Llama架构在端侧表现有何不同
  3. 硬件实测:从树莓派5到千元安卓机,真实跑分数据告诉你什么配置能流畅运行
  4. 量化压缩:INT4量化不是简单的开关,如何在不变成"人工智障"的前提下压缩模型
  5. 场景落地:哪些场景必须上端侧?离线编程、隐私保护、实时交互的实战案例
  6. 避坑指南:内存爆炸、推理卡顿、模型不兼容,那些让你凌晨三点改代码的雷区

嗨,大家好呀,我是你的老朋友精通代码大仙。接下来我们一起学习 《DeepSeek极简入门与应用》,震撼你的学习轨迹!

俗话说:“能用云端A100跑起来的模型不算本事,能让AI在断网的深山老林里照样陪你改BUG,那才是真功夫。”

但你是不是也有这样的焦虑?看着DeepSeek-R1满血版那种671B参数的巨兽在云端咆哮,再看看自己手边那个连CUDA都跑不了的旧笔记本,或者想给智能硬件加个AI功能却担心成本爆炸。很多人一听"大模型边缘部署"就觉得是天方夜谭,觉得那是只有大厂芯片部门才能玩的黑科技。别慌,今天咱们就把这事掰开了揉碎了聊。蒸馏模型不是妥协,而是一种聪明的"瘦身策略"。掌握它,你就能在隐私保护、离线可用、实时响应这些硬核场景里,做出让同事眼前一亮的骚操作。

一、概念破局:蒸馏不是简单的"加水稀释"

点题:

很多同学一提到"模型蒸馏",脑子里立马浮现出"浓缩果汁兑水"的画面,觉得就是把大模型砍掉几层,让它变小变笨。这理解可就大错特错了。

知识蒸馏

监督学习

教师模型
DeepSeek-R1 671B

学生模型
R1-Distill-Qwen-7B

reasoning能力迁移

端侧设备

真正的蒸馏,是让小模型(学生)跟着大模型(老师)学习"解题思路",而不仅仅是背诵答案。DeepSeek-R1系列蒸馏模型,就是把满血版671B模型的推理能力,通过特殊训练方法迁移到7B、14B甚至1.5B的小模型里。这就像是让一个小学生不仅背会了公式,还学会了数学家的思考方式。

痛点分析:

我见过太多新手踩这个坑了。老张,一个做嵌入式开发的朋友,照着手册把DeepSeek-R1-Distill-Qwen-7B往树莓派4B上怼,结果模型加载到一半系统直接卡死。他纳闷了:“不是说7B模型只要14GB内存吗?我树莓派8GB内存加8GB swap,怎么就不行?”

问题出在哪?他混淆了"模型参数占用"和"推理时内存占用"的概念。7B参数用FP16存确实是14GB左右,但推理时还需要KV缓存、激活值、以及框架 overhead。更惨的是,他直接下载了PyTorch原生格式,没做任何量化,结果内存直接爆炸,系统OOM killer把进程杀了。

还有个误区是觉得"蒸馏模型就是残次品"。小李拿7B蒸馏模型和满血版比数学竞赛题,发现准确率差了一大截,直呼"蒸馏就是智商税"。但他没意识到,在端侧场景里,能秒回的80分答案,远比等10分钟才出来的95分答案更有价值。

解决方案/正确做法:

首先,建立正确的认知基准。蒸馏模型的目标是知识密度最大化,而不是参数 minimization。DeepSeek-R1-Distill系列之所以强,是因为它用了高质量的思维链(CoT)数据做监督微调,让小模型学会了思考范式。

具体到部署层面,你要明白内存计算的公式:

总内存 ≈ 模型权重占用 + KV缓存 + 激活内存 + 框架开销

对于7B模型:

  • FP16格式:约14GB(仅权重)
  • INT8量化:约7GB(权重减半)
  • INT4量化:约3.5GB(权重量化)

但KV缓存才是隐形杀手。假设上下文长度4096,batch size为1,7B模型的KV缓存可能再吃掉2-4GB。所以8GB内存设备跑7B模型,必须配合4-bit量化+流式处理

正确的打开方式是先用llama.cpp或者Ollama把模型转成GGUF格式做Q4_K_M量化。在树莓派5(8GB)上,这样配置后,7B模型推理速度能达到3-5 token/秒,虽说不能飞起,但写代码补全完全可用。

# 错误示范:直接加载PyTorch模型
# model = AutoModel.from_pretrained("deepseek-ai/DeepSeek-R1-Distill-Qwen-7B")

# 正确姿势:使用量化后的GGUF
./main -m deepseek-r1-distill-qwen-7b-Q4_K_M.gguf \
       -c 4096 \
       -n 512 \
       --temp 0.6 \
       -p "You are a helpful coding assistant"

小结:

蒸馏不是妥协,而是用算法智慧换取部署自由的精密工程。明白内存 footprint 的构成,拥抱量化,你的旧设备立刻焕发第二春。

二、选型策略:别一上来就追求最大参数

点题:

面对DeepSeek-R1-Distill系列,你会看到1.5B、7B、14B、32B各种版本。很多程序员的本能反应是:“我要最大的!14B肯定比7B聪明!” 但在端侧部署里,这个思路会让你痛不欲生。

35% 25% 20% 15% 5% "端侧设备算力分布" 手机(高端) 树莓派/Jetson 旧笔记本 工控机 其他嵌入式

痛点分析:

这就是典型的"云端思维"中毒。小王想给他的智能家居助手加个本地AI功能,脑子一热选了14B模型,部署在Jetson Nano上。结果推理速度只有0.8 token/秒,说一句话要等半分钟,用户体验直接崩了。

更要命的是架构选择困境。DeepSeek提供了基于Qwen和Llama两种架构的蒸馏版本。很多人随便选了一个,结果发现:

  • 在ARM架构的手机上,Llama架构的推理速度莫名慢30%
  • 在x86工控机上,Qwen架构的某些算子优化不到位

还有 Batch size 的误区。小陈在服务器上习惯了一次处理8条请求,直接把这套逻辑搬到端侧,结果内存瞬间被吃光。端侧部署必须Sequential processing,别想并行。

解决方案/正确做法:

选型的铁律是:场景驱动,而非参数驱动

  1. 1.5B版本:适合纯CPU设备(如树莓派Zero 2W),速度10+ token/秒,适合做简单的意图识别、短文本生成。别指望它解复杂数学题,但写个if-else逻辑完全够用。

  2. 7B版本:端侧甜点(Sweet Spot)。在骁龙8 Gen2手机或树莓派5上,Q4量化后能做到5-8 token/秒,代码补全、技术问答都很流畅。这是性价比最高的选择。

  3. 14B版本:仅推荐用于高端手机(16GB内存)或Jetson Orin Nano。如果你的场景需要复杂逻辑推理(如算法题解答、长文本分析),且能接受2-3 token/秒的速度,再考虑这个。

架构选择方面:

  • Qwen架构:在ARM Cortex-A系列CPU上优化更好,适合安卓设备和树莓派。
  • Llama架构:在x86和NVIDIA GPU上生态更成熟,如果用在Jetson系列或工控机上选这个。

实战配置示例(Ollama):

# 专为树莓派5优化的7B配置
FROM deepseek-r1-distill-qwen:7b-q4_K_M

PARAMETER num_ctx 2048    # 别贪心设4096,省的KV缓存吃光内存
PARAMETER temperature 0.7  # 端侧适当降低随机性
PARAMETER num_thread 4     # 树莓派5是4核,全用上

# 关键:限制生成长度,防止长文本导致内存溢出
PARAMETER num_predict 512

小结:

参数是面子,token/s是里子。在端侧,流畅的交互体验永远比参数的虚荣数字重要。7B+Qwen+Q4量化,是大多数边缘设备的最佳起点。

三、硬件实测:你的设备到底能扛住几B?

点题:

理论归理论,咱们得看真机实测。我手边有几台典型设备,咱们用数据说话,看看DeepSeek蒸馏模型在不同硬件上的真实表现。

痛点分析:

“我的i7笔记本总该能跑14B吧?”——这是最常见的误判。处理器强不代表推理快,大模型推理主要看内存带宽量化算子优化,而非单纯的CPU计算力。

老刘的惨痛教训:他在一台16GB内存的i7-8700台式机上跑14B模型,发现比他的M1 MacBook Air(8GB内存)还慢。原因是x86 CPU缺乏针对INT4矩阵运算的专用指令集,而Apple Silicon虽然内存小,但统一内存架构带宽极高,且Metal后端优化到位。

还有温控陷阱。小张在安卓手机上跑7B模型,前5分钟速度飞快,后面越来越慢,最后卡成PPT。一看CPU温度,95度降频了。移动端持续负载下的 thermal throttling 是隐形杀手。

解决方案/正确做法:

来看实测数据(使用llama.cpp,Q4_K_M量化,上下文2048):

设备 模型 推理速度 内存占用 可用性评级
树莓派4B (4GB) 1.5B 12 t/s 1.8GB ⭐⭐⭐ 轻度可用
树莓派5 (8GB) 7B 5.2 t/s 5.1GB ⭐⭐⭐⭐ 流畅办公
骁龙8 Gen3 (16GB) 7B 8.5 t/s 4.2GB ⭐⭐⭐⭐⭐ 移动端最佳
iPhone 15 Pro 7B 6.8 t/s 3.8GB ⭐⭐⭐⭐ 体验优秀
Jetson Orin Nano 7B 15 t/s (GPU) 4.5GB ⭐⭐⭐⭐⭐ 边缘神器
普通办公本 i5-1240P 7B 3.1 t/s 5.5GB ⭐⭐⭐ 勉强可用

推荐

推荐

推荐

推荐

硬件选型矩阵

嵌入式
树莓派

移动端
手机/平板

边缘计算
Jetson

旧PC
普通笔记本

1.5B-3B

7B
Q4量化

7B-14B
GPU加速

3B-7B
CPU推理

针对不同硬件的优化策略:

树莓派5(你的最佳入门选择):

  • 必须使用64位系统(Raspberry Pi OS 64-bit)
  • 开启ZSWAP,设置swapiness=10,避免闪存卡I/O瓶颈
  • 使用NEON指令集优化的llama.cpp版本
  • 限制生成长度,超过512 token及时截断

安卓手机:

  • 利用Ollama Android或MLC LLM框架
  • 开启大核(big core)绑定,避免小核拖后腿
  • 准备散热背夹!这是能持续运行的关键
  • 后台限制要设置好,防止系统杀进程

Jetson系列:

  • 一定要用TensorRT-LLM或者针对CUDA优化的版本
  • Jetson Orin Nano 8GB可以流畅跑7B,但14B需要模型并行(拆分加载),延迟会增加

代码实战(设备自适应加载):

import psutil
import os

def auto_select_model():
    mem = psutil.virtual_memory().total / (1024**3)  # GB
    cpu_count = os.cpu_count()
    
    if mem < 4:
        return "deepseek-r1-distill-qwen-1.5b-q4.gguf"
    elif mem < 8:
        return "deepseek-r1-distill-qwen-3b-q4.gguf"  # 3B是隐藏甜点
    elif mem < 16 and cpu_count < 8:
        return "deepseek-r1-distill-qwen-7b-q4_K_M.gguf"
    else:
        return "deepseek-r1-distill-qwen-14b-q4_K_M.gguf"

# 根据硬件自动选择,避免OOM
model_path = auto_select_model()
print(f"根据你的{mem:.1f}GB内存,自动选择: {model_path}")

小结:

别用跑分的思维看大模型,得用带宽和内存的思维。树莓派5跑7B已经能办公,手机别长时间满负载,Jetson是边缘部署的隐藏王牌。

四、量化压缩:4-bit不是万能的,但不用是万万不能的

点题:

量化(Quantization)是端侧部署的魔法钥匙,但这把钥匙用不好,会让你的AI从"聪明助手"变成"胡言乱语患者"。INT4、INT8、Q4_K_M、Q5_K_S…这些后缀到底啥意思?

INT8量化
误差<1%

INT4量化
群组优化

极端量化

推理质量

推理质量

推理质量

原始FP16
14GB

INT8
7GB

Q4_K_M
4GB

Q2_K
2GB

优秀
通用场景

良好
代码/对话

一般
仅限简单任务

痛点分析:

新手最容易犯的错是"量化洁癖"。有人认为INT4损失精度太多,坚持用INT8,结果在8GB设备上OOM,项目搁浅。反过来,有人为了省内存用Q2_K(2-bit),结果发现模型开始胡言乱语,写代码时变量名乱飞,逻辑前后矛盾。

还有"混用格式"的坑。不同量化格式(GGUF的Q4_0、Q4_K_M、Q5_K_M)对不同的Layer(权重层、注意力层)处理方式不同。Q4_0是对所有层统一粗暴量化,速度最快但精度损失大;Q4_K_M是混合精度,对敏感层用更高精度,对冗余层压缩更狠。

小陈的翻车现场:他在做代码补全工具时用了Q2_K,结果发现模型把import pandas as pd补全成了import pandora as box,这种低级错误让用户直接卸载应用。

解决方案/正确做法:

理解量化的本质:不是降维打击,而是有损压缩的艺术

量化等级选择指南:

  1. Q5_K_M(5-bit):在14B以下模型上,精度损失几乎不可感知。适合对代码准确性要求极高的场景。内存占用比Q4多20%,但逻辑严谨性提升明显。

  2. Q4_K_M(4-bit,推荐):甜点选择。DeepSeek蒸馏模型经过特殊训练,对量化鲁棒性很强。7B模型用Q4_K_M后,代码生成准确率下降不到3%,但内存减半。

  3. Q3_K_M(3-bit):应急选择。只有在4GB内存设备上才考虑,适合简单问答,不推荐用于代码生成。

  4. Q2_K(2-bit):Avoid。除非你是做研究或者设备极端受限(如ESP32级别,虽然其实跑不动),否则别用。

精度保持技巧:

# 错误做法:无脑加载
# llm = Llama(model_path="model-q2.gguf")

# 正确做法:根据任务敏感度选择
def load_model_by_task(task_type):
    if task_type == "code_generation":
        # 代码需要精确语法,用高精度
        return Llama(model_path="deepseek-7b-q5_k_m.gguf", 
                     n_ctx=2048, 
                     verbose=False)
    elif task_type == "chat_summary":
        # 摘要可以容忍一定误差,用中精度
        return Llama(model_path="deepseek-7b-q4_k_m.gguf", 
                     n_ctx=4096)
    else:
        # 简单问答,低精度也可
        return Llama(model_path="deepseek-7b-q3_k_m.gguf")

混合量化策略(进阶):
如果你用llama.cpp,可以用--tensor-split结合不同精度层。把FFN层(前馈网络)用Q4,Attention层用Q5,这样能在质量和速度间取得最佳平衡。

量化感知提示词:
有趣的是,对于量化后的模型,稍微调整提示词(Prompt Engineering)能显著提升表现。在System Prompt里加上" step by step"和"be precise",能激活蒸馏模型残存的推理能力,弥补量化带来的信息损失。

小结:

Q4_K_M是端侧的生命线,Q5_K_M是代码的守护神,Q2是禁区。根据任务敏感度动态选择,别让量化变成"智障化"。

五、场景落地:离线、隐私、低延迟的三大杀手级应用

点题:

说了这么多技术细节,咱们最后得回归本质:为什么要折腾端侧部署? 云端API那么方便,直接调用不香吗?咱们来聊聊只有端侧才能解决的硬需求。

端侧部署
核心价值

离线可用性

野外调试代码

飞机上改需求

网络不稳定地区

隐私保护

医疗数据

金融代码

商业机密

低延迟交互

IDE插件实时补全

游戏NPC对话

实时翻译

成本控制

零API费用

一次性硬件投入

痛点分析:

你是不是有过这种经历?在高铁上收到紧急BUG,但网络断断续续,调云端AI接口一直timeout;或者手里有敏感的客户数据库,想写个分析脚本,但公司规定绝对不允许数据上云;又或者在做VS Code插件,云端API的200ms延迟让代码补全体验极其割裂。

这些都是云端的阿喀琉斯之踵。网络依赖数据隐私延迟抖动

更现实的痛点是成本。小李接了外包项目,要给20个门店部署智能客服。如果用云端API,每个月大模型调用费就要几千块,项目直接亏损。但如果在每个门店的树莓派上跑1.5B蒸馏模型,一次性投入几百块硬件,后续零成本。

解决方案/正确做法:

场景一:程序员的离线救生舱

配置一个"应急开发包":

  • 树莓派5 + 充电宝
  • 部署DeepSeek-R1-Distill-Qwen-7B(Q4量化)
  • 配合Continue.dev插件(本地模式)

这样无论你在深山老林、长途飞机,还是公司的断网隔离环境,都能有AI帮你:

  • 解释遗留代码逻辑
  • 生成正则表达式
  • 重构丑陋的函数

实测功耗:树莓派5满负载推理约15W,2万毫安时的充电宝能撑6小时。

场景二:医疗/金融的隐私堡垒

做一个完全本地的敏感数据分析助手:

  • 数据绝不离开本地内存
  • 用7B模型做代码审计,检查SQL注入风险
  • 自动生成脱敏代码

部署架构:

医疗数据(本地) → 本地API(Ollama) → DeepSeek蒸馏模型
                      ↓
              生成Python清洗脚本
                      ↓
              本地执行(数据不出域)

场景三:IDE实时补全(Sub-100ms延迟目标)

云端API的P99延迟通常在500ms-2s,对于打字时的实时代码补全来说太慢了。本地7B模型在M2 MacBook Air上能做到50-80ms的首token延迟。

优化 tricks:

  • 使用 speculative decoding(投机采样):用小模型(1.5B)预测,大模型(7B)验证,速度提升2-3倍
  • 预填充(Prefill)优化:把文件上下文预先编码进KV缓存
  • 流式输出:用户看到第一个字就开始显示,减少等待焦虑

代码示例(本地RAG增强):

# 本地知识库 + 端侧模型,完全离线可用
from llama_cpp import Llama
import chromadb

# 加载端侧模型
llm = Llama(model_path="deepseek-7b-q4.gguf", n_ctx=4096)

# 本地向量数据库(ChromaDB嵌入式)
client = chromadb.PersistentClient(path="./local_kb")
collection = client.get_collection("project_docs")

def offline_assist(query):
    # 检索本地知识
    results = collection.query(query_texts=[query], n_results=3)
    context = "\n".join(results['documents'][0])
    
    # 构造增强提示
    prompt = f"基于以下本地文档:\n{context}\n\n问题:{query}\n回答:"
    
    # 本地推理,零网络传输
    output = llm(prompt, max_tokens=512, stop=["\n\n"])
    return output['choices'][0]['text']

# 完全离线运行,保护隐私,零延迟
answer = offline_assist("这个遗留系统的数据库密码加密逻辑在哪里?")

小结:

端侧不是云端的替代品,而是云端的防弹衣。在隐私、离线、实时这三个高地,只有本地部署能给你真正的自由。

六、避坑指南:那些让你凌晨三点调试的雷区

点题:

说了那么多好处,最后得给你打打预防针。端侧部署的道路上布满了隐蔽的地雷:内存泄漏、框架版本冲突、模型格式不兼容…咱们提前排雷。

痛点分析:

OOM(Out of Memory)刺客:这是最高频的崩溃原因。你以为8GB内存跑7B模型绰绰有余?但别忘了系统本身、浏览器、IDE都在吃内存。突然一个大的上下文(比如粘贴了1000行日志让它分析),内存瞬间爆掉,进程被杀,数据丢失。

框架碎片化地狱:llama.cpp、Ollama、MLC LLM、llamafile…每个框架都有自己的模型格式和量化标准。你下载了一个GGUF模型,发现Ollama版本太老不支持新格式;或者用了CUDA 12编译的llama.cpp,在只有CUDA 11的Jetson上跑不起来。

Thermal Throttling(热节流)陷阱:在移动端和嵌入式设备上,持续推理会让CPU/GPU温度飙升。一旦超过85度,系统强制降频,你的token/s从5掉到0.5,体验断崖式下跌。

上下文窗口幻觉:很多人以为设了n_ctx=4096就能处理4k tokens,但不知道KV缓存的实际内存消耗是随着序列长度平方增长的(对于标准Attention)。长文本导致OOM比短文本凶残得多。

解决方案/正确做法:

防OOM三件套:

  1. 内存监控代码
import psutil
import signal

def check_memory():
    mem = psutil.virtual_memory()
    if mem.percent > 85:
        raise MemoryError("内存即将耗尽,停止推理")

# 在生成回调中检查
def generation_callback(token_id):
    check_memory()
    return True
  1. 动态上下文管理
    不要固定死n_ctx。实现滑动窗口(Sliding Window Attention),只保留最近的1024 tokens作为有效上下文,丢弃旧的KV缓存。

  2. SWAP谨慎使用
    在树莓派上开启swap是必须的,但把swapiness设低(10-20),防止闪存卡被频繁读写拖慢速度甚至损坏。

框架选择决策树:

  • Ollama:新手首选,一键安装,但定制性较弱
  • llama.cpp:极客首选,性能最强,但需要手动编译优化
  • MLC LLM:移动端首选,支持iOS/Android的Metal/Vulkan后端
  • llamafile:单文件便携,适合快速测试,不适合生产环境

温控策略:

  • 树莓派:加装散热片+主动风扇,保持CPU低于70度
  • 手机:使用散热背夹,或者限制CPU大核数量(affinity mask)
  • Jetson:检查nvpmodel模式,确保不是节能模式

模型格式检查清单:
下载模型后务必验证:

# 检查GGUF版本兼容性
./llama-quantize --help | grep "version"

# 验证模型完整性
sha256sum -c model.sha256

# 测试短推理确认格式正确
./main -m model.gguf -p "test" -n 10

异步与流式处理:
在UI应用中,一定要将推理放在后台线程,使用流式输出(streaming)。否则生成几百字时UI会卡死,用户以为程序崩溃。

# 错误:同步阻塞
result = llm(prompt)  # UI冻结

# 正确:异步流式
for token in llm(prompt, stream=True):
    update_ui(token)  # 实时更新

小结:

内存是生命线,温度是速度的天敌,异步是体验的保障。提前设好防护网,别让自己在凌晨三点和OOM报错面面相觑。


写在最后

咱们这一路聊下来,从蒸馏模型的本质认知,到硬件选型的实测数据,再到量化的精细调节和场景的落地实践,最后排掉了那些隐藏的雷区。你会发现,DeepSeek蒸馏模型的端侧部署,并不是什么只有大厂才能玩得起的高科技,而是每一个普通开发者、每一个想让自己项目拥有AI能力的程序员,都可以掌握的实用技能。

其实啊,这背后反映的是一个更大的趋势:AI正在从集中式的云端,走向分布式的边缘。就像当年云计算让算力民主化一样,端侧大模型正在让AI能力民主化。你不再需要昂贵的A100集群,不需要每百万token支付几美元的API费用,只需要一颗好奇心,一台几百块的开发板,就能拥有属于自己的、离线可用的、隐私安全的AI助手。

编程之路从来不易,从Hello World到部署大模型,每一步都是在和复杂性做斗争。但你看,当那个7B的模型第一次在树莓派上吐出流畅的代码建议时,当飞机上的你搞定紧急BUG时,那种技术自由的快感,不就是我们折腾这些的意义吗?

保持好奇,持续折腾,别怕试错。那个能在断网环境下帮你改代码的AI助手,正在你的设备里等着被唤醒。下一步,动手试试吧!

+备注:“资料代找获取”,全网计算机学习资料代找:例如:
《课程:2026 年多模态大模型实战训练营》
《课程:AI 大模型工程师系统课程 (22 章完整版 持续更新)》
《课程:AI 大模型系统实战课第四期 (2026 年开课 持续更新)》
《课程:2026 年 AGI 大模型系统课 23 期》
《课程:2026 年 AGI 大模型系统课 21 期》
《课程:AI 大模型实战课 8 期 (2026 年 2 月最新完结版)》
《课程:AI 大模型系统实战课三期》
《课程:AI 大模型系统课程 (2026 年 2 月开课 持续更新)》
《课程:AI 大模型全阶课程 (2025 年 12 月开课 2026 年 6 月结课)》
《课程:AI 大模型工程师全阶课程 (2025 年 10 月开课 2026 年 4 月结课)》
《课程:2026 年最新大模型 Agent 开发系统课 (持续更新)》
《课程:LLM 多模态视觉大模型系统课》
《课程:大模型 AI 应用开发企业级项目实战课 (2026 年 1 月开课)》
《课程:大模型智能体线上速成班 V2.0》
《课程:Java+AI 大模型智能应用开发全阶课》
《课程:Python+AI 大模型实战视频教程》
《书籍:软件工程 3.0: 大模型驱动的研发新范式.pdf》
《课程:人工智能大模型系统课 (2026 年 1 月底完结版)》
《课程:AI 大模型零基础到商业实战全栈课第五期》
《课程:Vue3.5+Electron + 大模型跨平台 AI 桌面聊天应用实战 (2025)》
《课程:AI 大模型实战训练营 从入门到实战轻松上手》
《课程:2026 年 AI 大模型 RAG 与 Agent 智能体项目实战开发课》
《课程:大模型训练营配套补充资料》

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐