LLM应用开发、RAG、Agent、MCP、A2A、多模态与AI Infra系统工程师进阶学习路线图
适合读者:已经会编程,想系统转向 LLM 应用开发、RAG、Agent、MCP、A2A、多模态和 AI Infra 的程序员。
这份路线不是“名词百科”,而是一条工程学习路径。目标是让你知道:先学什么,为什么学,学到什么程度能做项目,什么时候再进入更难的模型原理、微调和推理优化。
先看总路线
推荐顺序:
Python ↓FastAPI / Git / Docker ↓Prompt Engineering ↓OpenAI API / Claude / Gemini / Qwen 等模型 API ↓AI ChatBot / AI 总结 / AI 写作助手 ↓LangChain / LlamaIndex / Workflow ↓RAG ↓Agent / Tool Calling / Memory / Workflow ↓MCP ↓多模态 / GUI Agent / Computer Use ↓A2A / Multi-Agent / Distributed Agent ↓PyTorch / LoRA / QLoRA / PEFT ↓AI Infra / vLLM / Kubernetes / GPU 推理优化
大白话理解:
- •Prompt:你学会和模型沟通。
- •RAG:你让模型会查企业私有知识。
- •Tool Calling:你让模型能调用函数、数据库、API。
- •Agent:你让模型能规划、调用工具、观察结果、继续执行。
- •MCP:你用标准协议把工具接给模型。
- •A2A:你用标准协议让 Agent 和 Agent 协作。
- •多模态:你让 Agent 能看图、听音频、读文档、操作屏幕。
- •AI Infra:你让模型服务跑得稳、快、省。
为什么按这个顺序学
很多程序员一上来想学 Transformer、PyTorch、微调、CUDA。不是不对,而是投入产出比不高。对多数转型者来说,企业最先需要的是:
- •能把模型 API 接进业务系统。
- •能做企业知识库、文档问答、客服助手。
- •能做 Agent 工作流和工具调用。
- •能把 MCP / 多模态 / 权限 / 日志 / 部署做成生产系统。
所以路线应该先就业、后深入:
先就业能力:Prompt + API + RAG + Agent 项目再核心能力:MCP + Workflow + Memory + 多模态再高级能力:A2A + 分布式 Agent + AI Infra再算法能力:PyTorch + 微调 + 模型训练原理
第一阶段:AI 与大模型认知(1 周)
1.1 什么是大模型
学习内容
- •GPT / Claude / Gemini / DeepSeek / Qwen / Llama 等模型家族
- •Transformer
- •Token
- •Embedding
- •Attention
- •Context Window
- •Prompt 与 Completion / Response
为什么要学
这一步不是让你推公式,而是让你建立“模型到底在干什么”的基本心智。否则后面看到 Token 成本、上下文长度、RAG、向量数据库、KV Cache,会全部混在一起。
大白话解释
Token 可以理解为模型读写文本时的“最小记账单位”。它不完全等于中文的一个字,也不完全等于英文的一个单词。模型不是按“句子”理解世界,而是把输入拆成 token,再预测下一个 token。
Embedding 是把文字变成一串数字。比如“猫”和“猫咪”变成的向量距离会比较近,“猫”和“挖掘机”的距离通常会远一些。RAG 的语义搜索就靠这个。
Context Window 是模型一次能看到的上下文窗口。它像会议桌:桌子越大,能摊开的资料越多;但桌子再大,也不能无限堆资料,而且堆太多会变贵、变慢、变乱。
原理图
用户问题 ↓拆成 Token ↓模型基于上下文预测下一个 Token ↓不断生成 Token ↓形成答案
最小示例
如果你输入:
请把“用户登录失败”改写成更正式的错误提示。
模型不是“真的理解”你公司的登录系统,而是根据训练中学到的语言规律和当前上下文,生成类似:
登录失败,请检查账号、密码或验证码后重试。
学习验收
你应该能解释清楚:
- •Token 为什么会影响成本?
- •Embedding 为什么能做搜索?
- •Context Window 为什么不是越大越好?
- •大模型为什么会一本正经地编错内容?
1.2 当前主流模型生态
学习内容
- •OpenAI GPT 系列
- •Anthropic Claude 系列
- •Google Gemini 系列
- •DeepSeek
- •Qwen
- •Llama
- •开源模型与闭源模型的差异
为什么要学
AI 工程师不是只会调一个模型,而是要知道不同模型的适用场景:
- •闭源 API:上手快、能力强、维护成本低。
- •开源模型:可私有化、可定制、对合规更友好,但运维成本更高。
示例:如何选模型
| 场景 | 更常见选择 | 原因 |
|---|---|---|
| 快速做原型 | 闭源 API | 少踩部署坑,先验证产品 |
| 企业知识库 | API + RAG 或私有模型 + RAG | 看数据合规要求 |
| 内网代码助手 | 私有化模型 / 企业版服务 | 代码和数据不能外泄 |
| 高并发客服 | 小模型 + RAG + 缓存 | 成本更重要 |
| 多模态理解 | GPT-4o/GPT-5 系列、Gemini、Qwen-VL 等 | 视觉能力更关键 |
注意
模型生态变化很快。学习时不要死背型号,要掌握评估方法:准确率、延迟、成本、上下文长度、工具调用能力、多模态能力、合规与部署方式。
1.3 AI 行业岗位方向
学习内容
- •LLM 应用开发工程师
- •RAG 工程师
- •Agent 工程师
- •AI Infra 工程师
- •大模型算法 / 微调工程师
大白话解释
- •LLM 应用工程师:把模型接到产品里。
- •RAG 工程师:让模型会查公司文档。
- •Agent 工程师:让模型会调用工具、执行任务。
- •AI Infra 工程师:让模型服务稳定、可观测、可扩展。
- •算法 / 微调工程师:训练或定制模型。
推荐定位
对大多数程序员,优先路线是:
LLM 应用工程师 → RAG 工程师 → Agent 工程师 → AI Infra / 多模态 Agent
第二阶段:Python 与工程基础(2~4 周)
2.1 Python 基础
学习内容
- •函数、类、模块
- •async / await
- •requests / httpx
- •typing / pydantic
- •json
- •文件读写
- •环境变量
为什么要学
AI 生态大量工具都优先支持 Python,例如 LangChain、LlamaIndex、FastAPI、PyTorch、Transformers、向量数据库 SDK 等。
最小示例:读取环境变量并请求 API
import osimport httpxapi_key = os.getenv("OPENAI_API_KEY")async def call_api(): async with httpx.AsyncClient(timeout=30) as client: response = await client.get( "https://api.example.com/health", headers={"Authorization": f"Bearer {api_key}"}, ) return response.json()
大白话解释
AI 应用本质上仍然是后端工程:接收请求、调用模型、处理工具、保存状态、返回结果。Python 只是这个生态里最顺手的胶水语言。
2.2 FastAPI
学习内容
- •REST API
- •路由
- •Pydantic 数据模型
- •Streaming / SSE
- •文件上传
- •中间件
为什么要学
很多 AI 产品都需要把模型能力封装成服务:前端传问题,后端调用模型,模型边生成边返回给前端。
最小示例:AI 服务接口骨架
from fastapi import FastAPIfrom pydantic import BaseModelapp = FastAPI()class ChatRequest(BaseModel): message: str@app.post("/chat")async def chat(req: ChatRequest): return {"answer": f"收到:{req.message}"}
学习验收
你能完成:
- •一个
/chat接口。 - •一个
/upload文件上传接口。 - •一个 SSE 流式输出接口。
- •用 Docker 启动服务。
2.3 Git / GitHub
学习内容
- •branch
- •commit
- •PR
- •code review
- •README
- •issue
为什么要学
AI 项目同样是软件项目。没有 Git 协作能力,后续做 Agent 工程、RAG 项目、模型服务都会很难维护。
学习验收
你应该能维护一个作品集仓库,包括:
- •清晰 README。
- •安装步骤。
- •环境变量说明。
- •示例截图。
- •架构图。
2.4 Linux / Docker
学习内容
- •Linux 基础命令
- •Dockerfile
- •docker-compose
- •日志查看
- •端口映射
- •镜像构建
为什么要学
AI 应用最终要部署。模型 API、向量数据库、Redis、Postgres、任务队列,经常需要容器化编排。
示例架构
Browser ↓FastAPI AI Server ↓ ↓LLM API Vector DB ↓ ↓Logs Redis / Postgres
第三阶段:Prompt Engineering(1~2 周)
3.1 Prompt 基础
学习内容
- •Role Prompt
- •Few-shot
- •Chain-of-Thought 的使用边界
- •ReAct 思想
- •约束输出
- •错误示例与反例
为什么要学
Prompt 是 AI 应用的第一层控制面。虽然 2026 年以后“只会 Prompt”不够,但不会 Prompt,后面的 RAG、Agent、工具调用都很难做好。
大白话解释
Prompt 不是“玄学咒语”,更像给实习生写任务说明:背景、目标、输入、输出格式、限制、例子、验收标准越清楚,结果越稳定。
示例:差 Prompt 与好 Prompt
差 Prompt:
帮我总结一下。
好 Prompt:
你是资深技术编辑。请把下面材料总结成面向后端工程师的学习笔记。要求:1. 先给 5 条结论。2. 再按“背景、核心概念、工程实践、常见误区”组织。3. 不要编造材料中没有的信息。4. 如果信息不足,请标注“资料未提供”。
3.2 Structured Output
学习内容
- •JSON 输出
- •JSON Schema
- •Pydantic / Zod
- •结构化解析
- •错误处理与重试
官方事实
OpenAI 官方文档说明:Structured Outputs 可以让模型输出遵循你提供的 JSON Schema;JSON mode 只保证有效 JSON,不保证符合具体 schema。能用 Structured Outputs 时优先使用它。
大白话解释
普通回答像一段话,程序很难稳定读取;结构化输出像表单,每个字段都有名字和类型,后端才能放心处理。
示例:需求提取 Schema
{ "type": "object", "properties": { "feature": { "type": "string" }, "user_role": { "type": "string" }, "acceptance_criteria": { "type": "array", "items": { "type": "string" } } }, "required": ["feature", "user_role", "acceptance_criteria"], "additionalProperties": false}
学习验收
你能把一段用户需求解析成稳定 JSON,并在字段缺失时让程序报错或重试。
3.3 OpenAI API / 模型 API
学习内容
- •Chat / Responses API
- •Streaming
- •Tool Calling
- •图片输入
- •音频输入输出
- •错误处理
- •速率限制
最小工程图
Frontend ↓ HTTPBackend ↓ Model APILLM ↓ stream tokensBackend ↓ SSE/WebSocketFrontend
第四阶段:AI 应用开发(2~3 周)
4.1 AI ChatBot
学习内容
- •对话历史
- •上下文裁剪
- •用户会话
- •系统提示词
- •安全与拒答
大白话解释
ChatBot 不是把所有历史一股脑塞给模型。你需要决定:哪些历史重要、哪些可以摘要、哪些必须丢弃。
示例:上下文管理
用户第 1 轮:介绍项目背景用户第 2 轮:提出问题用户第 3 轮:补充约束发送给模型时:- 保留当前问题- 保留关键约束- 摘要早期背景- 丢弃寒暄和重复内容
4.2 AI Web 应用
学习内容
- •前后端联调
- •SSE / WebSocket
- •Token Streaming
- •取消生成
- •重试
- •用户反馈
示例:为什么需要流式输出
如果一次性等模型生成完再返回,用户可能等 20 秒。流式输出可以让用户 1 秒内看到第一个字,体验差别巨大。
非流式:用户等待 → 等待 → 等待 → 一次性显示流式:用户等待 → 逐字/逐段显示 → 可随时停止
4.3 项目实践
初级项目
- •AI 翻译
- •AI 总结
- •AI 写作助手
- •会议纪要生成器
学习验收
每个项目至少包含:
- •后端 API。
- •前端页面。
- •模型调用。
- •错误处理。
- •README。
- •部署方式。
第五阶段:LangChain 与 AI 框架(2~3 周)
5.1 LangChain
学习内容
- •PromptTemplate
- •Chain
- •Tool
- •Memory
- •Callback / Streaming
为什么要学
LangChain 把 Prompt、模型、工具、检索、Agent 组织成可复用组件。它不是必须,但能帮你理解 AI 应用工程的通用抽象。
大白话解释
你可以把 LangChain 理解成“AI 应用的 Spring / Django 式工具箱”:不一定每个项目都必须用,但它定义了很多行业通用说法。
5.2 LlamaIndex
学习内容
- •文档加载
- •索引
- •Query Engine
- •Retrieval
- •Node / Chunk
为什么要学
LlamaIndex 更偏数据和文档索引,适合学习 RAG 的数据管道。
5.3 Workflow
学习内容
- •工作流编排
- •状态流转
- •分支
- •重试
- •人工确认
示例:AI 审批工作流
用户提交报销单 ↓文档识别 Agent 提取金额和发票 ↓规则校验 Tool 检查金额 ↓财务 Agent 判断风险 ↓需要人工确认? ├─ 是:发送审批任务 └─ 否:自动归档
第六阶段:RAG(核心阶段,1~2 个月)
6.1 Embedding
官方事实
OpenAI 官方文档把 embedding 定义为浮点数向量;两个向量之间的距离可衡量文本相关性。常见用途包括搜索、聚类、推荐、异常检测、分类等。
大白话解释
Embedding 就是给文字办一张“语义身份证”。意思相近的文本,身份证号码在向量空间里更接近。
RAG 基本流程图
离线阶段:文档 → 切块 → Embedding → 向量数据库在线阶段:用户问题 → Embedding → 相似度检索 → 取回片段 → 拼进 Prompt → 模型回答
6.2 向量数据库
学习内容
- •Chroma
- •Milvus
- •Qdrant
- •FAISS
- •pgvector
怎么选
| 选择 | 适合场景 |
|---|---|
| Chroma | 本地原型、教学 |
| FAISS | 嵌入式、高性能向量检索库 |
| Milvus | 大规模向量检索服务 |
| Qdrant | 易用、服务化、过滤能力好 |
| pgvector | 已经使用 PostgreSQL 的团队 |
6.3 文档处理
学习内容
- •Chunk
- •Overlap
- •Semantic Chunk
- •Markdown / PDF / Word 解析
- •表格处理
- •元数据
大白话解释
RAG 不是把整个 PDF 塞给模型,而是先把资料切成模型容易使用的小片段。切太大,检索不准;切太小,语义不完整。
示例
原文:一份 80 页制度文档错误切法:每 1000 字硬切,标题和正文断开更好切法:按标题层级切,保留章节路径、页码、来源
6.4 检索优化
学习内容
- •Hybrid Search
- •BM25
- •Rerank
- •Query Rewrite
- •Metadata Filter
- •Answer with citations
大白话解释
向量检索擅长找“意思相近”,BM25 擅长找“关键词精确命中”。企业搜索常常要两者结合。
用户问:“年假结转规则是什么?”向量搜索:找到“休假管理制度”相关片段BM25:精确命中“年假”“结转”Rerank:重新排序,选最可靠片段
6.5 RAG 项目
推荐项目
- •企业知识库
- •PDF 问答
- •AI 客服
- •研发规范问答
- •合同条款检索助手
学习验收
一个合格 RAG 项目要有:
- •文档导入。
- •切块策略。
- •向量化。
- •检索。
- •Rerank 或至少重排策略。
- •引用来源。
- •无答案时拒答。
- •评测集。
第七阶段:Agent(核心方向,1~2 个月)
7.1 Tool Calling
官方事实
OpenAI 官方文档把 Tool Calling 描述为模型访问外部功能和数据的方式。典型流程是:应用把可调用工具发给模型,模型返回工具调用请求,应用执行代码,再把工具结果返回给模型,模型生成最终回答。
大白话解释
模型本身不会真的查数据库。它只是说:“我想调用 get_order_status(order_id=123)”。真正执行函数的是你的程序。
Tool Calling 流程图
用户:查一下订单 123 ↓模型:我要调用 get_order_status({order_id: "123"}) ↓你的后端:执行数据库查询 ↓你的后端:把查询结果交回模型 ↓模型:组织自然语言回答用户
最小工具定义示例
{ "type": "function", "name": "get_order_status", "description": "查询订单当前状态", "parameters": { "type": "object", "properties": { "order_id": { "type": "string", "description": "订单编号" } }, "required": ["order_id"], "additionalProperties": false }, "strict": true}
7.2 Agent Framework
学习内容
- •LangGraph
- •CrewAI
- •AutoGen
- •OpenAI Agents SDK / 各厂商 Agent SDK
大白话解释
Agent 不是“模型变聪明了”,而是你给它搭了一个循环:计划、调用工具、观察结果、继续计划,直到任务完成或需要人类介入。
Plan → Act → Observe → Decide → Act → Observe → Final
7.3 Agent Workflow
学习内容
- •Planner
- •Executor
- •Router
- •Coordinator
- •Human-in-the-loop
- •Guardrails
示例:代码修复 Agent
用户:修复测试失败 ↓Planner:分析失败原因 ↓Executor:读取文件、修改代码 ↓Tool:运行测试 ↓如果失败:继续分析 ↓如果通过:总结修改
7.4 Memory 系统
学习内容
- •Short-term Memory
- •Long-term Memory
- •Vector Memory
- •Profile Memory
- •Episodic Memory
大白话解释
Memory 不是“把所有聊天记录存起来”。真正有用的记忆是经过筛选、结构化、可检索、可更新的。
短期记忆:本次对话里的上下文长期记忆:用户偏好、项目规则、长期事实向量记忆:用语义搜索找相关历史
7.5 Multi-Agent
学习内容
- •多 Agent 协作
- •Agent Routing
- •专家 Agent
- •角色分工
- •结果合并
示例
总控 Agent ├─ 需求分析 Agent ├─ 架构设计 Agent ├─ 代码实现 Agent ├─ 测试 Agent └─ 文档 Agent
第八阶段:MCP(2026 核心技术)
8.1 MCP 是什么
官方事实
Model Context Protocol 官方文档将 MCP 定义为连接 AI 应用与外部系统的开源标准。它让 AI 应用连接数据源、工具和工作流。官方也使用“AI 应用的 USB-C”这个类比。
MCP 最新规范说明:MCP 使用 JSON-RPC 2.0 消息,在 Host、Client、Server 之间通信;Server 可以提供 Resources、Prompts、Tools;Client 侧还可能提供 Sampling、Roots、Elicitation 等能力。
大白话解释
以前每个 AI 应用都要单独接数据库、GitHub、Slack、浏览器。MCP 试图把这些外部能力标准化:只要工具按 MCP Server 暴露,支持 MCP 的客户端就能接入。
MCP 架构图
LLM Host(Claude Desktop / VS Code / Cursor / ChatGPT 等) ↓MCP Client(宿主应用内的连接器) ↓ JSON-RPC 2.0MCP Server(暴露工具、资源、提示词) ├─ Tools:可执行函数 ├─ Resources:可读取上下文/数据 └─ Prompts:可复用提示模板/工作流
8.2 MCP 解决什么问题
旧方式
ChatGPT → MySQL:单独写连接ChatGPT → GitHub:单独写连接ChatGPT → Slack:单独写连接ChatGPT → Notion:单独写连接
MCP 方式
AI 应用 ↓MCP Client ↓多个 MCP Server ├─ MySQL Server ├─ GitHub Server ├─ Slack Server └─ Notion Server
学习重点
MCP 本质上不是替代 Tool Calling,而是把 Tool Calling、资源读取、提示模板等能力做成跨客户端的协议。
8.3 MCP 学习顺序
第一阶段:Tool Calling
必须先懂:
- •Function Calling
- •JSON Schema
- •Tool Registry
- •Structured Output
原因:MCP 的工具能力,本质上仍然需要清晰描述工具名称、参数、返回结果和安全边界。
第二阶段:MCP Server
学习:
- •Server 生命周期
- •Tools
- •Resources
- •Prompts
- •权限与日志
第三阶段:MCP Client
学习:
- •Claude Desktop
- •Cursor
- •VS Code MCP
- •Claude Code
- •ChatGPT / OpenAI ecosystem 中的 MCP 支持
第四阶段:MCP Gateway
学习:
- •权限控制
- •多租户
- •Tool Routing
- •审计日志
- •Agent Memory
企业级 MCP 图
AI Client ↓MCP Gateway ├─ 鉴权 / 授权 ├─ 工具路由 ├─ 审计日志 ├─ 限流 └─ 多租户隔离 ↓ 多个 MCP Server
8.4 MCP 适合谁
| 人群 | 推荐度 | 原因 |
|---|---|---|
| 后端工程师 | 极高 | 工具、API、权限、服务治理都是后端优势 |
| 全栈工程师 | 极高 | 能同时做客户端体验和服务端工具生态 |
| 运维 / 平台 | 高 | MCP Gateway、权限、审计、部署很重要 |
| 算法工程师 | 中 | 除非做 Agent 系统,否则不是第一优先级 |
第九阶段:A2A(Agent2Agent)
9.1 A2A 是什么
官方事实
A2A 官方规范将 Agent2Agent Protocol 定义为开放标准,用于促进独立、可能不透明的 AI Agent 系统之间通信和互操作。它让 Agent 能发现彼此能力、协商交互模态、管理协作任务,并在不暴露内部状态、记忆或工具实现的情况下安全交换信息。
Google 发布 A2A 时强调:A2A 与 MCP 互补;MCP 为 Agent 提供工具和上下文,A2A 让 Agent 彼此协作。
大白话解释
MCP 是 Agent 调工具;A2A 是 Agent 调 Agent。
MCP:Agent → ToolA2A:Agent → Agent
9.2 A2A 和 MCP 的区别
| 协议 | 解决问题 | 典型对象 |
|---|---|---|
| MCP | Agent 如何统一调用工具、资源、提示词 | 数据库、GitHub、浏览器、Slack |
| A2A | Agent 如何与另一个 Agent 通信协作 | 财务 Agent、法务 Agent、HR Agent |
示例
MCP 场景:
AI 助手 → MCP GitHub Server → 查询 PRAI 助手 → MCP Database Server → 查询订单
A2A 场景:
总控 Agent ↓财务 Agent:核对报销规则 ↓法务 Agent:检查合同风险 ↓审批 Agent:发起审批任务
9.3 A2A 核心概念
Agent Card
Agent Card 是 Agent 的“数字名片”,描述身份、能力、技能、服务端点和认证要求。客户端通过它判断这个 Agent 能不能完成任务。
Task
Task 是 A2A 的核心工作单元。任务有状态,例如 submitted、working、completed、failed、canceled、input_required、auth_required 等。
Message / Part / Artifact
- •Message:一次通信。
- •Part:Message 或 Artifact 里的最小内容单元,可以是文本、文件引用、结构化数据。
- •Artifact:任务产物,例如报告、图片、结构化数据。
A2A 任务生命周期图
Client Agent ↓ Send MessageRemote Agent ↓返回 Message 或创建 Task ↓Task: submitted → working → input_required/auth_required? → completed/failed/canceled/rejected ↓输出 Artifact
9.4 A2A 学习顺序
- •Multi-Agent 基础:Planner、Executor、Router、Coordinator。
- •Agent Memory:Shared Memory、Long-term Memory、Vector Memory。
- •Agent Workflow:LangGraph、CrewAI、AutoGen。
- •A2A Protocol:Agent Card、Task、Capability Discovery、Streaming、Async Task。
- •分布式 Agent 系统:Event Bus、Kafka、Redis Streams、Ray。
9.5 当前行业判断
A2A 的方向很重要,但生产普及程度仍在早期演进中。学习时不要只背概念,应该先掌握 Multi-Agent、任务状态、异步通信、权限和可观测性,再看协议细节。
第十阶段:多模态(未来核心)
10.1 Vision
官方事实
OpenAI 文档说明,具备视觉能力的模型可以处理图片输入并分析图像;图片可以通过 URL、Base64 data URL 或文件 ID 传入。视觉模型可理解对象、形状、颜色、纹理和图中文字,但也有局限,例如小字、旋转文本、精确空间定位、计数、专业医疗图像等。
学习内容
- •GPT-4o / GPT-5 系列 Vision
- •Gemini Vision
- •Qwen-VL
- •图片理解
- •OCR
- •图表分析
- •UI 识别
大白话解释
Vision 不是“模型有眼睛”,而是你把图片编码给模型,模型从视觉特征里生成文本理解。它能描述图表、截图、票据,但不应该盲信,特别是计数、坐标、医疗影像和小字。
10.2 OCR 与文档理解
学习内容
- •OCR
- •表格识别
- •PDF 解析
- •版面分析
- •文档结构化
示例
发票图片 ↓OCR 提取文字 ↓结构化模型抽取:金额、日期、税号、购买方、销售方 ↓规则校验 ↓进入报销流程
10.3 Voice
官方事实
OpenAI 音频文档将音频应用拆成音频输入、音频输出、文本转录、文本提示等模态。常见任务包括 speech-to-text、text-to-speech、speech-to-speech、speech translation。实时语音场景通常需要低延迟流式连接。
学习内容
- •Whisper / Speech-to-text
- •TTS
- •Realtime Voice Agent
- •语音打断
- •低延迟交互
大白话解释
语音 Agent 不只是“录音转文字再回答”。好的语音 Agent 要处理实时性、打断、噪音、转写错误、语气和工具调用。
10.4 Video
学习内容
- •Video Caption
- •Frame Sampling
- •Temporal Understanding
- •视频摘要
- •事件检测
大白话解释
视频理解通常不是把每一帧都喂给模型,而是抽关键帧、提字幕、结合时间线,再让模型理解发生了什么。
10.5 GUI Agent / Computer Use
官方事实
OpenAI Computer Use 文档说明:Computer use 让模型通过用户界面操作软件。模型可以查看截图,返回点击、输入、滚动、截图请求等结构化 UI 动作,由你的运行环境执行。官方也强调应使用隔离浏览器或虚拟机,对高风险动作保留人工确认,并把网页、PDF、邮件等第三方内容视为不可信输入。
学习内容
- •Computer Use
- •Browser Use
- •UI Grounding
- •Screenshot Agent
- •Playwright / Selenium
- •安全沙箱
- •人工确认
GUI Agent 循环图
用户目标 ↓模型请求截图 ↓运行环境返回截图 ↓模型输出动作:click / type / scroll / wait ↓运行环境执行动作 ↓再次截图 ↓重复直到完成或需要人类确认
为什么重要
人类使用软件主要靠界面:看屏幕、点按钮、填表格、读 Excel、看监控。未来 Agent 如果不能操作 GUI,就很难覆盖真实办公场景。
0 AI行业迎来前所未有的爆发式增长:从DeepSeek百万年薪招聘AI研究员,到百度、阿里、腾讯等大厂疯狂布局AI Agent,再到国家政策大力扶持数字经济和AI人才培养,所有信号都在告诉我们:AI的黄金十年,真的来了!
在行业火爆之下,AI人才争夺战也日趋白热化,其就业前景一片蓝海!
我给大家准备了一份全套的《AI大模型零基础入门+进阶学习资源包》,包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。😝有需要的小伙伴,可以VX扫描下方二维码免费领取🆓

人才缺口巨大
人力资源社会保障部有关报告显示,据测算,当前,****我国人工智能人才缺口超过500万,****供求比例达1∶10。脉脉最新数据也显示:AI新发岗位量较去年初暴增29倍,超1000家AI企业释放7.2万+岗位……
单拿今年的秋招来说,各互联网大厂释放出来的招聘信息中,我们就能感受到AI浪潮,比如百度90%的技术岗都与AI相关!
就业薪资超高
在旺盛的市场需求下,AI岗位不仅招聘量大,薪资待遇更是“一骑绝尘”。企业为抢AI核心人才,薪资给的非常慷慨,过去一年,懂AI的人才普遍涨薪40%+!
脉脉高聘发布的《2025年度人才迁徙报告》显示,在2025年1月-10月的高薪岗位Top20排行中,AI相关岗位占了绝大多数,并且平均薪资月薪都超过6w!
在去年的秋招中,小红书给算法相关岗位的薪资为50k起,字节开出228万元的超高年薪,据《2025年秋季校园招聘白皮书》,AI算法类平均年薪达36.9万,遥遥领先其他行业!

总结来说,当前人工智能岗位需求多,薪资高,前景好。在职场里,选对赛道就能赢在起跑线。抓住AI风口,轻松实现高薪就业!
但现实却是,仍有很多同学不知道如何抓住AI机遇,会遇到很多就业难题,比如:
❌ 技术过时:只会CRUD的开发者,在AI浪潮中沦为“职场裸奔者”;
❌ 薪资停滞:初级岗位内卷到白菜价,传统开发3年经验薪资涨幅不足15%;
❌ 转型无门:想学AI却找不到系统路径,83%自学党中途放弃。
他们的就业难题解决问题的关键在于:不仅要选对赛道,更要跟对老师!
我给大家准备了一份全套的《AI大模型零基础入门+进阶学习资源包》,包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。😝有需要的小伙伴,可以VX扫描下方二维码免费领取🆓

更多推荐

所有评论(0)