LLM应用开发、RAG、Agent、MCP、A2A、多模态与AI Infra系统工程师进阶学习路线图

python零基础入门小白

457人浏览 · 2026-06-18 21:11:45

python零基础入门小白 · 2026-06-18 21:11:45 发布

适合读者：已经会编程，想系统转向 LLM 应用开发、RAG、Agent、MCP、A2A、多模态和 AI Infra 的程序员。

这份路线不是“名词百科”，而是一条工程学习路径。目标是让你知道：先学什么，为什么学，学到什么程度能做项目，什么时候再进入更难的模型原理、微调和推理优化。

先看总路线

推荐顺序：

Python  ↓FastAPI / Git / Docker  ↓Prompt Engineering  ↓OpenAI API / Claude / Gemini / Qwen 等模型 API  ↓AI ChatBot / AI 总结 / AI 写作助手  ↓LangChain / LlamaIndex / Workflow  ↓RAG  ↓Agent / Tool Calling / Memory / Workflow  ↓MCP  ↓多模态 / GUI Agent / Computer Use  ↓A2A / Multi-Agent / Distributed Agent  ↓PyTorch / LoRA / QLoRA / PEFT  ↓AI Infra / vLLM / Kubernetes / GPU 推理优化

大白话理解：

•Prompt：你学会和模型沟通。
•RAG：你让模型会查企业私有知识。
•Tool Calling：你让模型能调用函数、数据库、API。
•Agent：你让模型能规划、调用工具、观察结果、继续执行。
•MCP：你用标准协议把工具接给模型。
•A2A：你用标准协议让 Agent 和 Agent 协作。
•多模态：你让 Agent 能看图、听音频、读文档、操作屏幕。
•AI Infra：你让模型服务跑得稳、快、省。

为什么按这个顺序学

很多程序员一上来想学 Transformer、PyTorch、微调、CUDA。不是不对，而是投入产出比不高。对多数转型者来说，企业最先需要的是：

•能把模型 API 接进业务系统。
•能做企业知识库、文档问答、客服助手。
•能做 Agent 工作流和工具调用。
•能把 MCP / 多模态 / 权限 / 日志 / 部署做成生产系统。

所以路线应该先就业、后深入：

先就业能力：Prompt + API + RAG + Agent 项目再核心能力：MCP + Workflow + Memory + 多模态再高级能力：A2A + 分布式 Agent + AI Infra再算法能力：PyTorch + 微调 + 模型训练原理

第一阶段：AI 与大模型认知（1 周）

1.1 什么是大模型

学习内容

•GPT / Claude / Gemini / DeepSeek / Qwen / Llama 等模型家族
•Transformer
•Token
•Embedding
•Attention
•Context Window
•Prompt 与 Completion / Response

为什么要学

这一步不是让你推公式，而是让你建立“模型到底在干什么”的基本心智。否则后面看到 Token 成本、上下文长度、RAG、向量数据库、KV Cache，会全部混在一起。

大白话解释

Token 可以理解为模型读写文本时的“最小记账单位”。它不完全等于中文的一个字，也不完全等于英文的一个单词。模型不是按“句子”理解世界，而是把输入拆成 token，再预测下一个 token。

Embedding 是把文字变成一串数字。比如“猫”和“猫咪”变成的向量距离会比较近，“猫”和“挖掘机”的距离通常会远一些。RAG 的语义搜索就靠这个。

Context Window 是模型一次能看到的上下文窗口。它像会议桌：桌子越大，能摊开的资料越多；但桌子再大，也不能无限堆资料，而且堆太多会变贵、变慢、变乱。

原理图

用户问题  ↓拆成 Token  ↓模型基于上下文预测下一个 Token  ↓不断生成 Token  ↓形成答案

最小示例

如果你输入：

请把“用户登录失败”改写成更正式的错误提示。

模型不是“真的理解”你公司的登录系统，而是根据训练中学到的语言规律和当前上下文，生成类似：

登录失败，请检查账号、密码或验证码后重试。

学习验收

你应该能解释清楚：

•Token 为什么会影响成本？
•Embedding 为什么能做搜索？
•Context Window 为什么不是越大越好？
•大模型为什么会一本正经地编错内容？

1.2 当前主流模型生态

学习内容

•OpenAI GPT 系列
•Anthropic Claude 系列
•Google Gemini 系列
•DeepSeek
•Qwen
•Llama
•开源模型与闭源模型的差异

为什么要学

AI 工程师不是只会调一个模型，而是要知道不同模型的适用场景：

•闭源 API：上手快、能力强、维护成本低。
•开源模型：可私有化、可定制、对合规更友好，但运维成本更高。

示例：如何选模型

场景	更常见选择	原因
快速做原型	闭源 API	少踩部署坑，先验证产品
企业知识库	API + RAG 或私有模型 + RAG	看数据合规要求
内网代码助手	私有化模型 / 企业版服务	代码和数据不能外泄
高并发客服	小模型 + RAG + 缓存	成本更重要
多模态理解	GPT-4o/GPT-5 系列、Gemini、Qwen-VL 等	视觉能力更关键

注意

模型生态变化很快。学习时不要死背型号，要掌握评估方法：准确率、延迟、成本、上下文长度、工具调用能力、多模态能力、合规与部署方式。

1.3 AI 行业岗位方向

学习内容

•LLM 应用开发工程师
•RAG 工程师
•Agent 工程师
•AI Infra 工程师
•大模型算法 / 微调工程师

大白话解释

•LLM 应用工程师：把模型接到产品里。
•RAG 工程师：让模型会查公司文档。
•Agent 工程师：让模型会调用工具、执行任务。
•AI Infra 工程师：让模型服务稳定、可观测、可扩展。
•算法 / 微调工程师：训练或定制模型。

第二阶段：Python 与工程基础（2～4 周）

2.1 Python 基础

学习内容

•函数、类、模块
•async / await
•requests / httpx
•typing / pydantic
•json
•文件读写
•环境变量

为什么要学

AI 生态大量工具都优先支持 Python，例如 LangChain、LlamaIndex、FastAPI、PyTorch、Transformers、向量数据库 SDK 等。

最小示例：读取环境变量并请求 API

import osimport httpxapi_key = os.getenv("OPENAI_API_KEY")async def call_api():    async with httpx.AsyncClient(timeout=30) as client:        response = await client.get(            "https://api.example.com/health",            headers={"Authorization": f"Bearer {api_key}"},        )        return response.json()

大白话解释

AI 应用本质上仍然是后端工程：接收请求、调用模型、处理工具、保存状态、返回结果。Python 只是这个生态里最顺手的胶水语言。

2.2 FastAPI

学习内容

•REST API
•路由
•Pydantic 数据模型
•Streaming / SSE
•文件上传
•中间件

为什么要学

很多 AI 产品都需要把模型能力封装成服务：前端传问题，后端调用模型，模型边生成边返回给前端。

最小示例：AI 服务接口骨架

from fastapi import FastAPIfrom pydantic import BaseModelapp = FastAPI()class ChatRequest(BaseModel):    message: str@app.post("/chat")async def chat(req: ChatRequest):    return {"answer": f"收到：{req.message}"}

学习验收

你能完成：

•一个 /chat 接口。
•一个 /upload 文件上传接口。
•一个 SSE 流式输出接口。
•用 Docker 启动服务。

2.3 Git / GitHub

学习内容

•branch
•commit
•PR
•code review
•README
•issue

为什么要学

AI 项目同样是软件项目。没有 Git 协作能力，后续做 Agent 工程、RAG 项目、模型服务都会很难维护。

学习验收

你应该能维护一个作品集仓库，包括：

•清晰 README。
•安装步骤。
•环境变量说明。
•示例截图。
•架构图。

2.4 Linux / Docker

学习内容

•Linux 基础命令
•Dockerfile
•docker-compose
•日志查看
•端口映射
•镜像构建

为什么要学

AI 应用最终要部署。模型 API、向量数据库、Redis、Postgres、任务队列，经常需要容器化编排。

示例架构

Browser  ↓FastAPI AI Server  ↓        ↓LLM API   Vector DB  ↓        ↓Logs     Redis / Postgres

第三阶段：Prompt Engineering（1～2 周）

3.1 Prompt 基础

学习内容

•Role Prompt
•Few-shot
•Chain-of-Thought 的使用边界
•ReAct 思想
•约束输出
•错误示例与反例

为什么要学

Prompt 是 AI 应用的第一层控制面。虽然 2026 年以后“只会 Prompt”不够，但不会 Prompt，后面的 RAG、Agent、工具调用都很难做好。

大白话解释

Prompt 不是“玄学咒语”，更像给实习生写任务说明：背景、目标、输入、输出格式、限制、例子、验收标准越清楚，结果越稳定。

示例：差 Prompt 与好 Prompt

差 Prompt：

帮我总结一下。

好 Prompt：

你是资深技术编辑。请把下面材料总结成面向后端工程师的学习笔记。要求：1. 先给 5 条结论。2. 再按“背景、核心概念、工程实践、常见误区”组织。3. 不要编造材料中没有的信息。4. 如果信息不足，请标注“资料未提供”。

3.2 Structured Output

学习内容

•JSON 输出
•JSON Schema
•Pydantic / Zod
•结构化解析
•错误处理与重试

官方事实

OpenAI 官方文档说明：Structured Outputs 可以让模型输出遵循你提供的 JSON Schema；JSON mode 只保证有效 JSON，不保证符合具体 schema。能用 Structured Outputs 时优先使用它。

大白话解释

普通回答像一段话，程序很难稳定读取；结构化输出像表单，每个字段都有名字和类型，后端才能放心处理。

示例：需求提取 Schema

{  "type": "object",  "properties": {    "feature": { "type": "string" },    "user_role": { "type": "string" },    "acceptance_criteria": {      "type": "array",      "items": { "type": "string" }    }  },  "required": ["feature", "user_role", "acceptance_criteria"],  "additionalProperties": false}

学习验收

你能把一段用户需求解析成稳定 JSON，并在字段缺失时让程序报错或重试。

3.3 OpenAI API / 模型 API

学习内容

•Chat / Responses API
•Streaming
•Tool Calling
•图片输入
•音频输入输出
•错误处理
•速率限制

最小工程图

Frontend  ↓ HTTPBackend  ↓ Model APILLM  ↓ stream tokensBackend  ↓ SSE/WebSocketFrontend

第四阶段：AI 应用开发（2～3 周）

4.1 AI ChatBot

学习内容

•对话历史
•上下文裁剪
•用户会话
•系统提示词
•安全与拒答

大白话解释

ChatBot 不是把所有历史一股脑塞给模型。你需要决定：哪些历史重要、哪些可以摘要、哪些必须丢弃。

示例：上下文管理

用户第 1 轮：介绍项目背景用户第 2 轮：提出问题用户第 3 轮：补充约束发送给模型时：- 保留当前问题- 保留关键约束- 摘要早期背景- 丢弃寒暄和重复内容

4.2 AI Web 应用

学习内容

•前后端联调
•SSE / WebSocket
•Token Streaming
•取消生成
•重试
•用户反馈

示例：为什么需要流式输出

如果一次性等模型生成完再返回，用户可能等 20 秒。流式输出可以让用户 1 秒内看到第一个字，体验差别巨大。

非流式：用户等待 → 等待 → 等待 → 一次性显示流式：用户等待 → 逐字/逐段显示 → 可随时停止

4.3 项目实践

初级项目

•AI 翻译
•AI 总结
•AI 写作助手
•会议纪要生成器

学习验收

每个项目至少包含：

•后端 API。
•前端页面。
•模型调用。
•错误处理。
•README。
•部署方式。

第五阶段：LangChain 与 AI 框架（2～3 周）

5.1 LangChain

学习内容

•PromptTemplate
•Chain
•Tool
•Memory
•Callback / Streaming

为什么要学

LangChain 把 Prompt、模型、工具、检索、Agent 组织成可复用组件。它不是必须，但能帮你理解 AI 应用工程的通用抽象。

大白话解释

你可以把 LangChain 理解成“AI 应用的 Spring / Django 式工具箱”：不一定每个项目都必须用，但它定义了很多行业通用说法。

5.2 LlamaIndex

学习内容

•文档加载
•索引
•Query Engine
•Retrieval
•Node / Chunk

为什么要学

LlamaIndex 更偏数据和文档索引，适合学习 RAG 的数据管道。

5.3 Workflow

学习内容

•工作流编排
•状态流转
•分支
•重试
•人工确认

示例：AI 审批工作流

用户提交报销单  ↓文档识别 Agent 提取金额和发票  ↓规则校验 Tool 检查金额  ↓财务 Agent 判断风险  ↓需要人工确认？  ├─ 是：发送审批任务  └─ 否：自动归档

第六阶段：RAG（核心阶段，1～2 个月）

6.1 Embedding

官方事实

OpenAI 官方文档把 embedding 定义为浮点数向量；两个向量之间的距离可衡量文本相关性。常见用途包括搜索、聚类、推荐、异常检测、分类等。

大白话解释

Embedding 就是给文字办一张“语义身份证”。意思相近的文本，身份证号码在向量空间里更接近。

RAG 基本流程图

离线阶段：文档 → 切块 → Embedding → 向量数据库在线阶段：用户问题 → Embedding → 相似度检索 → 取回片段 → 拼进 Prompt → 模型回答

6.2 向量数据库

学习内容

•Chroma
•Milvus
•Qdrant
•FAISS
•pgvector

怎么选

选择	适合场景
Chroma	本地原型、教学
FAISS	嵌入式、高性能向量检索库
Milvus	大规模向量检索服务
Qdrant	易用、服务化、过滤能力好
pgvector	已经使用 PostgreSQL 的团队

6.3 文档处理

学习内容

•Chunk
•Overlap
•Semantic Chunk
•Markdown / PDF / Word 解析
•表格处理
•元数据

大白话解释

RAG 不是把整个 PDF 塞给模型，而是先把资料切成模型容易使用的小片段。切太大，检索不准；切太小，语义不完整。

示例

原文：一份 80 页制度文档错误切法：每 1000 字硬切，标题和正文断开更好切法：按标题层级切，保留章节路径、页码、来源

6.4 检索优化

学习内容

•Hybrid Search
•BM25
•Rerank
•Query Rewrite
•Metadata Filter
•Answer with citations

大白话解释

向量检索擅长找“意思相近”，BM25 擅长找“关键词精确命中”。企业搜索常常要两者结合。

用户问：“年假结转规则是什么？”向量搜索：找到“休假管理制度”相关片段BM25：精确命中“年假”“结转”Rerank：重新排序，选最可靠片段

6.5 RAG 项目

学习验收

一个合格 RAG 项目要有：

•文档导入。
•切块策略。
•向量化。
•检索。
•Rerank 或至少重排策略。
•引用来源。
•无答案时拒答。
•评测集。

第七阶段：Agent（核心方向，1～2 个月）

7.1 Tool Calling

官方事实

OpenAI 官方文档把 Tool Calling 描述为模型访问外部功能和数据的方式。典型流程是：应用把可调用工具发给模型，模型返回工具调用请求，应用执行代码，再把工具结果返回给模型，模型生成最终回答。

大白话解释

模型本身不会真的查数据库。它只是说：“我想调用 get_order_status(order_id=123)”。真正执行函数的是你的程序。

Tool Calling 流程图

用户：查一下订单 123  ↓模型：我要调用 get_order_status({order_id: "123"})  ↓你的后端：执行数据库查询  ↓你的后端：把查询结果交回模型  ↓模型：组织自然语言回答用户

最小工具定义示例

{  "type": "function",  "name": "get_order_status",  "description": "查询订单当前状态",  "parameters": {    "type": "object",    "properties": {      "order_id": {        "type": "string",        "description": "订单编号"      }    },    "required": ["order_id"],    "additionalProperties": false  },  "strict": true}

7.2 Agent Framework

学习内容

•LangGraph
•CrewAI
•AutoGen
•OpenAI Agents SDK / 各厂商 Agent SDK

大白话解释

Agent 不是“模型变聪明了”，而是你给它搭了一个循环：计划、调用工具、观察结果、继续计划，直到任务完成或需要人类介入。

Plan → Act → Observe → Decide → Act → Observe → Final

7.3 Agent Workflow

学习内容

•Planner
•Executor
•Router
•Coordinator
•Human-in-the-loop
•Guardrails

示例：代码修复 Agent

用户：修复测试失败  ↓Planner：分析失败原因  ↓Executor：读取文件、修改代码  ↓Tool：运行测试  ↓如果失败：继续分析  ↓如果通过：总结修改

7.4 Memory 系统

学习内容

•Short-term Memory
•Long-term Memory
•Vector Memory
•Profile Memory
•Episodic Memory

大白话解释

Memory 不是“把所有聊天记录存起来”。真正有用的记忆是经过筛选、结构化、可检索、可更新的。

短期记忆：本次对话里的上下文长期记忆：用户偏好、项目规则、长期事实向量记忆：用语义搜索找相关历史

7.5 Multi-Agent

学习内容

•多 Agent 协作
•Agent Routing
•专家 Agent
•角色分工
•结果合并

示例

总控 Agent  ├─ 需求分析 Agent  ├─ 架构设计 Agent  ├─ 代码实现 Agent  ├─ 测试 Agent  └─ 文档 Agent

第八阶段：MCP（2026 核心技术）

8.1 MCP 是什么

官方事实

Model Context Protocol 官方文档将 MCP 定义为连接 AI 应用与外部系统的开源标准。它让 AI 应用连接数据源、工具和工作流。官方也使用“AI 应用的 USB-C”这个类比。

MCP 最新规范说明：MCP 使用 JSON-RPC 2.0 消息，在 Host、Client、Server 之间通信；Server 可以提供 Resources、Prompts、Tools；Client 侧还可能提供 Sampling、Roots、Elicitation 等能力。

大白话解释

以前每个 AI 应用都要单独接数据库、GitHub、Slack、浏览器。MCP 试图把这些外部能力标准化：只要工具按 MCP Server 暴露，支持 MCP 的客户端就能接入。

MCP 架构图

LLM Host（Claude Desktop / VS Code / Cursor / ChatGPT 等）  ↓MCP Client（宿主应用内的连接器）  ↓ JSON-RPC 2.0MCP Server（暴露工具、资源、提示词）  ├─ Tools：可执行函数  ├─ Resources：可读取上下文/数据  └─ Prompts：可复用提示模板/工作流

8.2 MCP 解决什么问题

旧方式

ChatGPT → MySQL：单独写连接ChatGPT → GitHub：单独写连接ChatGPT → Slack：单独写连接ChatGPT → Notion：单独写连接

MCP 方式

AI 应用  ↓MCP Client  ↓多个 MCP Server  ├─ MySQL Server  ├─ GitHub Server  ├─ Slack Server  └─ Notion Server

学习重点

MCP 本质上不是替代 Tool Calling，而是把 Tool Calling、资源读取、提示模板等能力做成跨客户端的协议。

8.3 MCP 学习顺序

第一阶段：Tool Calling

必须先懂：

•Function Calling
•JSON Schema
•Tool Registry
•Structured Output

原因：MCP 的工具能力，本质上仍然需要清晰描述工具名称、参数、返回结果和安全边界。

第二阶段：MCP Server

学习：

•Server 生命周期
•Tools
•Resources
•Prompts
•权限与日志

第三阶段：MCP Client

学习：

•Claude Desktop
•Cursor
•VS Code MCP
•Claude Code
•ChatGPT / OpenAI ecosystem 中的 MCP 支持

第四阶段：MCP Gateway

学习：

•权限控制
•多租户
•Tool Routing
•审计日志
•Agent Memory

企业级 MCP 图

AI Client  ↓MCP Gateway  ├─ 鉴权 / 授权  ├─ 工具路由  ├─ 审计日志  ├─ 限流  └─ 多租户隔离      ↓  多个 MCP Server

8.4 MCP 适合谁

人群	推荐度	原因
后端工程师	极高	工具、API、权限、服务治理都是后端优势
全栈工程师	极高	能同时做客户端体验和服务端工具生态
运维 / 平台	高	MCP Gateway、权限、审计、部署很重要
算法工程师	中	除非做 Agent 系统，否则不是第一优先级

第九阶段：A2A（Agent2Agent）

9.1 A2A 是什么

官方事实

A2A 官方规范将 Agent2Agent Protocol 定义为开放标准，用于促进独立、可能不透明的 AI Agent 系统之间通信和互操作。它让 Agent 能发现彼此能力、协商交互模态、管理协作任务，并在不暴露内部状态、记忆或工具实现的情况下安全交换信息。

Google 发布 A2A 时强调：A2A 与 MCP 互补；MCP 为 Agent 提供工具和上下文，A2A 让 Agent 彼此协作。

大白话解释

MCP 是 Agent 调工具；A2A 是 Agent 调 Agent。

MCP：Agent → ToolA2A：Agent → Agent

9.2 A2A 和 MCP 的区别

协议	解决问题	典型对象
MCP	Agent 如何统一调用工具、资源、提示词	数据库、GitHub、浏览器、Slack
A2A	Agent 如何与另一个 Agent 通信协作	财务 Agent、法务 Agent、HR Agent

示例

MCP 场景：

AI 助手 → MCP GitHub Server → 查询 PRAI 助手 → MCP Database Server → 查询订单

A2A 场景：

总控 Agent  ↓财务 Agent：核对报销规则  ↓法务 Agent：检查合同风险  ↓审批 Agent：发起审批任务

9.3 A2A 核心概念

Agent Card

Agent Card 是 Agent 的“数字名片”，描述身份、能力、技能、服务端点和认证要求。客户端通过它判断这个 Agent 能不能完成任务。

Task

Task 是 A2A 的核心工作单元。任务有状态，例如 submitted、working、completed、failed、canceled、input_required、auth_required 等。

Message / Part / Artifact

•Message：一次通信。
•Part：Message 或 Artifact 里的最小内容单元，可以是文本、文件引用、结构化数据。
•Artifact：任务产物，例如报告、图片、结构化数据。

A2A 任务生命周期图

Client Agent  ↓ Send MessageRemote Agent  ↓返回 Message 或创建 Task  ↓Task: submitted → working → input_required/auth_required? → completed/failed/canceled/rejected  ↓输出 Artifact

9.4 A2A 学习顺序

•Multi-Agent 基础：Planner、Executor、Router、Coordinator。
•Agent Memory：Shared Memory、Long-term Memory、Vector Memory。
•Agent Workflow：LangGraph、CrewAI、AutoGen。
•A2A Protocol：Agent Card、Task、Capability Discovery、Streaming、Async Task。
•分布式 Agent 系统：Event Bus、Kafka、Redis Streams、Ray。

9.5 当前行业判断

A2A 的方向很重要，但生产普及程度仍在早期演进中。学习时不要只背概念，应该先掌握 Multi-Agent、任务状态、异步通信、权限和可观测性，再看协议细节。

第十阶段：多模态（未来核心）

10.1 Vision

官方事实

OpenAI 文档说明，具备视觉能力的模型可以处理图片输入并分析图像；图片可以通过 URL、Base64 data URL 或文件 ID 传入。视觉模型可理解对象、形状、颜色、纹理和图中文字，但也有局限，例如小字、旋转文本、精确空间定位、计数、专业医疗图像等。

学习内容

•GPT-4o / GPT-5 系列 Vision
•Gemini Vision
•Qwen-VL
•图片理解
•OCR
•图表分析
•UI 识别

大白话解释

Vision 不是“模型有眼睛”，而是你把图片编码给模型，模型从视觉特征里生成文本理解。它能描述图表、截图、票据，但不应该盲信，特别是计数、坐标、医疗影像和小字。

10.2 OCR 与文档理解

学习内容

•OCR
•表格识别
•PDF 解析
•版面分析
•文档结构化

示例

发票图片  ↓OCR 提取文字  ↓结构化模型抽取：金额、日期、税号、购买方、销售方  ↓规则校验  ↓进入报销流程

10.3 Voice

官方事实

OpenAI 音频文档将音频应用拆成音频输入、音频输出、文本转录、文本提示等模态。常见任务包括 speech-to-text、text-to-speech、speech-to-speech、speech translation。实时语音场景通常需要低延迟流式连接。

学习内容

•Whisper / Speech-to-text
•TTS
•Realtime Voice Agent
•语音打断
•低延迟交互

大白话解释

语音 Agent 不只是“录音转文字再回答”。好的语音 Agent 要处理实时性、打断、噪音、转写错误、语气和工具调用。

10.4 Video

学习内容

•Video Caption
•Frame Sampling
•Temporal Understanding
•视频摘要
•事件检测

大白话解释

视频理解通常不是把每一帧都喂给模型，而是抽关键帧、提字幕、结合时间线，再让模型理解发生了什么。

10.5 GUI Agent / Computer Use

官方事实

OpenAI Computer Use 文档说明：Computer use 让模型通过用户界面操作软件。模型可以查看截图，返回点击、输入、滚动、截图请求等结构化 UI 动作，由你的运行环境执行。官方也强调应使用隔离浏览器或虚拟机，对高风险动作保留人工确认，并把网页、PDF、邮件等第三方内容视为不可信输入。

学习内容

•Computer Use
•Browser Use
•UI Grounding
•Screenshot Agent
•Playwright / Selenium
•安全沙箱
•人工确认

GUI Agent 循环图

用户目标  ↓模型请求截图  ↓运行环境返回截图  ↓模型输出动作：click / type / scroll / wait  ↓运行环境执行动作  ↓再次截图  ↓重复直到完成或需要人类确认

为什么重要

人类使用软件主要靠界面：看屏幕、点按钮、填表格、读 Excel、看监控。未来 Agent 如果不能操作 GUI，就很难覆盖真实办公场景。

0 AI行业迎来前所未有的爆发式增长：从DeepSeek百万年薪招聘AI研究员，到百度、阿里、腾讯等大厂疯狂布局AI Agent，再到国家政策大力扶持数字经济和AI人才培养，所有信号都在告诉我们：AI的黄金十年，真的来了！

在行业火爆之下，AI人才争夺战也日趋白热化，其就业前景一片蓝海！

我给大家准备了一份全套的《AI大模型零基础入门+进阶学习资源包》，包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。😝有需要的小伙伴，可以VＸ扫描下方二维码免费领取🆓

在这里插入图片描述

人才缺口巨大

人力资源社会保障部有关报告显示，据测算，当前，****我国人工智能人才缺口超过500万，****供求比例达1∶10。脉脉最新数据也显示：AI新发岗位量较去年初暴增29倍，超1000家AI企业释放7.2万+岗位……

单拿今年的秋招来说，各互联网大厂释放出来的招聘信息中，我们就能感受到AI浪潮，比如百度90%的技术岗都与AI相关！

就业薪资超高

在旺盛的市场需求下，AI岗位不仅招聘量大，薪资待遇更是“一骑绝尘”。企业为抢AI核心人才，薪资给的非常慷慨，过去一年，懂AI的人才普遍涨薪40%+！

脉脉高聘发布的《2025年度人才迁徙报告》显示，在2025年1月-10月的高薪岗位Top20排行中，AI相关岗位占了绝大多数，并且平均薪资月薪都超过6w！

在去年的秋招中，小红书给算法相关岗位的薪资为50k起，字节开出228万元的超高年薪，据《2025年秋季校园招聘白皮书》，AI算法类平均年薪达36.9万，遥遥领先其他行业！

总结来说，当前人工智能岗位需求多，薪资高，前景好。在职场里，选对赛道就能赢在起跑线。抓住AI风口，轻松实现高薪就业！

但现实却是，仍有很多同学不知道如何抓住AI机遇，会遇到很多就业难题，比如：

❌ 技术过时：只会CRUD的开发者，在AI浪潮中沦为“职场裸奔者”；

❌ 薪资停滞：初级岗位内卷到白菜价，传统开发3年经验薪资涨幅不足15%；

❌ 转型无门：想学AI却找不到系统路径，83%自学党中途放弃。

他们的就业难题解决问题的关键在于：不仅要选对赛道，更要跟对老师！

在这里插入图片描述

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

Cursor太贵？我把MonkeyCode部署到服务器后，整个团队都能用AI编程了

DeepSeek技术社区

ChatGPT Codex 是什么?订阅里白送的 AI 编程工具怎么用

纯技术角度:Codex 是什么、含在订阅里不用单独花钱、怎么装怎么用,以及一个最常见的坑。

DeepSeek技术社区

【训练与微调篇05】RLHF/DPO/GRPO：大模型人类偏好对齐技术深度解析

摘要：本文深入解析了大模型人类偏好对齐技术（RLHF/DPO/GRPO）的演进与实现。对齐（Alignment）旨在让模型满足有益、诚实、无害三要素，通过三阶段（SFT、奖励建模、强化学习）实现。传统RLHF依赖PPO优化策略，但训练复杂；DPO省去奖励模型，直接优化偏好；2024年DeepSeek R1提出的GRPO通过群体策略优化成为开源首选。2026年ICML提出的SelectiveRM利

DeepSeek技术社区

所有评论(0)

查看更多评论

python零基础入门小白

@2301_80239908

已为社区贡献20条内容

LLM应用开发、RAG、Agent、MCP、A2A、多模态与AI Infra系统工程师进阶学习路线图

python零基础入门小白

先看总路线

为什么按这个顺序学

第一阶段：AI 与大模型认知（1 周）

1.1 什么是大模型

学习内容

为什么要学

大白话解释

原理图

最小示例

学习验收

1.2 当前主流模型生态

学习内容

为什么要学

示例：如何选模型

注意

1.3 AI 行业岗位方向

学习内容

大白话解释

推荐定位

第二阶段：Python 与工程基础（2～4 周）

2.1 Python 基础

学习内容

为什么要学

最小示例：读取环境变量并请求 API

大白话解释

2.2 FastAPI

学习内容

为什么要学

最小示例：AI 服务接口骨架

学习验收

2.3 Git / GitHub

学习内容

为什么要学

学习验收

2.4 Linux / Docker

学习内容

为什么要学

示例架构

第三阶段：Prompt Engineering（1～2 周）

3.1 Prompt 基础

学习内容

为什么要学

大白话解释

示例：差 Prompt 与好 Prompt

3.2 Structured Output

学习内容

官方事实

大白话解释

示例：需求提取 Schema

学习验收

3.3 OpenAI API / 模型 API

学习内容

最小工程图

第四阶段：AI 应用开发（2～3 周）

4.1 AI ChatBot

学习内容

大白话解释

示例：上下文管理

4.2 AI Web 应用

学习内容

示例：为什么需要流式输出

4.3 项目实践

初级项目

学习验收

第五阶段：LangChain 与 AI 框架（2～3 周）

5.1 LangChain

学习内容

为什么要学

大白话解释

5.2 LlamaIndex

学习内容

为什么要学

5.3 Workflow

学习内容

示例：AI 审批工作流

第六阶段：RAG（核心阶段，1～2 个月）

6.1 Embedding

官方事实