初识AI Agent、RAG和MCP

AI Agent（人工智能代理）是指能够感知环境、自主决策并执行动作以实现特定目标的智能程序或系统。它不仅仅是简单的“自动化工具”，而是具备一定程度的自主性和适应性，甚至能通过学习和交互来优化行为。Copilot 帮你写代码。Siri 帮你自动回复邮件、安排日程。物流仓库中的机器人分拣货物。特斯拉 Autopilot 实时感知周围环境（摄像头+雷达），决策加速、刹车、变道。

weixin_43751710

774人浏览 · 2025-06-06 15:21:48

weixin_43751710 · 2025-06-06 15:21:48 发布

AI Agent

一、什么是AI Agent

AI Agent（人工智能代理）是指能够感知环境、自主决策并执行动作以实现特定目标的智能程序或系统。它不仅仅是简单的“自动化工具”，而是具备一定程度的自主性和适应性，甚至能通过学习和交互来优化行为。

常见应用举例：

Copilot 帮你写代码。
Siri 帮你自动回复邮件、安排日程。
物流仓库中的机器人分拣货物。
特斯拉 Autopilot 实时感知周围环境（摄像头+雷达），决策加速、刹车、变道。

通俗的来讲，AI Agent 就是利用AI来真正执行一些具体、能影响到现实的操作，而不仅仅只是回答问题，给出建议。

它有如下几个特点：

自主完成现实操作：无需人类实时干预，可独立完成任务（如自动回复邮件、调度日程）。
感知现实信息的能力：通过传感器、数据输入或API获取环境信息（如文本、图像、实时数据）。
决策与推理：基于规则、机器学习或大语言模型（如GPT-4）做出判断（例如谈判、路径规划）。
学习与适应：部分Agent能通过反馈改进性能（如推荐系统根据用户行为调整策略）。

二、AI Agent 是怎么影响到现实的呢？

决策完成后，Agent 需要通过物理或数字手段改变现实：

软件操作：

调用邮件服务器的API发送回复（如SMTP协议）。
自动点击图形界面按钮（RPA机器人流程自动化）。

硬件控制：

通过物联网（IoT）协议控制智能设备（如智能插座开关）。
工业机器人执行机械臂动作（如装配零件）。

例子：Agent 通过Python的smtplib库登录邮箱，将生成的回复内容发送给发件人，完成自动回复。

三、AI Agent 的执行流程

在做出最终操作动作之前，AI Agent还有两个步骤：感知环境（输入数据）、做出决策。
在做出最终操作动作之前，AI Agent还会收集执行结果并自我优化。

因此它的执行流程如下：

感知环境：AI Agent 需要先获取现实世界的信息，依赖多种输入方式：文本输入（网页爬虫、邮件API等）；传感器数据（例如温度传感器、摄像头、麦克风）等；API接口调用。
做出决策：Agent 根据输入数据做出判断，具体使用各种 AI 算法，例如机器学习、强化学习等等。
执行动作：通过调用接口发送邮件，或者控制智能设备。
学习优化：收集执行结果（例如用户的反馈）并自我优化，例如如果收件人标记回复为“无用”，Agent 可调整生成策略。

四、AI Agent 具体是如何做出的决策

下面是一个经典的示例，利用Q-learning算法（强化学习）来解决网格世界寻路的问题。

问题描述：
在一个4x4的网格世界中，Agent需要从起点(0,0)移动到终点(3,3)，避开陷阱(1,1)。每走一步得-1分，掉入陷阱得-10分，到达终点得+10分。

网格布局：
S . . .
. T . .
. . . .
. . . G
(S=起点, T=陷阱, G=终点)

做出决策：
通过强化学习算法来训练数据，并最终得到这个问题的决策机制。

五、一个AI Agent只能由一个固定的输入输出，那么针对不同的需求，只能开发不同的AI Agent吗？

是的，每个具体的场景都对应一个 AI Agent。

但是，它的核心框架是通用的。以强化学习（RL）为例，只需针对具体场景调整要素即可。

无论任务如何变化，RL的流程始终遵循：

状态（State）→ 动作（Action）→ 奖励（Reward）→ 新状态

差异仅在于这些要素的具体定义和实现方式。

例如自动回复邮件：

状态（State）：邮件内容 + 发件人历史记录 + 当前工作负载。
动作（Action）：调用API发送模板回复（如选择模板A/B/C）。
奖励（Reward）：用户满意度（如回复后是否被标记为“有用”）、响应速度（越快奖励越高）。

例如自动驾驶：

状态（State）：摄像头图像 + 雷达数据 + GPS位置 + 车速。
动作（Action）：方向盘转角（连续值，如-30°到+30°）；油门/刹车力度（连续值，如0%~100%）。
奖励（Reward）：安全奖励（避免碰撞）；舒适性惩罚（急刹车或急转弯扣分）；效率奖励（按时到达目的地）。

六、算法概念

大语言模型 (Large Language Model, LLM) ：基于海量文本训练的深度学习模型，擅长语言理解和生成。输出：文本。
强化学习 (Reinforcement Learning，RL)：智能体通过与环境交互，根据奖励信号学习最优策略。试错学习是关键特点：通过动作（Action）影响环境状态（State），获得奖励（Reward）。输出：动作序列，例如一连串的游戏动作。
机器学习 (Machine Learning，ML)：定义：通过算法从数据中学习规律，完成预测或决策。关键特点：依赖静态数据集（输入-输出对）。输出：分类结果或者预测值。

七、学习

强化学习（RL）核心概念：马尔可夫决策过程（MDP）、贝尔曼方程、Q-learning、策略梯度。
机器学习基础：监督学习与无监督学习（如分类、聚类）；深度学习（CNN、RNN、Transformer）。

RAG (Retrieval-Augmented Generation - 检索增强生成)

一、什么是RAG？

RAG 的基本思想是：让大语言模型（LLM）在生成答案时，能够动态地从外部知识库中检索相关信息，并基于检索到的内容生成更可靠的回答。

解决的问题：

知识局限性：LLM 的训练数据是静态的，无法获取训练后出现的新知识或私有数据。
幻觉（Hallucination）：LLM 可能生成看似合理但实际错误的内容。
缺乏可解释性：传统 LLM 的回答难以溯源，RAG 可以提供引用来源。

二、RAG 的工作原理

RAG 的流程通常分为 检索（Retrieval） 和 生成（Generation） 两个阶段：

检索：输入用户查询，检索外部知识库（通常是向量数据库），使用**向量检索（Dense Retrieval）或关键词检索（Sparse Retrieval）**从外部知识库中查找与查询最相关的文档片段。返回 Top-K 最相关的文档片段。
生成：将查询和检索到的文档组合成一个增强的提示，大语言模型（如 GPT-4、LLaMA）基于增强提示生成最终答案。模型可以引用检索到的内容，提高可信度。

向量数据库（Vector DB）

在 RAG（检索增强生成）的典型实现中，外部知识通常需要预先处理并存入向量数据库（Vector Database），以便后续高效检索。

为什么 RAG 要用向量数据库？

传统的关键词检索（如 Elasticsearch 的 BM25）依赖于词频匹配，但无法理解语义。而 RAG 的核心需求是：

语义检索：找到与用户查询语义相关的文档（即使没有完全相同的关键词）。
高效检索：快速从海量数据中筛选出最相关的片段。
适配 LLM：检索到的内容要能直接作为 LLM 生成的上下文。

向量数据库的优势：

支持语义搜索：通过 Embedding 模型将文本转换为向量，计算相似度（如余弦相似度）。
高效查询：使用近似最近邻（ANN）算法（如 FAISS、HNSW）加速检索。
灵活扩展：支持动态更新知识库，无需重新训练模型。

如何将外部知识存入向量数据库？

数据预处理：数据来源可以是 PDF、网页、数据库、企业内部文档等。对数据进行分块（Chunking），将长文档拆分为较小的片段（如 256~512 字的段落），以适应 LLM 的上下文窗口。常见分块方法：固定长度分块（Sliding Window）和按语义分块（如用 NLP 模型检测段落边界）。
向量化（Embedding）：使用 Embedding 模型将文本转换为高维向量（如 768 或 1536 维）。可以使用开源模型：BERT、sentence-transformers（如 all-MiniLM-L6-v2）。商业 API有：OpenAI 的 text-embedding-ada-002、Cohere Embed。
存储到向量数据库。