AI Agent

一、什么是AI Agent

AI Agent(人工智能代理) 是指能够感知环境、自主决策并执行动作以实现特定目标的智能程序或系统。它不仅仅是简单的“自动化工具”,而是具备一定程度的自主性和适应性,甚至能通过学习和交互来优化行为。

常见应用举例:

  1. Copilot 帮你写代码。
  2. Siri 帮你自动回复邮件、安排日程。
  3. 物流仓库中的机器人分拣货物。
  4. 特斯拉 Autopilot 实时感知周围环境(摄像头+雷达),决策加速、刹车、变道。
通俗的来讲,AI Agent 就是利用AI来真正执行一些具体、能影响到现实的操作,而不仅仅只是回答问题,给出建议。

它有如下几个特点:

  1. 自主完成现实操作:无需人类实时干预,可独立完成任务(如自动回复邮件、调度日程)。
  2. 感知现实信息的能力:通过传感器、数据输入或API获取环境信息(如文本、图像、实时数据)。
  3. 决策与推理:基于规则、机器学习或大语言模型(如GPT-4)做出判断(例如谈判、路径规划)。
  4. 学习与适应:部分Agent能通过反馈改进性能(如推荐系统根据用户行为调整策略)。

二、AI Agent 是怎么影响到现实的呢?

决策完成后,Agent 需要通过物理或数字手段改变现实:

软件操作:

  1. 调用邮件服务器的API发送回复(如SMTP协议)。
  2. 自动点击图形界面按钮(RPA机器人流程自动化)。

硬件控制:

  1. 通过物联网(IoT)协议控制智能设备(如智能插座开关)。
  2. 工业机器人执行机械臂动作(如装配零件)。

例子:Agent 通过Python的smtplib库登录邮箱,将生成的回复内容发送给发件人,完成自动回复。

三、AI Agent 的执行流程

在做出最终操作动作之前,AI Agent还有两个步骤:感知环境(输入数据)、做出决策。
在做出最终操作动作之前,AI Agent还会收集执行结果并自我优化。

因此它的执行流程如下:

  1. 感知环境:AI Agent 需要先获取现实世界的信息,依赖多种输入方式:文本输入(网页爬虫、邮件API等);传感器数据(例如温度传感器、摄像头、麦克风)等;API接口调用。
  2. 做出决策:Agent 根据输入数据做出判断,具体使用各种 AI 算法,例如机器学习、强化学习等等。
  3. 执行动作:通过调用接口发送邮件,或者控制智能设备。
  4. 学习优化:收集执行结果(例如用户的反馈)并自我优化,例如如果收件人标记回复为“无用”,Agent 可调整生成策略。

四、AI Agent 具体是如何做出的决策

下面是一个经典的示例,利用Q-learning算法(强化学习)来解决 网格世界寻路 的问题。

问题描述:
在一个4x4的网格世界中,Agent需要从起点(0,0)移动到终点(3,3),避开陷阱(1,1)。每走一步得-1分,掉入陷阱得-10分,到达终点得+10分。

网格布局:
S . . .
. T . .
. . . .
. . . G
(S=起点, T=陷阱, G=终点)

做出决策:
通过强化学习算法来训练数据,并最终得到这个问题的决策机制。

五、一个AI Agent只能由一个固定的输入输出,那么针对不同的需求,只能开发不同的AI Agent吗?

是的,每个具体的场景都对应一个 AI Agent。

但是,它的核心框架是通用的。以强化学习(RL)为例,只需针对具体场景调整要素即可。

无论任务如何变化,RL的流程始终遵循:

状态(State)→ 动作(Action)→ 奖励(Reward)→ 新状态

差异仅在于这些要素的具体定义和实现方式。

例如自动回复邮件:

  • 状态(State):邮件内容 + 发件人历史记录 + 当前工作负载。
  • 动作(Action):调用API发送模板回复(如选择模板A/B/C)。
  • 奖励(Reward):用户满意度(如回复后是否被标记为“有用”)、响应速度(越快奖励越高)。

例如自动驾驶:

  • 状态(State):摄像头图像 + 雷达数据 + GPS位置 + 车速。
  • 动作(Action):方向盘转角(连续值,如-30°到+30°);油门/刹车力度(连续值,如0%~100%)。
  • 奖励(Reward):安全奖励(避免碰撞);舒适性惩罚(急刹车或急转弯扣分);效率奖励(按时到达目的地)。

六、算法概念

  1. 大语言模型 (Large Language Model, LLM) :基于海量文本训练的深度学习模型,擅长语言理解和生成。输出:文本。
  2. 强化学习 (Reinforcement Learning,RL):智能体通过与环境交互,根据奖励信号学习最优策略。试错学习是关键特点:通过动作(Action)影响环境状态(State),获得奖励(Reward)。输出:动作序列,例如一连串的游戏动作。
  3. 机器学习 (Machine Learning,ML):定义:通过算法从数据中学习规律,完成预测或决策。关键特点:依赖 静态数据集(输入-输出对)。输出:分类结果或者预测值。

七、学习

  1. 强化学习(RL)核心概念:马尔可夫决策过程(MDP)、贝尔曼方程、Q-learning、策略梯度。
  2. 机器学习基础:监督学习与无监督学习(如分类、聚类);深度学习(CNN、RNN、Transformer)。

RAG (Retrieval-Augmented Generation - 检索增强生成)

一、什么是RAG?

RAG 的基本思想是:让大语言模型(LLM)在生成答案时,能够动态地从外部知识库中检索相关信息,并基于检索到的内容生成更可靠的回答

解决的问题:

  1. 知识局限性:LLM 的训练数据是静态的,无法获取训练后出现的新知识或私有数据。
  2. 幻觉(Hallucination):LLM 可能生成看似合理但实际错误的内容。
  3. 缺乏可解释性:传统 LLM 的回答难以溯源,RAG 可以提供引用来源。

二、RAG 的工作原理

RAG 的流程通常分为 检索(Retrieval)生成(Generation) 两个阶段:

  1. 检索:输入用户查询,检索外部知识库(通常是向量数据库),使用**向量检索(Dense Retrieval)关键词检索(Sparse Retrieval)**从外部知识库中查找与查询最相关的文档片段。返回 Top-K 最相关的文档片段。
  2. 生成:将查询和检索到的文档组合成一个增强的提示,大语言模型(如 GPT-4、LLaMA)基于增强提示生成最终答案。模型可以引用检索到的内容,提高可信度。

向量数据库(Vector DB)

在 RAG(检索增强生成) 的典型实现中,外部知识通常需要预先处理存入向量数据库(Vector Database),以便后续高效检索。

为什么 RAG 要用向量数据库?

传统的关键词检索(如 Elasticsearch 的 BM25依赖于词频匹配,但无法理解语义。而 RAG 的核心需求是:

  1. 语义检索:找到与用户查询语义相关的文档(即使没有完全相同的关键词)。
  2. 高效检索:快速从海量数据中筛选出最相关的片段。
  3. 适配 LLM:检索到的内容要能直接作为 LLM 生成的上下文。

向量数据库的优势:

  1. 支持语义搜索:通过 Embedding 模型将文本转换为向量,计算相似度(如余弦相似度)。
  2. 高效查询:使用近似最近邻(ANN)算法(如 FAISS、HNSW)加速检索。
  3. 灵活扩展:支持动态更新知识库,无需重新训练模型。

如何将外部知识存入向量数据库?

  1. 数据预处理:数据来源可以是 PDF、网页、数据库、企业内部文档等。对数据进行分块(Chunking),将长文档拆分为较小的片段(如 256~512 字的段落),以适应 LLM 的上下文窗口。常见分块方法:固定长度分块(Sliding Window)和按语义分块(如用 NLP 模型检测段落边界)。
  2. 向量化(Embedding):使用 Embedding 模型将文本转换为高维向量(如 768 或 1536 维)。可以使用开源模型:BERT、sentence-transformers(如 all-MiniLM-L6-v2)。商业 API有:OpenAI 的 text-embedding-ada-002、Cohere Embed。
  3. 存储到向量数据库。

向量检索(Dense Retrieval)

向量检索(如 FAISS, ANN)通常基于语义相似度计算(如 OpenAI Embeddings)。

关键词检索(Sparse Retrieval)

如 Elasticsearch 的 BM25, TF-IDF,基于词频匹配。

MCP(多通道感知,Multi-Channel Perception)

多通道感知(MCP) 指系统能够同时接收、处理和融合来自不同输入源(如视觉、听觉、触觉、文本等)的数据,从而生成更丰富的感知结果。其核心目标是:

  1. 弥补单一通道的局限性(如视觉在黑暗环境失效,听觉在嘈杂环境中不准确)。
  2. 通过多源信息互补,提升感知的准确性和泛化能力。
  3. 模拟人类的跨模态感知能力(如人类同时用眼睛和耳朵理解世界)。

三者之间的关系

RAG 常作为 AI Agent 内部的知识组件,为 Agent 的决策提供依据。
MCP 为 AI Agent 和感知外部环境提供了多种通道。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐