Claude AI技能库架构解析：从工具调用到Agent工程化实践

在AI应用开发领域，工具调用（Tool Use）是实现大语言模型功能扩展的核心机制。其原理在于让模型能够识别用户意图，并触发外部功能模块执行特定任务。这一技术价值在于突破了模型自身知识库和能力的限制，使其能够处理实时数据查询、代码执行、系统集成等复杂场景。通过构建标准化的技能（Skill）抽象层和智能体（Agent）调度引擎，开发者可以系统化地管理功能模块，实现AI能力的工程化封装与复用。本文以C

胖葫芦

316人浏览 · 2026-05-01 12:35:30

胖葫芦 · 2026-05-01 12:35:30 发布

1. 项目概述与核心价值

最近在AI应用开发圈里，一个名为“claude-skills”的项目引起了我的注意。这个由开发者Elfredaaroused655创建的开源仓库，本质上是一个针对Claude AI模型（特别是Claude 3系列）的“技能库”或“工具箱”实现方案。简单来说，它提供了一套结构化的方法和现成的代码，让你能够为Claude模型扩展出超越其原生能力的、可定制化的专属功能。

为什么这很重要？用过Claude API的朋友都知道，虽然Claude本身能力强大，但在处理特定、复杂的业务流程时，往往需要开发者自己搭建一套复杂的“中间层”逻辑。你需要设计对话流程、处理外部工具调用、管理上下文状态、解析返回结果……这个过程既繁琐又容易出错。“claude-skills”项目瞄准的正是这个痛点。它试图将构建AI Agent或复杂技能的最佳实践封装起来，提供一个清晰、可复用的框架。无论是想给Claude加上联网搜索、代码执行、数据分析，还是集成企业内部系统，这个项目都提供了一个高起点的实现模板。

在我看来，它的核心价值在于“标准化”和“加速”。对于刚接触AI应用开发的团队，它能避免从零开始的摸索；对于有经验的开发者，它提供的架构思路和模块设计也极具参考意义。接下来，我将结合自己搭建类似系统的经验，深入拆解这个项目的设计精髓、关键技术实现，并分享一套从零开始复现和扩展的实操指南。

2. 核心架构与设计思想拆解

要理解“claude-skills”，我们得先抛开代码，看看它背后想解决什么问题。一个强大的AI技能系统，绝不是简单地把几个API调用拼在一起。它需要处理几个核心矛盾： 确定性的业务流程 与 非确定性的AI输出 之间的矛盾； 单一对话回合 与 多步骤长程任务 之间的矛盾； 通用AI能力 与 垂直领域深度定制 之间的矛盾。

2.1 技能（Skill）的抽象与定义

项目最核心的概念是“Skill”（技能）。这不仅仅是一个函数别名，而是一个高度抽象的执行单元。一个设计良好的Skill应该具备以下特征：

声明式描述 ：技能需要清晰地向AI模型（Claude）说明自己“是什么”、“能干什么”、“需要什么输入”。这通常通过一个结构化的“描述”（description）和“参数模式”（parameter schema）来实现。例如，一个“获取天气”的技能，其描述可能是“根据城市名称查询当前天气状况”，参数模式则定义了必填的 city 字段及其类型（字符串）。
独立执行能力 ：每个Skill都封装了具体的执行逻辑。当Claude决定调用某个技能时，系统能将自然语言解析出的参数，准确地映射到该技能的入口函数，并执行它。这个执行过程可能与外部API交互、查询数据库、或运行一段计算代码。
结果标准化 ：技能执行完成后，必须返回一个结构化的结果。这个结果不仅要包含给用户看的信息，还应包含供AI模型进行后续推理的“元信息”。例如，除了“北京晴，25度”这个文本，可能还会附带一个 success: true 的标志和原始数据，方便AI判断技能是否成功执行。

在“claude-skills”的架构中，Skill的管理很可能采用“注册中心”模式。所有可用的技能在一个中央仓库注册，系统根据AI的请求动态查找并调用对应的技能。这种设计使得技能库可以轻松扩展，新技能的加入不会影响核心调度逻辑。

2.2 智能体（Agent）的调度与状态管理

仅有技能还不够，需要一个“大脑”来协调，这就是Agent（智能体）。在这个项目中，Agent负责与Claude模型对话，并根据对话内容决定何时、以及如何调用技能。

这里的关键技术点在于 工具调用（Tool Use）的触发与处理 。Claude 3模型原生支持在回复中指定需要调用哪个工具（技能）以及传入什么参数。Agent的工作流程大致如下：

对话循环 ：Agent维护一个对话历史（message history），其中包含用户的问题、AI的回复、以及技能执行的结果。
模型推理 ：将当前对话历史和所有已注册技能的描述，一并发送给Claude模型。
解析与判断 ：Claude的回复可能是一个普通的文本回答，也可能包含一个或多个“工具调用请求”。Agent需要解析这个回复。
技能派发 ：如果检测到工具调用请求，Agent就根据技能名称找到对应的Skill实例，传入解析好的参数，并执行它。
结果回填与继续 ：将技能执行的结果以结构化的格式（例如，“工具调用结果：xxx”）追加到对话历史中，然后将新的历史再次发送给Claude，让AI基于工具执行结果生成最终回复给用户。

这个过程涉及复杂的 状态管理 。一个多轮对话中，可能穿插多次技能调用，Agent必须清晰地记住每次调用的上下文，确保对话不跑偏。项目很可能采用“会话”（Session）或“线程”（Thread）的概念来隔离不同用户、不同任务的状态。

2.3 上下文（Context）管理与长程记忆

对于复杂的技能，单次交互的信息可能不够。例如，一个“编写周报”的技能，可能需要用户先提供一些项目名称和关键事件。这就需要系统具备上下文管理能力。

“claude-skills”项目可能会实现以下几种上下文机制：

对话历史窗口 ：最简单的形式，即保留最近N轮对话作为上下文。但这种方式有长度限制，且可能包含无关信息。
摘要压缩 ：对于长对话，可以将历史对话总结成一段简短的摘要，作为后续对话的背景。这能有效突破上下文长度限制。
向量化记忆 ：更高级的做法是将对话中的关键信息（如用户偏好、任务目标、已执行步骤的结果）提取出来，转换成向量，存入向量数据库。当需要相关信息时，通过语义搜索召回。这为AI提供了类似“长程记忆”的能力，是实现复杂、多步骤任务的基石。

注意：上下文管理是AI应用中最容易出问题的地方之一。信息过少会导致AI失忆，信息过多则可能引入噪音并增加API成本。在实际设计中，需要根据技能的特点精细控制上下文的组成和长度。

3. 关键技术实现与源码解析

基于上述设计思想，我们可以推测并复现“claude-skills”项目的几个关键技术模块。以下是我根据常见实践和项目名推测的核心实现逻辑。

3.1 技能（Skill）基类与注册机制

一个健壮的技能系统始于一个定义良好的基类。这个基类规定了所有技能必须实现的接口。

# skill_base.py
from abc import ABC, abstractmethod
from typing import Any, Dict, Optional
from pydantic import BaseModel, Field

class SkillParameterSchema(BaseModel):
    """定义技能输入参数的JSON Schema模型"""
    # 这里可以定义一些公共字段，具体参数由子类扩展
    pass

class Skill(ABC):
    """技能抽象基类"""
    
    name: str  # 技能唯一标识，如 "get_weather"
    description: str  # 对AI模型的自然语言描述
    parameters: SkillParameterSchema  # 输入参数模式
    
    def __init__(self, name: str, description: str):
        self.name = name
        self.description = description
        self.parameters = self._define_parameters()
    
    @abstractmethod
    def _define_parameters(self) -> SkillParameterSchema:
        """子类必须实现此方法，定义自己的参数模式"""
        pass
    
    @abstractmethod
    async def execute(self, **kwargs) -> Dict[str, Any]:
        """
        执行技能的核心方法。
        参数来自Claude模型解析后的kwargs。
        返回一个字典，至少包含 'result' (给AI的文本) 和 'data' (原始数据)。
        """
        pass
    
    def to_tool_definition(self) -> Dict[str, Any]:
        """将技能转换为Claude API所需的工具定义格式"""
        return {
            "name": self.name,
            "description": self.description,
            "input_schema": self.parameters.schema()  # 导出JSON Schema
        }

接下来，需要一个中央注册表来管理所有技能：

# skill_registry.py
class SkillRegistry:
    _instance = None
    _skills: Dict[str, Skill] = {}
    
    def __new__(cls):
        if cls._instance is None:
            cls._instance = super().__new__(cls)
        return cls._instance
    
    @classmethod
    def register(cls, skill: Skill):
        """注册一个技能实例"""
        if skill.name in cls._skills:
            raise ValueError(f"Skill '{skill.name}' already registered.")
        cls._skills[skill.name] = skill
    
    @classmethod
    def get_skill(cls, name: str) -> Optional[Skill]:
        """根据名称获取技能"""
        return cls._skills.get(name)
    
    @classmethod
    def get_all_tool_definitions(cls) -> List[Dict]:
        """获取所有技能的Claude工具定义"""
        return [skill.to_tool_definition() for skill in cls._skills.values()]

这样，要新增一个技能，只需继承 Skill 基类，实现参数定义和执行逻辑，并在应用启动时注册即可。这种设计符合“开闭原则”，扩展性极佳。

3.2 基于Claude API的智能体（Agent）引擎

Agent是连接用户、Claude模型和技能库的枢纽。其核心是处理Claude的“工具使用”响应。

# agent_engine.py
import anthropic  # 假设使用Anthropic官方SDK
from typing import List, Dict, Any

class ClaudeAgentEngine:
    def __init__(self, api_key: str, model: str = "claude-3-sonnet-20240229"):
        self.client = anthropic.Anthropic(api_key=api_key)
        self.model = model
        self.skill_registry = SkillRegistry  # 引用技能注册表
        
    async def process_message(
        self, 
        user_input: str, 
        conversation_history: List[Dict], 
        system_prompt: str = None
    ) -> Dict[str, Any]:
        """
        处理单轮用户输入。
        返回包含最终回复和中间步骤的完整结果。
        """
        messages = conversation_history.copy()
        messages.append({"role": "user", "content": user_input})
        
        # 获取所有可用的工具定义
        available_tools = self.skill_registry.get_all_tool_definitions()
        
        # 第一次调用Claude，允许它使用工具
        response = await self.client.messages.create(
            model=self.model,
            max_tokens=4096,
            messages=messages,
            system=system_prompt,
            tools=available_tools  # 关键：将技能作为工具提供给Claude
        )
        
        # 处理Claude的回复
        final_content = []
        tool_results = []
        
        for block in response.content:
            if block.type == 'text':
                # 普通文本回复
                final_content.append(block.text)
            elif block.type == 'tool_use':
                # Claude请求使用工具（技能）
                tool_name = block.name
                tool_input = block.input  # 这是一个字典
                
                # 1. 查找并执行技能
                skill = self.skill_registry.get_skill(tool_name)
                if not skill:
                    tool_result = f"Error: Skill '{tool_name}' not found."
                else:
                    # 执行技能，注意参数展开
                    try:
                        result_dict = await skill.execute(**tool_input)
                        tool_result = result_dict.get('result', 'Skill executed successfully.')
                        # 保存原始数据，可能用于后续步骤
                        tool_results.append({
                            'name': tool_name,
                            'input': tool_input,
                            'output': result_dict
                        })
                    except Exception as e:
                        tool_result = f"Error executing skill '{tool_name}': {str(e)}"
                
                # 2. 将工具执行结果作为新的消息块，发送回Claude进行下一步推理
                # 这是实现多步工具调用的关键
                final_content.append(f"\n[Tool Result: {tool_name}] {tool_result}")
                # 在实际实现中，需要将tool_result以特定格式追加到messages中，进行第二轮调用
        
        # 这里简化处理，实际需要循环直到Claude不再调用工具
        # 最终，将Claude生成的文本和工具执行结果合并
        return {
            "final_response": "".join(final_content),
            "tool_calls": tool_results,
            "updated_history": messages  # 应包含工具调用和结果的新历史
        }

这个简化版的引擎展示了核心循环：提供工具 -> 解析工具调用 -> 执行技能 -> 返回结果 -> 继续对话。在实际项目中，这个循环可能需要迭代多次，直到Claude生成最终的用户回复。

3.3 技能示例：联网搜索与代码解释器

理论讲完了，我们来看两个具体的技能实现，这也是AI助手最常用的功能。

技能一：联网搜索（Web Search）

这个技能允许Claude获取实时信息。通常我们不会让AI直接访问网络，而是通过一个搜索API（如Serper、SearXNG自建）来中介。

# skills/web_search.py
import aiohttp
from skill_base import Skill, SkillParameterSchema
from pydantic import Field
from typing import List

class WebSearchParameters(SkillParameterSchema):
    query: str = Field(..., description="The search query string")
    num_results: int = Field(5, description="Number of search results to return")

class WebSearchSkill(Skill):
    
    def __init__(self, api_key: str):
        super().__init__(
            name="web_search",
            description="Search the web for current information. Use this when you need to find recent or real-time data."
        )
        self.api_key = api_key
        self.search_url = "https://google.serper.dev/search"  # 示例使用Serper API
        
    def _define_parameters(self) -> WebSearchParameters:
        return WebSearchParameters
    
    async def execute(self, query: str, num_results: int = 5) -> Dict[str, Any]:
        headers = {
            'X-API-KEY': self.api_key,
            'Content-Type': 'application/json'
        }
        payload = {
            "q": query,
            "num": num_results
        }
        
        async with aiohttp.ClientSession() as session:
            async with session.post(self.search_url, json=payload, headers=headers) as resp:
                if resp.status == 200:
                    data = await resp.json()
                    # 从搜索结果中提取摘要和链接，格式化成对AI友好的文本
                    organic_results = data.get('organic', [])
                    formatted_results = []
                    for i, result in enumerate(organic_results[:num_results], 1):
                        title = result.get('title', 'No title')
                        snippet = result.get('snippet', 'No description')
                        link = result.get('link', '#')
                        formatted_results.append(f"{i}. **{title}**\n   {snippet}\n   Source: {link}")
                    
                    result_text = "Web search results for '" + query + "':\n\n" + "\n\n".join(formatted_results)
                    return {
                        "result": result_text,
                        "data": organic_results,  # 保留原始数据供可能的后处理
                        "success": True
                    }
                else:
                    return {
                        "result": f"Search failed with status code {resp.status}.",
                        "data": None,
                        "success": False
                    }

技能二：代码解释器（Code Interpreter）

这是一个更复杂的技能，允许Claude编写并执行代码（通常在沙箱环境中），然后返回执行结果。安全是首要考虑。

# skills/code_interpreter.py
import subprocess
import tempfile
import os
import sys
from skill_base import Skill, SkillParameterSchema
from pydantic import Field
from typing import Optional

class CodeInterpreterParameters(SkillParameterSchema):
    code: str = Field(..., description="The code to execute")
    language: str = Field("python", description="Programming language (python, javascript, shell)")
    timeout: int = Field(30, description="Execution timeout in seconds")

class CodeInterpreterSkill(Skill):
    
    def __init__(self, allowed_languages: List[str] = None, safe_mode: bool = True):
        super().__init__(
            name="execute_code",
            description="Execute code in a sandboxed environment and return the output. Use this for calculations, data analysis, or testing code snippets."
        )
        self.allowed_languages = allowed_languages or ["python", "javascript", "bash"]
        self.safe_mode = safe_mode  # 是否启用安全限制（如禁止网络、文件访问）
        
    def _define_parameters(self) -> CodeInterpreterParameters:
        return CodeInterpreterParameters
    
    async def execute(self, code: str, language: str = "python", timeout: int = 30) -> Dict[str, Any]:
        if language not in self.allowed_languages:
            return {
                "result": f"Language '{language}' is not allowed. Allowed languages: {', '.join(self.allowed_languages)}",
                "data": None,
                "success": False
            }
        
        # 安全检查（基础版）
        if self.safe_mode:
            dangerous_patterns = [
                "import os", "import sys", "__import__", "open(", "eval(", "exec(",
                "subprocess", "socket", "requests.get", "curl", "wget"
            ]
            for pattern in dangerous_patterns:
                if pattern in code.lower():
                    return {
                        "result": f"Code rejected by safe mode. Detected potentially dangerous pattern: '{pattern}'",
                        "data": None,
                        "success": False
                    }
        
        # 在临时文件中执行代码
        with tempfile.NamedTemporaryFile(mode='w', suffix=f'.{language}', delete=False) as f:
            f.write(code)
            temp_file_path = f.name
        
        try:
            if language == "python":
                cmd = [sys.executable, temp_file_path]
            elif language == "javascript":
                cmd = ["node", temp_file_path]
            elif language == "bash":
                cmd = ["bash", temp_file_path]
            else:
                return {"result": f"Unsupported language: {language}", "success": False}
            
            # 使用subprocess运行，设置超时和资源限制
            result = subprocess.run(
                cmd,
                capture_output=True,
                text=True,
                timeout=timeout,
                # 在Linux下可以添加cgroup限制，这里简化处理
            )
            
            output = f"Exit Code: {result.returncode}\n"
            if result.stdout:
                output += f"Stdout:\n{result.stdout}\n"
            if result.stderr:
                output += f"Stderr:\n{result.stderr}\n"
            
            return {
                "result": output,
                "data": {
                    "returncode": result.returncode,
                    "stdout": result.stdout,
                    "stderr": result.stderr
                },
                "success": result.returncode == 0
            }
            
        except subprocess.TimeoutExpired:
            return {
                "result": f"Code execution timed out after {timeout} seconds.",
                "data": None,
                "success": False
            }
        except Exception as e:
            return {
                "result": f"Execution failed with error: {str(e)}",
                "data": None,
                "success": False
            }
        finally:
            # 清理临时文件
            try:
                os.unlink(temp_file_path)
            except:
                pass

实操心得 ：代码解释器是威力巨大但风险极高的技能。在生产环境中，绝不能使用上述简单的 subprocess 方案。必须使用强隔离的沙箱，如Docker容器（配置严格的seccomp、资源限制）、gVisor、Firecracker微虚拟机，或专用的沙箱服务。同时，需要建立代码白名单/黑名单、静态代码分析、运行时监控等多层防御。

4. 项目部署与工程化实践

一个玩具原型和可投入生产使用的系统之间，隔着巨大的工程化鸿沟。“claude-skills”项目要真正可用，必须考虑部署、监控、扩展性和安全性。

4.1 服务化架构与API设计

单体脚本难以维护，我们需要将技能系统封装成服务。一个典型的架构是采用FastAPI或类似框架提供RESTful API。

# main.py (FastAPI 应用入口)
from fastapi import FastAPI, HTTPException, Depends
from pydantic import BaseModel
from typing import List, Optional
import uvicorn

from agent_engine import ClaudeAgentEngine
from skill_registry import SkillRegistry
from skills.web_search import WebSearchSkill
from skills.code_interpreter import CodeInterpreterSkill

app = FastAPI(title="Claude Skills API")

# 依赖注入：初始化引擎和技能
def get_agent_engine():
    # 从环境变量或配置中心读取API密钥等
    api_key = os.getenv("ANTHROPIC_API_KEY")
    engine = ClaudeAgentEngine(api_key=api_key)
    
    # 注册技能（可配置化）
    if os.getenv("ENABLE_WEB_SEARCH") == "true":
        search_skill = WebSearchSkill(api_key=os.getenv("SERPER_API_KEY"))
        SkillRegistry.register(search_skill)
    
    if os.getenv("ENABLE_CODE_INTERPRETER") == "true":
        # 生产环境应使用更安全的沙箱配置
        code_skill = CodeInterpreterSkill(
            allowed_languages=["python"],
            safe_mode=True
        )
        SkillRegistry.register(code_skill)
    
    # ... 注册其他技能
    return engine

# 数据模型
class ChatRequest(BaseModel):
    message: str
    session_id: Optional[str] = None  # 用于维持多轮对话会话
    stream: Optional[bool] = False   # 是否启用流式响应

class ChatResponse(BaseModel):
    response: str
    session_id: str
    tool_calls: List[Dict] = []

# 核心聊天端点
@app.post("/v1/chat", response_model=ChatResponse)
async def chat(
    request: ChatRequest, 
    engine: ClaudeAgentEngine = Depends(get_agent_engine)
):
    """
    处理用户消息，与Claude技能引擎交互。
    """
    # 1. 根据session_id获取或创建对话历史（应从数据库或Redis读取）
    conversation_history = await get_conversation_history(request.session_id)
    
    # 2. 处理消息
    result = await engine.process_message(
        user_input=request.message,
        conversation_history=conversation_history,
        system_prompt="You are a helpful assistant with access to tools. Use tools when needed."
    )
    
    # 3. 保存更新后的对话历史
    new_session_id = request.session_id or generate_new_session_id()
    await save_conversation_history(new_session_id, result["updated_history"])
    
    # 4. 返回响应
    return ChatResponse(
        response=result["final_response"],
        session_id=new_session_id,
        tool_calls=result.get("tool_calls", [])
    )

@app.get("/v1/health")
async def health_check():
    return {"status": "healthy", "service": "claude-skills"}

@app.get("/v1/skills")
async def list_skills():
    """列出所有可用技能（工具）"""
    skills = []
    for name, skill in SkillRegistry._skills.items():
        skills.append({
            "name": skill.name,
            "description": skill.description,
            "parameters": skill.parameters.schema()
        })
    return {"skills": skills}

if __name__ == "__main__":
    uvicorn.run(app, host="0.0.0.0", port=8000)

这个API提供了聊天、健康检查和技能列表查询功能。 session_id 是关键，它使得无状态的HTTP服务能够维持有状态的对话。

4.2 配置管理与安全性加固

将敏感信息和环境配置从代码中剥离是基本要求。推荐使用 pydantic-settings 或 python-dotenv 。

# config.yaml (或从环境变量读取)
anthropic:
  api_key: ${ANTHROPIC_API_KEY}
  model: claude-3-sonnet-20240229
  max_tokens: 4096

skills:
  web_search:
    enabled: true
    provider: serper
    api_key: ${SERPER_API_KEY}
    num_results: 5
  code_interpreter:
    enabled: true
    safe_mode: true
    allowed_languages:
      - python
    timeout: 30
    # 生产环境沙箱配置
    sandbox:
      type: docker  # 或 firecracker
      image: python-sandbox:latest
      resource_limits:
        cpus: 0.5
        memory: 512mb

server:
  host: 0.0.0.0
  port: 8000
  cors_origins:
    - https://your-frontend.com

logging:
  level: INFO
  format: json  # 结构化日志便于收集

安全性加固措施清单：

API密钥管理 ：绝对不要硬编码。使用AWS Secrets Manager、HashiCorp Vault或至少是环境变量。
输入验证与清理 ：对所有用户输入和Claude返回的参数进行严格的Schema验证（Pydantic已做一部分），防止注入攻击。
速率限制 ：在API网关或应用层（如FastAPI的 slowapi ）对用户和IP进行速率限制，防止滥用和DDoS。
技能执行隔离 ：高风险技能（如代码执行）必须在独立、资源受限的沙箱环境中运行。
审计日志 ：记录所有技能调用，包括用户ID、输入参数、执行结果、耗时。这对于调试、分析和安全审计至关重要。
访问控制 ：实现基于API密钥或OAuth2的认证，并对不同用户或角色设置可用的技能白名单。

4.3 监控、日志与可观测性

系统上线后，你需要知道它是否健康、表现如何。可观测性三大支柱：日志（Logs）、指标（Metrics）、追踪（Traces）一个都不能少。

结构化日志 ：使用 structlog 或 json-logging 记录每个请求的上下文信息（session_id, skill_name, duration, error等），便于用ELK或Loki进行聚合分析。
关键指标 ：
- API请求量、延迟、错误率（4xx, 5xx）
- Claude API调用次数、Token消耗量、成本
- 各技能调用次数、平均执行时间、失败率
- 对话平均轮次、会话长度
分布式追踪 ：对于一次聊天可能触发的多次Claude API调用和技能执行，使用OpenTelemetry进行端到端追踪，快速定位性能瓶颈。

你可以使用Prometheus收集指标，Grafana进行可视化，并设置警报规则（如错误率突增、Claude API延迟过高）。

5. 高级技巧与扩展方向

掌握了基础框架后，我们可以探索一些高级特性和扩展方向，让“claude-skills”系统变得更强大、更智能。

5.1 技能编排与工作流引擎

简单的“一问一调”模式有时不够。复杂的用户请求可能需要按特定顺序调用多个技能，并将前一个技能的输出作为后一个技能的输入。这就需要工作流（Workflow）或编排（Orchestration）引擎。

设想一个“数据分析报告”工作流：

用户说：“分析一下我们上周的销售数据，做个总结，并预测下周趋势。”
技能1（查询数据库） ：根据日期范围从数据库拉取销售数据。
技能2（数据清洗） ：处理缺失值、异常值。
技能3（统计分析） ：计算环比、同比、平均值等。
技能4（生成图表） ：调用图表库生成趋势图。
技能5（撰写报告） ：将数据和图表交给Claude，让它生成文字报告。

你可以设计一个 有向无环图（DAG） 来描述这个工作流。每个节点是一个技能，边定义了数据流向。一个独立的工作流引擎（如使用 Prefect 或 Airflow 的核心概念自研）负责解析DAG，按顺序执行技能，并传递数据。

# 一个简化的编排器概念
class WorkflowOrchestrator:
    async def run_workflow(self, workflow_name: str, initial_input: Dict) -> Dict:
        workflow = self.load_workflow_definition(workflow_name)  # 加载DAG
        context = initial_input.copy()
        
        for step in workflow['steps']:  # 拓扑排序后的步骤
            skill_name = step['skill']
            # 从context中提取该技能所需的参数
            skill_input = self._map_inputs(step['input_mapping'], context)
            
            skill = SkillRegistry.get_skill(skill_name)
            result = await skill.execute(**skill_input)
            
            # 将结果按输出映射存回context，供后续步骤使用
            self._update_context(step['output_mapping'], result, context)
            
            if not result.get('success'):
                # 错误处理：重试、跳过或终止工作流
                handle_workflow_error(step, result)
        
        return context  # 包含最终结果

5.2 技能的动态发现与加载

在微服务架构下，技能可能由不同团队开发，部署在不同的服务中。一个中心化的Agent需要能动态发现和调用这些远程技能。这可以通过服务发现模式（如Consul、Etcd）或简单的服务注册表来实现。

每个技能服务启动时，向一个中央注册服务注册自己的元信息（名称、描述、参数模式、端点URL）。Agent引擎在需要调用技能时，先查询注册表，获取技能端点，然后通过RPC或HTTP调用远程服务。这实现了技能的解耦和 独立部署 。

5.3 基于向量数据库的技能路由与上下文增强

当技能数量很多时，如何让Claude快速准确地找到最合适的技能？除了提供完整的工具列表，还可以引入 语义路由 。

技能向量化 ：将每个技能的描述和可能的使用场景，通过文本嵌入模型（如text-embedding-3-small）转换成向量，存入向量数据库（如Pinecone、Weaviate、Qdrant）。
用户意图理解 ：当用户输入到来时，同样将其转换成向量。
语义检索 ：在向量数据库中搜索与用户意图向量最相似的几个技能。
动态工具列表 ：只将检索到的Top N个最相关技能的定义发送给Claude，而不是全部技能。这能减少提示词长度、降低API成本，并提高工具选择的准确性。

此外，向量数据库还可以用于 长程记忆 。将对话中的关键事实、用户偏好、任务状态摘要存入向量库。在对话过程中，实时检索相关记忆并注入上下文，让AI拥有“记忆力”，处理更复杂的多轮任务。

6. 常见问题、故障排查与性能优化

在实际开发和运维中，你会遇到各种各样的问题。这里我整理了一份从实战中总结的“避坑指南”。

6.1 Claude不调用工具/调用错误工具

这是最常见的问题。可能的原因和解决方案：

提示词（System Prompt）问题 ：Claude的行为极大程度受系统提示词影响。确保你的提示词清晰、明确地指示AI在需要时使用工具。示例：

你是一个有帮助的助手，可以访问一系列工具来完成任务。当用户的问题需要实时数据、计算或无法仅凭内部知识回答时，你应该选择并使用合适的工具。在回复时，如果你决定使用工具，请严格按照提供的工具格式输出。使用工具后，我会将结果提供给你，请基于结果生成最终回答。
技能描述不清晰 ：技能的 description 字段至关重要。它应该用自然语言准确描述技能的用途和 适用场景 。避免模糊表述。好的描述：“根据股票代码或公司名称查询实时股价、涨跌幅和交易量。”坏的描述：“获取股票信息。”
参数模式过于复杂或模糊 ：Claude需要从自然语言中提取参数。如果参数Schema定义得太复杂（嵌套过深、类型模糊），Claude可能无法正确解析。尽量使用简单、扁平的结构，并为每个字段提供清晰的 description 。
上下文历史干扰 ：如果对话历史很长且杂乱，可能会干扰Claude对当前轮次是否需要使用工具的判断。尝试在调用工具前，对历史进行摘要或清理无关轮次。

6.2 技能执行超时或失败

设置超时和重试机制 ：任何外部调用（API、数据库、子进程）都必须设置合理的超时时间，并实现重试逻辑（最好有退避策略，如指数退避）。

import asyncio
from tenacity import retry, stop_after_attempt, wait_exponential

@retry(stop=stop_after_attempt(3), wait=wait_exponential(multiplier=1, min=1, max=10))
async def call_external_api(url, payload):
    async with aiohttp.ClientSession(timeout=aiohttp.ClientTimeout(total=30)) as session:
        async with session.post(url, json=payload) as response:
            response.raise_for_status()
            return await response.json()

实现熔断器模式 ：如果某个技能或外部服务连续失败，应暂时“熔断”，快速失败，避免拖垮整个系统。可以使用 pybreaker 库。
异步与非阻塞 ：确保你的技能执行逻辑是异步的（使用 async/await ），避免阻塞事件循环，影响其他请求的处理。

6.3 成本控制与性能优化

Claude API按Token收费，技能调用也可能产生费用（如搜索API）。成本失控是项目夭折的常见原因。

对话历史修剪 ：实现智能的上下文窗口管理。只保留最近N条消息，或将更早的历史总结成一段固定长度的摘要。
缓存策略 ：对于相同或相似的查询（例如，“北京今天的天气”），如果结果在短期内不会变化，可以将技能结果缓存起来（使用Redis或内存缓存）。下次Claude请求相同技能时，直接返回缓存结果，避免重复调用和消耗Token。
Token使用分析 ：详细记录每次对话的输入Token、输出Token数量，并关联到用户或业务线。设置预算警报。
技能调用过滤 ：在前端或中间件层，对用户请求进行初步过滤。明显不需要工具调用的简单问答，可以直接使用一个更小、更便宜的模型（如Haiku）来响应，或者使用规则引擎直接回复。

6.4 调试与日志记录

强大的日志是排查问题的生命线。你应该记录：

请求/响应全链路 ：包括原始的Claude API请求体、响应体。注意脱敏API密钥和隐私数据。
技能调用详情 ：输入参数、执行开始/结束时间、耗时、返回结果、错误信息。
对话状态 ：每个session_id的完整对话历史（可存储在可查询的数据库如PostgreSQL中，便于复现问题）。

为日志添加唯一的 request_id 或 trace_id ，使其能够跨服务追踪。在开发环境，你甚至可以记录下Claude推理的中间过程（如果API支持），这对于理解AI为什么做出某个工具调用决策非常有帮助。

构建一个像“claude-skills”这样的系统，是一个典型的软件工程问题，而不仅仅是AI调优。它要求你在AI能力、系统架构、安全运维之间找到平衡。从清晰定义技能接口开始，构建一个稳健的Agent引擎，然后逐步添加高级特性如工作流、动态发现和语义路由。在整个过程中，始终将安全性、可观测性和成本控制放在首位。这个项目提供了一个优秀的范式，但真正的挑战和乐趣在于根据你自己的业务需求，对其进行定制、扩展和优化。

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐