LLM API 网关的僵尸账号识别与成本控制实战：基于 Terraform 的自动化熔断设计

2600_96123565

0人浏览 · 2026-06-05 09:35:37

2600_96123565 · 2026-06-05 09:35:37 发布

僵尸流量突袭：API 盗刷的典型特征与业务影响

当企业级 LLM 服务开放 API 调用时，僵尸账号攻击往往呈现三个典型特征组合： 1. 密钥泄露利用：攻击者通过 GitHub 公开仓库扫描、测试环境密钥复用等方式获取有效访问凭证 2. 低效调用模式：固定 prompt 模板以 5-10次/秒的高频重复调用（如 "翻译这段文字"） 3. 流量伪装行为：User-Agent 模拟浏览器但缺乏合理会话间隔，且无上下文连贯性

在 DeepSeek-V4 的实际业务监控中，曾捕获一个典型案例：某个 IP 在 1 小时内使用相同 API Key 发起 2.3 万次相似问答请求，消耗 580 万 tokens 却无任何有效业务产出。这类攻击会导致两大直接损失： - 资源浪费：占用推理算力导致正常请求延迟上升 30-50% - 成本激增：按 token 计费模式下可能产生数万美元/日的无效支出

三层防御体系设计与实施细节

基础设施层：Terraform 声明式防护

module "deepseek_waf" {
  source  = "terraform-aws-modules/wafv2/aws"
  version = "~> 4.0"

  name           = "deepseek-api-protection"
  scope          = "REGIONAL"
  cloudfront_acl = false

  allow_default_action = true

  rules = [
    {
      name     = "RateLimitByIP"
      priority = 1
      action   = "block"
      rate_based_statement = {
        limit              = 1000 # 每5分钟最大请求数
        aggregate_key_type = "IP"
      }
      visibility_config = { /*...*/ }
    },
    {
      name     = "BlockTorExitNodes"
      priority = 2
      action   = "block"
      ip_set_reference_statement = {
        arn = aws_wafv2_ip_set.tor_exit_nodes.arn
      }
    }
  ]
}

关键配置项说明： - 使用 AWS WAFv2 的 rate-based rules 实现 IP 层基础限流 - 集成 Tor 出口节点黑名单（需定期更新 IP 库） - 通过 CloudFront 分发在边缘节点完成攻击流量拦截

业务规则层：Helm Chart 参数化控制

apiGateway:
  rateLimiting:
    enabled: true
    tokensPerMinute: 500000 # 单账号每分钟token上限
    burstSize: 10000       # 突发流量容忍度

  anomalyDetection:
    similarityThreshold: 0.85 # 相似请求判定阈值
    timeWindow: 300s          # 检测时间窗口
    minRequestCount: 30       # 触发分析的最小请求数

  penalty:
    softBlockDuration: 300s   # 首次违规临时封禁
    hardBlockDuration: 3600   # 重复违规长期封禁

动态防护策略： 1. Token 消耗分析：基于 Holt-Winters 算法预测各租户正常用量区间 2. 请求相似度检测：对 embedding 向量做余弦相似度计算 3. 分级处置机制：从人机验证到账号封禁的渐进式响应

观测响应层：可观测性驱动的熔断

监控指标设计示例（Prometheus）：

# HELP api_gateway_cost_per_token Microcents per token consumed
# TYPE api_gateway_cost_per_token gauge
api_gateway_cost_per_token{tenant="A", model="deepseek-v4", route="/v1/chat"} 12.5

# HELP api_gateway_anomaly_score Request anomaly detection score
# TYPE api_gateway_anomaly_score gauge
api_gateway_anomaly_score{client_ip="x.x.x.x"} 3.8

关键运维策略： - 采样策略：错误请求全留存，成功请求按 1:10 采样存储 - 告警阈值：建议设置阶梯式告警（>150% 日均值预警，>300% 立即熔断） - trace 保留：合规场景至少保留 30 天原始日志

核心决策流程与工程判断

熔断触发决策树

                    ┌───────────────┐
                    │ 请求到达网关  │
                    └──────┬───────┘
                           ↓
┌───────────────────────────────────────────────┐
│ 是否超出静态配额？ (每月/每日token限额)       │
└───────────────┬───────────────────────────────┘
                ↓ 是
        ┌───────────────┐
        │ 返回429状态码 │
        │ +配额耗尽提示 │
        └───────────────┘
                ↓ 否
┌───────────────────────────────────────────────┐
│ 是否在短时间内（如5分钟）出现高度相似请求？    │
│ • 嵌入向量相似度 >0.85                        │
│ • 相同IP/账号请求数 >阈值                     │
└───────────────┬───────────────────────────────┘
                ↓ 是
        ┌───────────────┐
        │ 触发reCAPTCHA │
        │ 人机验证      │
        └───────────────┘
                ↓ 否
┌───────────────────────────────────────────────┐
│ 动态基线检测：当前请求Z-Score >3？            │
│ • 计算token消耗速率偏离度                     │
│ • 分析请求时间分布异常                        │
└───────────────┬───────────────────────────────┘
                ↓ 是
        ┌───────────────┐
        │ 自动降级到    │
        │ 轻量级模型    │
        └───────────────┘
                ↓ 否
        ┌───────────────┐
        │ 正常处理请求  │
        └───────────────┘