论文精读笔记:Policy-Guided Threat Hunting

arXiv: 2603.23966
标题: Policy-Guided Threat Hunting: An LLM enabled Framework with Splunk SOC Triage
作者: Rishikesh Sahay, Bell Eapen, Weizhi Meng, Md Rasel Al Mamun, Nikhil Kumar Dora, Manjusha Sumasadan, Sumit Kumar Tetarave, Rod Soto
发表时间: 2026-03-25 | 总页数: 45 页
领域: 密码学与安全 (cs.CR)、人工智能 (cs.AI)
链接: https://arxiv.org/abs/2603.23966


一、核心问题与动机

背景痛点

  • APT 威胁激增: 2024 年 APT 比 2023 年增加了 74%(Kaspersky 2024);侦察活动每年增加 16.7%(Fortinet 2025)
  • 传统方案局限:
    • 传统 EDR/签名检测工具依赖已知攻击模式,无法应对新型威胁
    • SIEM(如 Splunk)依赖预定义规则,缺乏上下文感知能力
    • SOC 分析师面临海量日志(高吞吐环境下每时间窗口可达百万级)和告警疲劳问题
    • SOC 安全分析师人力短缺,重复性工作负担重
  • 现有 AI 方案的缺口: 大多数方案要么只做检测(缺少 SIEM 集成),要么缺乏完整的流量优先级排序、LLM 上下文分析、SOAR 建议的闭环能力

核心创新点

提出一个自动化、动态的威胁猎杀框架,将 Agentic AI 与 Splunk SIEM 深度集成,实现从日志摄入→异常检测→DRL 初步分类→LLM 上下文分析→Splunk 验证的完整闭环。


二、框架架构总览(7 层流水线)

网络流量日志
    │
    ▼
[1] SIEM 数据摄入(Splunk 索引)
    │
    ▼
[2] 数据清洗与预处理(去重、特征提取→CSV)
    │
    ▼
[3] Autoencoder 异常检测(AAD Score)
    │
    ▼
[4] DRL 初步分类(Contain/Allow)
    │
    ▼
[5] 优先级评分 = DRL决策 × AAD Score → 高优先级流量(阈值 >5)
    │
    ▼
[6] LLM 多智能体上下文分析(CrewAI 框架)
    │    ├── Senior SOC Triage Analyst → 风险评估 + SPL 查询生成
    │    └── Threat Intelligence Analyst → MITRE ATT&CK 映射
    │
    ▼
[7] Splunk 验证(人工 SOC 分析师介入 → Block/Allow/Monitor)

三、各模块技术细节

3.1 Autoencoder-Based Anomaly Detection (AAD)

目的: 无监督地学习正常网络行为,对每个时间窗口计算异常分数

架构: 全连接重建式自编码器,瓶颈维度为 2(4→8→2→8→4

训练方式:

  • 只用早期良性流量(前 25% 时间段)进行训练,避免混入攻击信息
  • 特征标准化也只基于良性流量统计量(均值和标准差)

特征集: {src_port, dest_port, bytes_in, bytes_out}

异常分数公式(均方重建误差):

AAD(t) = (1/|F|) * Σ (x_{t,i} - x̂_{t,i})²

关键设计: AAD Score 不参与 DRL 训练,避免特征泄露(Feature Leakage)


3.2 时间窗口状态构建

  • 将原始流量聚合为 Δt = 5 分钟的固定时间窗口
  • 每个窗口构建状态向量 s_t = φ(F_t),包含:
    • 数值统计(端口均值、最大值,字节数统计)
    • 编码类别属性(协议标识、低基数 IP 表示)

3.3 Deep Reinforcement Learning (DRL)

框架: MDP(马尔可夫决策过程),M = (S, A, P, R, γ)

网络结构: MLP,2 个隐藏层(各 64 神经元),ReLU + Softmax

训练算法: PPO(近端策略优化)

优先级评分:

Triage Priority = DRL_Action × AAD_Score

仅优先级分数 > 5 的流量窗口被转发给 LLM 分析

四种奖励模式(Reward Shaping):

模式 策略重点 适用场景
Mode A 召回率优先(惩罚漏报 > 误报) 初期威胁发现、基线敏感性分析
Mode B 误报优先(重罚误报,重奖真负) 高置信告警、减少 SOC 工作量
Mode C 均衡折中 一般 SOC 环境
Mode D Mode C + 高斯噪声 ε~N(0,σ²) 提高策略鲁棒性,模拟不确定性

3.4 LLM 多智能体分析(CrewAI 框架)

三个 LLM 智能体协作(基于 ChatGPT API,敏感场景建议本地 LLM):

  • Senior SOC Triage Analyst: 评估威胁等级(良性/可疑/高风险)+ 生成 SPL 查询
  • Threat Intelligence Analyst: MITRE ATT&CK 映射 + 修复建议
  • Orchestrator(协调器): 汇总输出可读报告 + 事件响应 Playbook

IP 地址在送入 LLM 前会进行匿名化处理,保护隐私


3.5 Splunk 验证(Human-in-the-Loop)

LLM 生成的 SPL 查询交给 SOC 分析师在 Splunk 仪表板执行验证,决策结果为:

  • Block(配置检测规则封锁)/ Allow(放行)/ Monitor(继续监控)

四、实验设置(§6 + §7)

4.1 用例与威胁模型

实验拓扑:

  • 攻击机: Kali Linux
  • 受害机: Windows 11(虚拟机,部署 Suricata IDS + Splunk Universal Forwarder)
  • SIEM 服务器: Windows Server 2019(运行 Splunk Enterprise)

模拟攻击类型:

  1. 网络扫描攻击(Network Scanning) — 识别活跃主机、开放端口和服务,对应 MITRE T1046
  2. UDP 洪泛 DoS 攻击(Volumetric DoS) — 发送大量伪造数据包耗尽网络带宽/CPU/内存

4.2 数据集

数据集 描述 规模
Boss of the SOC (BOTS) [公开基准] 安全运营中心真实场景数据集,含流量日志 清洗去重后约 12,000 条实例
模拟数据集 依据 §6 威胁模型自行采集的 Suricata IDS 日志 300,000 条实例

特征字段: source IP、destination IP、source port、destination port、in bytes、out bytes、protocols、time


五、实验结果(§7 完整数据)

5.1 LLM 自动分类样例(Table 4,BOTS 数据集)

Flow ID Source IP Destination IP Priority Score MITRE ID Agent 判定
26 172.31.38.181 172.31.0.2 7.12×10¹² T1071 Critical:C2 通信确认
35 172.16.0.178 172.16.3.197 9.49×10⁻¹ T1071 恶意行为:疑似通过标准协议数据渗漏
34 192.168.8.103 192.168.9.30 7.33×10⁻¹ T1071 中等风险,建议持续监控
30 172.16.0.178 169.254.169.254 5.22×10⁻¹ T1552.005 可能尝试利用云基础设施
23 192.168.8.112 192.168.9.30 5.06×10⁻¹ T1071 中度关注,建议持续监控

Flow ID 26 分析: 高频 DNS 通信(dest_port=53),来自同一源 IP(172.31.38.181),1000 个事件发生在单个 217-236 秒的时间窗口内,与 C2 信标或 DNS 隧道特征吻合。所有 DNS 响应语法有效(reply_code=NoError),说明检测依赖行为聚合而非协议违规。


5.2 四种奖励模式性能对比

BOTS 数据集(Fig. 4)
模式 Precision Recall F1-Score 特点
Mode A ~0.85 ~0.85 ~0.85 均衡性能,精/召/F1 均接近 0.85,适合早期威胁发现
Mode B 0.873 0.861 最佳整体表现,重罚误报使高置信检测达到最高
Mode C 0.830 0.744 0.783 召回明显下降,策略保守,会错过部分恶意事件
Mode D ~0.82 ~0.82 ~0.82 稳定一致,随机奖励防止过拟合,适合不确定环境
模拟数据集(Fig. 6,Suricata 流量)
模式 Precision Recall F1-Score 特点
Mode A 0.636 0.998 近乎完美检测,但大量误报导致告警疲劳
Mode B 0.976 0.495 高精度但召回极低,过于保守,大量恶意流量漏过
Mode C 0.645 0.998 0.784 均衡最佳,高检测率同时控制误报
Mode D 0.926 0.696 0.795 最高 F1,随机性增强鲁棒性,防止对模拟数据集过拟合

5.3 决策代价与遗憾分析(Table 5,BOTS 数据集)

模式 均值决策代价 标准差 均值遗憾 标准差
Mode A -0.526 1.049 1.474 1.049
Mode B -0.254 1.126 2.588 3.059
Mode C -0.789 1.233 1.684 1.921
Mode D -0.794 1.027 1.358 1.250

关键发现:

  • Mode C 和 D 决策代价最低(约 -0.79),运营效率最高
  • Mode D 遗憾值最低(1.358),说明随机奖励增强了策略在时序分布变化下的鲁棒性
  • Mode B 遗憾值最高(2.588)且方差最大(3.059),对误报惩罚敏感度过高

5.4 转发给 LLM 的流量削减率(Fig. 5 & 7)

模拟数据集(Fig. 7): 所有奖励模式下,DRL 过滤机制将转发至 LLM 的流量减少约 63%–65%

模式 流量削减特点
Mode A 削减量大,几乎不漏报真实告警
Mode B 削减量大,但漏报率高(召回仅 0.495)
Mode C 削减量较小,保留更多流量供 LLM 分析
Mode D 中等削减,兼顾覆盖率和效率

设计意义: LLM 仅处理经过筛选的少量高优先级流量,既降低计算开销,也减少幻觉(hallucination)风险


5.5 Splunk 验证结果

BOTS 数据集案例:

  • SPL 查询通过 transaction 算子(maxpause=5秒)重建通信会话,过滤 event count>10 的突发流量
  • 确认 172.31.38.181 的高频 DNS 通信(1000 事件/217-236 秒)为 C2 信标,映射 MITRE T1071

模拟数据集案例:

  • 检测到 10.0.2.4 → 10.0.2.15 在极短时间窗口内扫描多个目标端口
  • 映射 MITRE T1046(网络服务扫描)
  • 异常来自时序聚合和行为模式,而非协议违规或恶意签名

六、与现有方案对比

本文框架是现有方案中唯一全部满足以下 9 项能力的方案:

能力 本文 Sheth 2025 NetMonAI MS Copilot Sahay 2025
异常评估
流量优先级排序 Partial
初步分类
Agentic AI/LLM 集成
MITRE ATT&CK 映射 Partial
SIEM 集成与验证
SOAR 建议
SOC 决策支持 Partial
自适应策略学习 Partial

七、设计原则:严格功能分离

组件 用途 输入特征
AAD 持续异常评分 原始网络特征
DRL 决策与初步分类 原始特征(不含 AAD Score)
LLM Agent 上下文洞察与推理 优先级流量 + DRL 决策 + AAD Score

关键:AAD Score 被刻意排除在 DRL 训练特征之外,防止特征泄露导致性能虚高


八、局限性与未来工作(§8 + §9)

当前局限

  1. 仅二元决策(Contain/Allow): 实际 SOC 需要 Monitor/Throttle/Escalate/Isolate 等多级动作
  2. 公有 LLM 隐私风险: 使用 ChatGPT API 时敏感日志需先匿名化(已在实验中对 IP 匿名)
  3. 固定时间窗口局限: 5 分钟聚合窗口对短暂性攻击(short-lived attacks)检测能力有限
  4. 当前缺乏检测到缓解的完全自动化: 定位为辅助 SOC 分析师,最终决策由人工完成
  5. 单一同质日志源: 目前仅评估 Suricata IDS 日志,未集成多异构源

未来工作

  • 扩展动作空间到多级遏制决策(Monitor/Escalate/Isolate)
  • 探索自适应时间窗口策略多时序层次策略以提升短暂攻击检测
  • 使用领域专用或本地部署 LLM,降低幻觉风险和隐私顾虑
  • 研究自主决策 SOC 系统的伦理问题(透明度、偏见、问责)
  • 基于多异构日志源(非仅 Suricata)进行全面评估

九、关键技术词汇速查

术语 含义
APT 高级持续性威胁(Advanced Persistent Threat)
SOC 安全运营中心(Security Operation Center)
SIEM 安全信息与事件管理(Security Info & Event Mgmt)
DRL 深度强化学习(Deep Reinforcement Learning)
PPO 近端策略优化(Proximal Policy Optimization)
MDP 马尔可夫决策过程(Markov Decision Process)
AAD 基于自编码器的异常检测评分
IoC 入侵指标(Indicator of Compromise)
MITRE ATT&CK 攻击技战术知识库
SPL Splunk 查询语言(Splunk Processing Language)
SOAR 安全编排、自动化与响应
CrewAI 多 Agent 协作框架
BOTS Boss of the SOC(公开 SOC 基准数据集)
T1071 MITRE:Application Layer Protocol(C2 通信)
T1046 MITRE:Network Service Scanning(网络扫描)
T1552.005 MITRE:Cloud Instance Metadata API(云元数据接口利用)

十、个人评价

亮点

  1. 端到端闭环设计:从日志摄入到人工决策,覆盖完整 SOC 工作流
  2. 层次化过滤策略:AAD + DRL 组合先粗筛,仅把高优先级(>5)流量送 LLM,LLM 流量削减达 63-65%
  3. 奖励函数设计灵活:4 种模式对应不同 SOC 运营目标,实验验证充分
  4. 严格反特征泄露设计:AAD 不参与 DRL 训练,工程严谨性高
  5. LLM 隐私保护意识:IP 匿名化后再送 LLM,设计合理
  6. Mode D 最具实用价值:在模拟数据集上 F1=0.795,在 BOTS 上遗憾值最低(1.358),鲁棒性最强

潜在不足

  1. BOTS 数据集规模偏小(12,000 条),评估可信度有限
  2. 两个数据集结论存在分歧:BOTS 上 Mode B 最佳,模拟集上 Mode C/D 更好,实际场景选择需谨慎
  3. 无与传统 ML 基线(SVM/RF/XGBoost)的定量对比数字,无法客观评估 DRL 的增益
  4. 短暂性攻击盲区:固定 5 分钟窗口可能完全错过快速完成的攻击

笔记版本:v2.0(PDF 精读补充实验数据)| 生成时间:2026-03-27

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐