Claude读论文系列(一)
本文提出了一种基于LLM的自动化威胁猎杀框架,将Agentic AI与Splunk SIEM深度集成,构建了7层流水线系统。核心创新在于结合自编码器异常检测、DRL初步分类和LLM多智能体分析,实现了从日志处理到威胁验证的完整闭环。实验表明,该系统在BOTS和模拟数据集上表现优异,特别是Mode B奖励模式下达到最佳平衡(F1-score 0.861)。该框架有效解决了传统方案在新型威胁检测、告警
论文精读笔记:Policy-Guided Threat Hunting
arXiv: 2603.23966
标题: Policy-Guided Threat Hunting: An LLM enabled Framework with Splunk SOC Triage
作者: Rishikesh Sahay, Bell Eapen, Weizhi Meng, Md Rasel Al Mamun, Nikhil Kumar Dora, Manjusha Sumasadan, Sumit Kumar Tetarave, Rod Soto
发表时间: 2026-03-25 | 总页数: 45 页
领域: 密码学与安全 (cs.CR)、人工智能 (cs.AI)
链接: https://arxiv.org/abs/2603.23966
一、核心问题与动机
背景痛点
- APT 威胁激增: 2024 年 APT 比 2023 年增加了 74%(Kaspersky 2024);侦察活动每年增加 16.7%(Fortinet 2025)
- 传统方案局限:
- 传统 EDR/签名检测工具依赖已知攻击模式,无法应对新型威胁
- SIEM(如 Splunk)依赖预定义规则,缺乏上下文感知能力
- SOC 分析师面临海量日志(高吞吐环境下每时间窗口可达百万级)和告警疲劳问题
- SOC 安全分析师人力短缺,重复性工作负担重
- 现有 AI 方案的缺口: 大多数方案要么只做检测(缺少 SIEM 集成),要么缺乏完整的流量优先级排序、LLM 上下文分析、SOAR 建议的闭环能力
核心创新点
提出一个自动化、动态的威胁猎杀框架,将 Agentic AI 与 Splunk SIEM 深度集成,实现从日志摄入→异常检测→DRL 初步分类→LLM 上下文分析→Splunk 验证的完整闭环。
二、框架架构总览(7 层流水线)
网络流量日志
│
▼
[1] SIEM 数据摄入(Splunk 索引)
│
▼
[2] 数据清洗与预处理(去重、特征提取→CSV)
│
▼
[3] Autoencoder 异常检测(AAD Score)
│
▼
[4] DRL 初步分类(Contain/Allow)
│
▼
[5] 优先级评分 = DRL决策 × AAD Score → 高优先级流量(阈值 >5)
│
▼
[6] LLM 多智能体上下文分析(CrewAI 框架)
│ ├── Senior SOC Triage Analyst → 风险评估 + SPL 查询生成
│ └── Threat Intelligence Analyst → MITRE ATT&CK 映射
│
▼
[7] Splunk 验证(人工 SOC 分析师介入 → Block/Allow/Monitor)
三、各模块技术细节
3.1 Autoencoder-Based Anomaly Detection (AAD)
目的: 无监督地学习正常网络行为,对每个时间窗口计算异常分数
架构: 全连接重建式自编码器,瓶颈维度为 2(4→8→2→8→4)
训练方式:
- 只用早期良性流量(前 25% 时间段)进行训练,避免混入攻击信息
- 特征标准化也只基于良性流量统计量(均值和标准差)
特征集: {src_port, dest_port, bytes_in, bytes_out}
异常分数公式(均方重建误差):
AAD(t) = (1/|F|) * Σ (x_{t,i} - x̂_{t,i})²
关键设计: AAD Score 不参与 DRL 训练,避免特征泄露(Feature Leakage)
3.2 时间窗口状态构建
- 将原始流量聚合为 Δt = 5 分钟的固定时间窗口
- 每个窗口构建状态向量
s_t = φ(F_t),包含:- 数值统计(端口均值、最大值,字节数统计)
- 编码类别属性(协议标识、低基数 IP 表示)
3.3 Deep Reinforcement Learning (DRL)
框架: MDP(马尔可夫决策过程),M = (S, A, P, R, γ)
网络结构: MLP,2 个隐藏层(各 64 神经元),ReLU + Softmax
训练算法: PPO(近端策略优化)
优先级评分:
Triage Priority = DRL_Action × AAD_Score
仅优先级分数 > 5 的流量窗口被转发给 LLM 分析
四种奖励模式(Reward Shaping):
| 模式 | 策略重点 | 适用场景 |
|---|---|---|
| Mode A | 召回率优先(惩罚漏报 > 误报) | 初期威胁发现、基线敏感性分析 |
| Mode B | 误报优先(重罚误报,重奖真负) | 高置信告警、减少 SOC 工作量 |
| Mode C | 均衡折中 | 一般 SOC 环境 |
| Mode D | Mode C + 高斯噪声 ε~N(0,σ²) |
提高策略鲁棒性,模拟不确定性 |
3.4 LLM 多智能体分析(CrewAI 框架)
三个 LLM 智能体协作(基于 ChatGPT API,敏感场景建议本地 LLM):
- Senior SOC Triage Analyst: 评估威胁等级(良性/可疑/高风险)+ 生成 SPL 查询
- Threat Intelligence Analyst: MITRE ATT&CK 映射 + 修复建议
- Orchestrator(协调器): 汇总输出可读报告 + 事件响应 Playbook
IP 地址在送入 LLM 前会进行匿名化处理,保护隐私
3.5 Splunk 验证(Human-in-the-Loop)
LLM 生成的 SPL 查询交给 SOC 分析师在 Splunk 仪表板执行验证,决策结果为:
- Block(配置检测规则封锁)/ Allow(放行)/ Monitor(继续监控)
四、实验设置(§6 + §7)
4.1 用例与威胁模型
实验拓扑:
- 攻击机: Kali Linux
- 受害机: Windows 11(虚拟机,部署 Suricata IDS + Splunk Universal Forwarder)
- SIEM 服务器: Windows Server 2019(运行 Splunk Enterprise)
模拟攻击类型:
- 网络扫描攻击(Network Scanning) — 识别活跃主机、开放端口和服务,对应 MITRE T1046
- UDP 洪泛 DoS 攻击(Volumetric DoS) — 发送大量伪造数据包耗尽网络带宽/CPU/内存
4.2 数据集
| 数据集 | 描述 | 规模 |
|---|---|---|
| Boss of the SOC (BOTS) [公开基准] | 安全运营中心真实场景数据集,含流量日志 | 清洗去重后约 12,000 条实例 |
| 模拟数据集 | 依据 §6 威胁模型自行采集的 Suricata IDS 日志 | 300,000 条实例 |
特征字段: source IP、destination IP、source port、destination port、in bytes、out bytes、protocols、time
五、实验结果(§7 完整数据)
5.1 LLM 自动分类样例(Table 4,BOTS 数据集)
| Flow ID | Source IP | Destination IP | Priority Score | MITRE ID | Agent 判定 |
|---|---|---|---|---|---|
| 26 | 172.31.38.181 | 172.31.0.2 | 7.12×10¹² | T1071 | Critical:C2 通信确认 |
| 35 | 172.16.0.178 | 172.16.3.197 | 9.49×10⁻¹ | T1071 | 恶意行为:疑似通过标准协议数据渗漏 |
| 34 | 192.168.8.103 | 192.168.9.30 | 7.33×10⁻¹ | T1071 | 中等风险,建议持续监控 |
| 30 | 172.16.0.178 | 169.254.169.254 | 5.22×10⁻¹ | T1552.005 | 可能尝试利用云基础设施 |
| 23 | 192.168.8.112 | 192.168.9.30 | 5.06×10⁻¹ | T1071 | 中度关注,建议持续监控 |
Flow ID 26 分析: 高频 DNS 通信(dest_port=53),来自同一源 IP(172.31.38.181),1000 个事件发生在单个 217-236 秒的时间窗口内,与 C2 信标或 DNS 隧道特征吻合。所有 DNS 响应语法有效(reply_code=NoError),说明检测依赖行为聚合而非协议违规。
5.2 四种奖励模式性能对比
BOTS 数据集(Fig. 4)
| 模式 | Precision | Recall | F1-Score | 特点 |
|---|---|---|---|---|
| Mode A | ~0.85 | ~0.85 | ~0.85 | 均衡性能,精/召/F1 均接近 0.85,适合早期威胁发现 |
| Mode B | — | 0.873 | 0.861 | 最佳整体表现,重罚误报使高置信检测达到最高 |
| Mode C | 0.830 | 0.744 | 0.783 | 召回明显下降,策略保守,会错过部分恶意事件 |
| Mode D | ~0.82 | ~0.82 | ~0.82 | 稳定一致,随机奖励防止过拟合,适合不确定环境 |
模拟数据集(Fig. 6,Suricata 流量)
| 模式 | Precision | Recall | F1-Score | 特点 |
|---|---|---|---|---|
| Mode A | 0.636 | 0.998 | — | 近乎完美检测,但大量误报导致告警疲劳 |
| Mode B | 0.976 | 0.495 | — | 高精度但召回极低,过于保守,大量恶意流量漏过 |
| Mode C | 0.645 | 0.998 | 0.784 | 均衡最佳,高检测率同时控制误报 |
| Mode D | 0.926 | 0.696 | 0.795 | 最高 F1,随机性增强鲁棒性,防止对模拟数据集过拟合 |
5.3 决策代价与遗憾分析(Table 5,BOTS 数据集)
| 模式 | 均值决策代价 | 标准差 | 均值遗憾 | 标准差 |
|---|---|---|---|---|
| Mode A | -0.526 | 1.049 | 1.474 | 1.049 |
| Mode B | -0.254 | 1.126 | 2.588 | 3.059 |
| Mode C | -0.789 | 1.233 | 1.684 | 1.921 |
| Mode D | -0.794 | 1.027 | 1.358 | 1.250 |
关键发现:
- Mode C 和 D 决策代价最低(约 -0.79),运营效率最高
- Mode D 遗憾值最低(1.358),说明随机奖励增强了策略在时序分布变化下的鲁棒性
- Mode B 遗憾值最高(2.588)且方差最大(3.059),对误报惩罚敏感度过高
5.4 转发给 LLM 的流量削减率(Fig. 5 & 7)
模拟数据集(Fig. 7): 所有奖励模式下,DRL 过滤机制将转发至 LLM 的流量减少约 63%–65%
| 模式 | 流量削减特点 |
|---|---|
| Mode A | 削减量大,几乎不漏报真实告警 |
| Mode B | 削减量大,但漏报率高(召回仅 0.495) |
| Mode C | 削减量较小,保留更多流量供 LLM 分析 |
| Mode D | 中等削减,兼顾覆盖率和效率 |
设计意义: LLM 仅处理经过筛选的少量高优先级流量,既降低计算开销,也减少幻觉(hallucination)风险
5.5 Splunk 验证结果
BOTS 数据集案例:
- SPL 查询通过
transaction算子(maxpause=5秒)重建通信会话,过滤 event count>10 的突发流量 - 确认 172.31.38.181 的高频 DNS 通信(1000 事件/217-236 秒)为 C2 信标,映射 MITRE T1071
模拟数据集案例:
- 检测到 10.0.2.4 → 10.0.2.15 在极短时间窗口内扫描多个目标端口
- 映射 MITRE T1046(网络服务扫描)
- 异常来自时序聚合和行为模式,而非协议违规或恶意签名
六、与现有方案对比
本文框架是现有方案中唯一全部满足以下 9 项能力的方案:
| 能力 | 本文 | Sheth 2025 | NetMonAI | MS Copilot | Sahay 2025 |
|---|---|---|---|---|---|
| 异常评估 | ✅ | ✅ | ✅ | ❌ | ❌ |
| 流量优先级排序 | ✅ | ❌ | ❌ | Partial | ❌ |
| 初步分类 | ✅ | ❌ | ✅ | ✅ | ✅ |
| Agentic AI/LLM 集成 | ✅ | ✅ | ✅ | ✅ | ✅ |
| MITRE ATT&CK 映射 | ✅ | ❌ | ❌ | Partial | ✅ |
| SIEM 集成与验证 | ✅ | ❌ | ❌ | ✅ | ✅ |
| SOAR 建议 | ✅ | ❌ | ❌ | ✅ | ✅ |
| SOC 决策支持 | ✅ | Partial | ❌ | ✅ | ✅ |
| 自适应策略学习 | ✅ | Partial | ❌ | ❌ | ❌ |
七、设计原则:严格功能分离
| 组件 | 用途 | 输入特征 |
|---|---|---|
| AAD | 持续异常评分 | 原始网络特征 |
| DRL | 决策与初步分类 | 原始特征(不含 AAD Score) |
| LLM Agent | 上下文洞察与推理 | 优先级流量 + DRL 决策 + AAD Score |
关键:AAD Score 被刻意排除在 DRL 训练特征之外,防止特征泄露导致性能虚高
八、局限性与未来工作(§8 + §9)
当前局限
- 仅二元决策(Contain/Allow): 实际 SOC 需要 Monitor/Throttle/Escalate/Isolate 等多级动作
- 公有 LLM 隐私风险: 使用 ChatGPT API 时敏感日志需先匿名化(已在实验中对 IP 匿名)
- 固定时间窗口局限: 5 分钟聚合窗口对短暂性攻击(short-lived attacks)检测能力有限
- 当前缺乏检测到缓解的完全自动化: 定位为辅助 SOC 分析师,最终决策由人工完成
- 单一同质日志源: 目前仅评估 Suricata IDS 日志,未集成多异构源
未来工作
- 扩展动作空间到多级遏制决策(Monitor/Escalate/Isolate)
- 探索自适应时间窗口策略和多时序层次策略以提升短暂攻击检测
- 使用领域专用或本地部署 LLM,降低幻觉风险和隐私顾虑
- 研究自主决策 SOC 系统的伦理问题(透明度、偏见、问责)
- 基于多异构日志源(非仅 Suricata)进行全面评估
九、关键技术词汇速查
| 术语 | 含义 |
|---|---|
| APT | 高级持续性威胁(Advanced Persistent Threat) |
| SOC | 安全运营中心(Security Operation Center) |
| SIEM | 安全信息与事件管理(Security Info & Event Mgmt) |
| DRL | 深度强化学习(Deep Reinforcement Learning) |
| PPO | 近端策略优化(Proximal Policy Optimization) |
| MDP | 马尔可夫决策过程(Markov Decision Process) |
| AAD | 基于自编码器的异常检测评分 |
| IoC | 入侵指标(Indicator of Compromise) |
| MITRE ATT&CK | 攻击技战术知识库 |
| SPL | Splunk 查询语言(Splunk Processing Language) |
| SOAR | 安全编排、自动化与响应 |
| CrewAI | 多 Agent 协作框架 |
| BOTS | Boss of the SOC(公开 SOC 基准数据集) |
| T1071 | MITRE:Application Layer Protocol(C2 通信) |
| T1046 | MITRE:Network Service Scanning(网络扫描) |
| T1552.005 | MITRE:Cloud Instance Metadata API(云元数据接口利用) |
十、个人评价
亮点
- 端到端闭环设计:从日志摄入到人工决策,覆盖完整 SOC 工作流
- 层次化过滤策略:AAD + DRL 组合先粗筛,仅把高优先级(>5)流量送 LLM,LLM 流量削减达 63-65%
- 奖励函数设计灵活:4 种模式对应不同 SOC 运营目标,实验验证充分
- 严格反特征泄露设计:AAD 不参与 DRL 训练,工程严谨性高
- LLM 隐私保护意识:IP 匿名化后再送 LLM,设计合理
- Mode D 最具实用价值:在模拟数据集上 F1=0.795,在 BOTS 上遗憾值最低(1.358),鲁棒性最强
潜在不足
- BOTS 数据集规模偏小(12,000 条),评估可信度有限
- 两个数据集结论存在分歧:BOTS 上 Mode B 最佳,模拟集上 Mode C/D 更好,实际场景选择需谨慎
- 无与传统 ML 基线(SVM/RF/XGBoost)的定量对比数字,无法客观评估 DRL 的增益
- 短暂性攻击盲区:固定 5 分钟窗口可能完全错过快速完成的攻击
笔记版本:v2.0(PDF 精读补充实验数据)| 生成时间:2026-03-27
更多推荐



所有评论(0)