OpenSREClaw 是什么

一句话,他是 SRE 使用的 OpenClaw,是 AIOps 落地的具体产品。

OpenSREClaw 的定位

OpenSREClaw 的定位是三个方向:
1)作为工具完成巡检、变更值守等工作,同时对数据波动进行风险评估,给出规避建议;监听风险事件、影响范围感知、实时风险等级评估。
2)作为技术风险专家参与变更方案评审、故障恢复预案推荐、故障复盘报告生成,基于历史故障沉淀,输出评审意见、恢复建议、复盘报告。
3)辅助 SRE 架构师,设计基于混沌工程的攻防演练方案,通过主动探测系统韧性脆弱项,给出体系化的风险纵深防御体系升级行动方案。

OpenSREClaw 的优势

1)不只是固定逻辑的工具,能够从历史数据中发现模式、规律,给出针对性的建议
2)不带有人性中的避责意,能够给出客观公正的故障复盘根因,避免复盘动作变形
3)多 Agent 机制可以以左右互搏的机制,实现 7*24 不间断持续进化,远超人类

多 Agent 职责矩阵

根据 SRE 的工作职责和 Agent 单一职责原则,规划 Agent 和 Skill 如下:

  • Main,Copilot Agent,人机交互入口、多 Agent 协调
  • Monitor,查询指标数据,阈值和波动风险评估、输出报告
  • Change,变更风险控制,审批、值守、验证、回滚
  • Incident,事件响应、应急进展同步、应急预案推送、故障复盘
  • Capacity,容量规划和治理,容量预警,成本优化建议
  • Chaos, 混沌工程演练,提供韧性脆弱项评估和风险防控建议

多 Agent 协作流程

这里我们以 Incident Agent 和 Change Agent 为例,推演一下如何通过二者协作,完成变更风险防控模式的升级。

SRE 有两个非常体现专业程度的活动:故障复盘、变更评审。故障复盘最主要的目的是总结经验,确保后续的变更过程中,能够形成风险防控的有效措施,但时间的推移和不同 SRE 的经验差异,历史故障中的"教训",随着时间越来越长而被淡忘,在面向新的类似/相同变更时,专家经验也出现了"钝化"。

OpenClaw 的角色+记忆机制,就可以客观、持久地把过去故障造成的教训转化成下一次变更前,对风险控制的清晰准则,以抵御专家经验的"钝化",并且可以通过将新的故障复盘报告作为输入,强化 Agent 对组织的故障特征的认知,能够更加精准地识别出变更方案中的危险信号,从而给出针对性的有效建议。

因此,Incident Agent 和 Change Agent 就构成了一对可以闭环的 Agent 组合。其具体的协作方式:

Incident Agent -> 生成故障复盘报告 -> 从故障复盘报告中建立 SRE 稳定性专家经验 -> Change Agent 使用 SRE 稳定性专家经验评审变更方案 -> 基于红线准则拦截高危变更,确保同类/类似故障不再发生

在这个闭环中,SRE 只需要对全新的变更对象、变更场景进行深入评估,日常已知的变更对象、变更场景基本可以由 Agent 接管,SRE 只需要做确认即可。

推演到这里,我们更加清晰了 AI 和 SRE 的定位:

AI:对历史上类似、相同的变更进行风险评估(这是 AI 的优势)
SRE:对全新的变更对象、场景或者高度复杂的变更方案进行评审即可。

二者发挥各自的优势,形成互补。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐