OpenSREClaw - OpenClaw 多 Agent 架构
OpenSREClaw 是什么
一句话,他是 SRE 使用的 OpenClaw,是 AIOps 落地的具体产品。
OpenSREClaw 的定位
OpenSREClaw 的定位是三个方向:
1)作为工具完成巡检、变更值守等工作,同时对数据波动进行风险评估,给出规避建议;监听风险事件、影响范围感知、实时风险等级评估。
2)作为技术风险专家参与变更方案评审、故障恢复预案推荐、故障复盘报告生成,基于历史故障沉淀,输出评审意见、恢复建议、复盘报告。
3)辅助 SRE 架构师,设计基于混沌工程的攻防演练方案,通过主动探测系统韧性脆弱项,给出体系化的风险纵深防御体系升级行动方案。
OpenSREClaw 的优势
1)不只是固定逻辑的工具,能够从历史数据中发现模式、规律,给出针对性的建议
2)不带有人性中的避责意,能够给出客观公正的故障复盘根因,避免复盘动作变形
3)多 Agent 机制可以以左右互搏的机制,实现 7*24 不间断持续进化,远超人类
多 Agent 职责矩阵
根据 SRE 的工作职责和 Agent 单一职责原则,规划 Agent 和 Skill 如下:
- Main,Copilot Agent,人机交互入口、多 Agent 协调
- Monitor,查询指标数据,阈值和波动风险评估、输出报告
- Change,变更风险控制,审批、值守、验证、回滚
- Incident,事件响应、应急进展同步、应急预案推送、故障复盘
- Capacity,容量规划和治理,容量预警,成本优化建议
- Chaos, 混沌工程演练,提供韧性脆弱项评估和风险防控建议
多 Agent 协作流程
这里我们以 Incident Agent 和 Change Agent 为例,推演一下如何通过二者协作,完成变更风险防控模式的升级。
SRE 有两个非常体现专业程度的活动:故障复盘、变更评审。故障复盘最主要的目的是总结经验,确保后续的变更过程中,能够形成风险防控的有效措施,但时间的推移和不同 SRE 的经验差异,历史故障中的"教训",随着时间越来越长而被淡忘,在面向新的类似/相同变更时,专家经验也出现了"钝化"。
OpenClaw 的角色+记忆机制,就可以客观、持久地把过去故障造成的教训转化成下一次变更前,对风险控制的清晰准则,以抵御专家经验的"钝化",并且可以通过将新的故障复盘报告作为输入,强化 Agent 对组织的故障特征的认知,能够更加精准地识别出变更方案中的危险信号,从而给出针对性的有效建议。
因此,Incident Agent 和 Change Agent 就构成了一对可以闭环的 Agent 组合。其具体的协作方式:
Incident Agent -> 生成故障复盘报告 -> 从故障复盘报告中建立 SRE 稳定性专家经验 -> Change Agent 使用 SRE 稳定性专家经验评审变更方案 -> 基于红线准则拦截高危变更,确保同类/类似故障不再发生
在这个闭环中,SRE 只需要对全新的变更对象、变更场景进行深入评估,日常已知的变更对象、变更场景基本可以由 Agent 接管,SRE 只需要做确认即可。
推演到这里,我们更加清晰了 AI 和 SRE 的定位:
AI:对历史上类似、相同的变更进行风险评估(这是 AI 的优势)
SRE:对全新的变更对象、场景或者高度复杂的变更方案进行评审即可。
二者发挥各自的优势,形成互补。
更多推荐

所有评论(0)