当AI开始写代码,运维会失业吗?
当AI开始写代码,运维会失业吗?
《AI视界——从资讯看技术》专栏 · 第一期
不制造焦虑,冷静分析。从运维视角看AI编程,这是一次职责和技能栈的重塑。
一、由一则新闻说起
最近技术社区被一条消息刷了屏——有人用 Cursor 在一小时内独立完成了一个完整的小游戏。
评论区炸了。
“程序员要被取代了”、“初级开发岗要消失”、“现在学编程还来得及吗”……焦虑在蔓延。
但不知道你有没有注意到一个细节:这些讨论几乎全是从开发者视角出发的。
很少有人问:当这些由AI生成的代码被部署到生产环境,会发生什么?
作为一个即将踏入云计算运维领域的人,我想从另一个角度聊聊这个话题。
二、AI的代码是怎么“想”出来的?
先别急着恐慌,我们来看一个根本问题:AI编程工具到底是怎么工作的?
本质:一个“超级自动补全”
用过手机输入法的联想功能吗?你打“今天天气”,它自动弹出“真好”、“不错”。
AI编程的底层逻辑,和这个没有本质区别。
像 GitHub Copilot、Cursor 背后的大型语言模型,训练时“阅读”了 GitHub 上海量的开源代码。它们学习的,是代码的统计规律——在什么样的注释后面,大概率会出现什么样的代码块;在什么样的函数名之后,通常会跟着什么样的实现。
这不是理解,这是概率预测。
AI的三个“知识盲区”
这个本质决定了AI编程工具有无法回避的短板:
- 它不理解业务:AI不知道你的用户是银行还是游戏公司,不知道一笔转账的代码背后意味着什么。
- 它看不见架构:你们公司的服务器是单机还是集群?用了哪个云厂商的哪款数据库?这些上下文,AI完全不知道。
- 它的“经验”有滞后:训练数据截止到某个时间点,对于之后出现的新框架、新漏洞、新最佳实践,它一无所知。
看到这里,运维的同行们可能已经开始意识到问题了。
三、亲自试一把:扮演一回“AI程序员”
光讲理论太枯燥,我用 Python 做了两个小实验。你也可以直接在终端里试试。
实验一:惊艳的生成
我给AI提了一个运维常用的需求:
“用Python写一个监控CPU使用率的脚本,如果超过80%就打印警告。”
几秒钟后,它给出了这样的代码:
import psutil
import time
def monitor_cpu(threshold=80):
cpu_usage = psutil.cpu_percent(interval=1)
if cpu_usage > threshold:
print(f"[警告] CPU使用率过高:{cpu_usage}%")
else:
print(f"[正常] CPU使用率:{cpu_usage}%")
if __name__ == "__main__":
while True:
monitor_cpu()
time.sleep(5)
简洁、规范、能跑。对于一个刚学Python的人来说,这的确能节省不少查文档的时间。
实验二:潜藏的隐患
接着,我提了一个听起来也很合理的需求:
“把这个脚本改成一个持续运行的HTTP服务,通过 /health 接口返回CPU状态。”
AI很快给出了 Flask 版本:
from flask import Flask, jsonify
import psutil
app = Flask(__name__)
@app.route('/health')
def health_check():
cpu = psutil.cpu_percent(interval=1)
status = "warning" if cpu > 80 else "ok"
return jsonify({"cpu_usage": cpu, "status": status})
if __name__ == '__main__':
app.run(host='0.0.0.0', port=5000)
功能上没毛病,对吧?
但如果要把这个服务部署到生产环境,作为一个运维,我立刻看到了三个隐患:
隐患一:性能陷阱
注意 psutil.cpu_percent(interval=1) 这个调用。interval=1 意味着它要阻塞整整1秒钟来采集CPU数据。这意味着每个请求进来,都要干等1秒才能拿到响应。如果同时来100个请求呢?服务直接瘫痪。
隐患二:安全风险
host='0.0.0.0' 这行代码,AI很“贴心”地帮你加上了——它从训练数据里学到很多示例都这么写。但它不知道你的服务器是暴露在公网还是内网。如果直接部署到云服务器上,这就是把端口毫无保护地裸露了出去。
隐患三:没有容错机制
psutil 库在某些容器环境下可能获取不到完整信息,Flask 自带的开发服务器也经不起生产环境的并发量。AI的代码里没有任何异常处理,崩了就是崩了。
别急着怪AI,它连“身在何处”都不知道
上面三个隐患还算容易发现。但更隐蔽的问题在于:AI根本不了解你的运行时环境。
同样是这段代码,换一个“生存环境”,表现可能完全不同:
- 在Docker容器里:如果不特意挂载宿主机的
/proc文件系统,psutil.cpu_percent()读到的可能是宿主机的CPU数据,而不是当前容器的资源限制。你盯着仪表盘看了半天,以为服务一切正常,实际上容器早就该触发扩容了。 - 在WSL子系统中:如果你在Windows上用WSL跑这段代码,
psutil的部分函数可能直接抛出异常,因为WSL对某些系统接口的模拟并不完整。 - 在不同CPU架构上:
psutil在ARM架构的服务器(比如一些云厂商的鲲鹏、Graviton实例)上,部分指标的采集行为也不一样。
AI给出的是真空中的球形代码。它假设你的环境是最理想的、最新的、最标准的。但真实的生产环境,从来都是复杂、异构、充满了历史遗留的。
这正是运维存在价值的地方——代码只有部署到特定的环境里,才算真正“落地”。而AI对这个环境,一无所知。
四、云运维的未来:从“操作员”到“守门人”
那么回到标题的问题:运维会失业吗?
我的判断是:不会失业,但职责会变。
而且,变得更有价值。
一个你可能听过的类比
汽车工业从手动挡发展到自动挡,再到现在的高阶辅助驾驶。司机这个角色消失了吗?没有。
只是工作重心从“油离配合”变成了观察路况、规划路线、处理突发。
AI编程之于开发者,就是一次从手动挡到辅助驾驶的升级。路况越复杂,越需要一个清醒的司机。
而运维,就是那个负责规划路线、预判风险、处理抛锚的人。
当代码由AI生成时,谁来对它负责?
当AI在一天内生成了过去需要一周才能写完的代码量,以下这些事情不会自动消失:
- 谁来规划安全组、VPC、防火墙策略? AI不知道你的业务哪些是核心敏感数据,哪些接口可以对外暴露。
- 谁来搭建可观测性体系? 100个AI生成的微服务跑起来,监控、日志、告警之间的关系图会变得异常复杂。当告警响起,谁来从海量信息里定位根因?
- 谁为最终稳定性兜底? AI不承担生产事故的责任。凌晨3点服务挂了,爬起来修的是谁?还是运维/SRE。
这三个转变,才是核心竞争力
| 过去 | 未来 |
|---|---|
| 手动执行脚本 | 审核AI生成的自动化脚本 |
| 排查单个故障 | 设计弹性、自愈的系统架构 |
| 配置单个服务 | 制定整个集群的部署策略和规范 |
运维的称呼可能变成SRE、平台工程师、稳定性工程师,但内核不变:是那个对整个系统的生命周期负责的人。
五、写在最后:给同路人的行动建议
如果你和我一样,正处在入行前后这个阶段,面对AI浪潮,与其焦虑,不如做两件事:
第一,积极拥抱工具。 把 Copilot、Cursor 用起来,让它们帮你解决重复劳动。会用AI,本身就是一项新的竞争力。
第二,刻意深入底层。 趁现在,把Linux内核原理、TCP/IP协议栈、容器运行时机制这些AI难以替代的“硬核地基”啃下来。这些知识,才是你未来审核AI代码、排查诡异故障时的底气。
一期一会 · 本期核心笔记
- AI编程的本质是基于统计的代码预测,而非真正的理解。
- AI代码的隐患集中在性能、安全、容错,以及对运行环境的“无知”——这正是运维的新阵地。
- 从操作员到守门人,是挑战,更是护城河。
记下这些,我们下期见——不对,本专栏不设下期预告。科技浪潮变化太快,猜不到明天会爆出什么新闻。但我承诺,每期内容都认真对待,把当下的思考扎实地交付给你。
这里是《AI视界——从资讯看技术》的第一期,我是北冰洋whisky,很高兴与你相遇。
如果这篇文章让你有所思考,欢迎在评论区聊聊:你觉得AI最先改变的,会是运维的哪一项日常?
更多推荐

所有评论(0)