Opus 4.6 的 500 个 0day,对我们来说意味着什么?
引言
在 Claude Opus 4.6 发布前的内部红队测试中,Anthropic 的前沿红队做了一件简单粗暴的事:把 Opus 4.6 扔进沙箱环境,给它 Python 和一套常规漏洞分析工具(fuzzer、debugger 等),不提供任何专门指令,不注入任何领域知识,让它自己去挖开源代码库的漏洞。
结果:超过 500 个此前未知的高危零日漏洞。
对此,我看到不少安全从业者半开玩笑地说"要被 AI 淘汰了"。虽然语气多是调侃,但调侃背后的焦虑是真实的。这个话题值得认真聊一聊。
先说结论:Opus 4.6 表现出的能力,大概率没有改变我写上一篇自动化漏洞挖掘文章时对这个方向的核心假设。这次之所以传播效果炸裂,主要是因为它让大模型在安全领域的能力被更广泛地认知了。
为什么这么说?我们需要搞清楚几件事。
一、这 500 个漏洞到底意味着什么?
1. 发现难度:中等难度以下的低垂果实被系统性消除
这是最关键的问题:Opus 4.6 发现的这些漏洞,是"更快地找到了人类也能找到的漏洞",还是"找到了人类找不到的漏洞"?
从目前公开的信息来看,大概率是前者。
Anthropic 博客中举例展示的漏洞以二进制层面的问题为主。结合其使用 fuzzer 作为核心工具这一点来看,Opus 4.6 更像是一个前大模型时代的中等水平安全研究员——把各类工具用得比较熟练,并能从代码分析、fuzzing 的过程中找到漏洞。
这让我联想到安全发展史上的一个类似节点:DEP/ASLR 以及基于编译器的漏洞检测工具的普及。这些技术出现后,一大批"某些类型的漏洞如格式化字符串"被系统性地消除了。Opus 4.6 做的事情本质上类似——用 AI 的推理和自动化能力,系统性地扫荡了中等难度以下的漏洞。
但真正难的漏洞——涉及全新的漏洞模式、新颖的利用思路、多系统交互产生的复杂逻辑缺陷——通常需要安全研究员对目标系统有深度理解,需要创造性地提出"如果这里的假设不成立会怎样"这类问题。一个没有任何领域知识注入的裸 Agent,在短时间内很难做到这一点。
2. 覆盖率:大概率不高
500 个漏洞是个大数字,但换一个角度问:在它扫描的代码库中,它漏掉了多少?
高覆盖率的全面漏洞发现本质上是一个长周期任务——需要持续地、系统性地遍历代码路径,理解业务逻辑,追踪数据流。而目前裸 Agent 在长周期任务上的表现其实并没有那么好:上下文会丢失,策略会漂移,对复杂状态的追踪能力有限。
当然,通过专业的编排(orchestration),这个问题可以在一定程度上得到缓解——类似于 Cursor 展示的那样,用精巧的编排可以完成复杂的工程任务。但在安全领域,这样的编排仍然需要专家知识,短时间内 AI 自己很难独立搞定。
3. 漏洞质量:AI 确实可以用来发现严重的漏洞
漏洞的危害程度和发现难度之间没有直接的线性关系。一个简单的命令注入可能就是个 RCE,危害极大,但发现它可能只需要一条 CodeQL 规则。
从 Anthropic 博客举例的漏洞来看,因为主要使用 fuzzer 作为工具,发现的漏洞危害评级偏中等。但这并不意味着 AI 只能发现这类漏洞——如果把工具换成 CodeQL或者直接的代码阅读,它完全有可能发现 RCE 级别的高危漏洞。工具决定了猎场,AI 决定了在猎场里的狩猎效率。
二、对安全从业者的影响:没必要恐慌,但要拥抱 AI
如果持续学习能力在模型层面真正实现并发展成熟,同时推理能力继续增强,那确实可能出现完全替代人类的情况——但那本质上就是 AGI 了。在 AGI 到来之前,目前我对自动化漏洞挖掘这个方向的判断与我之前的文章是一致的:执行正在变得廉价,知识和编排仍然是杠杆极高的方向。
具体来说,以下四个方向是我认为当下安全从业者具有较高投入杠杆的。
1. 用领域知识指挥 AI 干活
拥抱 AI,接受 AI,把自己从执行者变成指挥者。
安全研究员最大的不可替代性在于:你知道去哪里找、找什么、怎么判断找到的东西有没有价值。这些经验和直觉,短期内 AI 学不会。但 AI 的执行力——读代码的速度、测试的吞吐量、模式匹配的广度——远超人类。
最佳策略是:用自己的经验和领域知识指导 Agent,一起去做那些独创性的、涉及复杂系统交互的漏洞挖掘工作。你提供方向和判断,AI 提供手脚和算力。
2. 通过人工编排提高覆盖率
在 AI 的持续学习范式还没有稳定之前,裸 Agent 对长周期任务的处理能力是有上限的。这个上限可以通过人工编排来突破,因此利用专家知识进行更好的编排在短时间内是一个高价值方向。
怎么拆任务、怎么设检查点、怎么在子任务之间传递上下文、怎么处理 AI 的幻觉和漂移——这些编排能力本身就是一种高价值技能。
3. 设计降低成本的协同架构
AI 找漏洞很强,但也很贵。500 个漏洞背后烧了多少 token,Anthropic 没说。
在实际落地中,成本是一个绕不开的硬约束。大小模型协同(小模型做初筛、大模型做深度分析)、大模型与传统工具组合(大模型做推理和决策、fuzzer 和静态分析做执行)——这些架构设计需要同时具备对漏洞的理解和工程能力。通过合理的编排降低单个任务的复杂度,间接降低成本,短时间内也是一个高价值方向。
4. 让传统工具对 AI 更友好
这一点非常重要,却容易被忽视。
我说的不是"用 LLM 去加强 fuzzer 和静态分析工具"(虽然这也有价值),而是反过来——怎样让这些工具在 AI 手里用起来更顺手。
更好用的 debugger,输出格式更适合 LLM 解析;更好用的 fuzzer,接口设计更适合被 Agent 调用;更好用的 CodeQL 工作流,让 AI 能更高效地编写和迭代查询规则。
当然,"用 AI 加强这些工具"也是手段之一——但核心思路不同。前者是以 AI 为中心重新设计工具链,后者是在现有工具上打 AI 补丁。前者的长期价值更大。
三、未来确定会贬值的能力
说完该做什么,也该说说什么会被淘汰。
1. 靠工具熟练度挖简单漏洞的能力
如果你的核心竞争力是"我比别人更熟练地使用 CodeQL 来找漏洞"——这个护城河正在快速消失。AI 使用工具的熟练度提升速度远超人类,而简单模式的漏洞恰恰是 AI 最擅长批量消灭的。
2. 拘泥于旧范式的执行层工作
比如继续用一些"玄学思路"卷 fuzzing 的覆盖率,意义已经不大了。未来 AI 完全有可能做到:发现 fuzz 卡住了,自己分析卡住的原因,理解是哪个分支条件难以满足,然后构造一个精准的输入绕过卡点。这种闭环推理能力,正是 LLM 相较于传统 fuzzer 的质变之处。
结语:工业革命已至,与 AI 共舞
AI 对各行各业的影响将是巨大的。这就是新的工业革命。
我最近在读一本关于工业革命史的书,历史告诉我们:每一次技术革命,短期内都会给大多数人带来剧烈的阵痛,甚至带来混乱和动荡。蒸汽机来的时候,手工织布工人砸过机器;但最终,那些学会操作机器的人,生产力是前辈的百倍。
谁也不知道未来的具体形态是什么。但未来既然已来,害怕毫无意义。
与其焦虑被替代,不如思考如何站在 AI 的肩膀上,用你的经验、判断力和创造力,去做那些 AI 做不到的事。
让我们共勉,与 AI 共舞。