你有没有注意到一个反常识的现象:
2026 年 5 月的大模型排行榜,Kimi K2.6 跑分 94.3,DeepSeek V4 跑 93.8,GPT-5 跑 93.5——前三名差距不到 1 分。模型军备竞赛,已经从"碾压级差距"变成了"微厘之分"。
但与此同时,另一条赛道正在悄悄决定胜负:Claude Code 和 Codex 用的模型水平差不多,但大多数人选 Claude Code。OpenAI 工程师 Ryan Lopopolo 做了一个极端实验——3 个人、5 个月、0 行人工代码,用 AI Agent 写出了百万行生产级产品——但前几周产出几乎不可用,直到他们开始给 Agent"搭环境"。
这个环境,现在有了一个正式的名字:Harness(驾驭系统)。
DeepMind Staff Engineer Philipp Schmid 给了一句定性:
"The Harness is the Dataset.
Competitive advantage is now the trajectories your harness captures."
翻译:Harness 就是数据集。现在真正的竞争优势,在于你的 Harness 能捕获到怎样的执行轨迹。
这篇文章不长,但我想把这个问题讲透:为什么模型不再是瓶颈,为什么 Harness 才是下一个竞争制高点,以及这对所有人意味着什么。
一、一个公式,三个时代
先给一个公式:
Agent = Model + Harness
模型决定"能做什么",Harness 决定"能稳定做成什么"。
AI 工程方法在过去四年经历了三次演进,每次都是因为一个矛盾被解决后,瓶颈外移到了下一层:
Prompt Eng.2022–2024"怎么说话"单轮指令优化Context Eng.2025"看什么资料"上下文管理Harness Eng.2026"什么环境干活"工具+记忆+护栏+验证← 当前
Prompt ⊂ Context ⊂ Harness —— 三者是包含关系,不是替代关系
这三层演进背后有一个共同逻辑:一旦模型能力过线,瓶颈就开始外移。
以前你跟 AI 说不清楚需求,所以卷 Prompt;后来发现光说清楚不够,还得喂对资料,所以卷 Context;现在资料也喂了、话也说明白了,AI 还是会犯蠢——因为它没有工具、没有护栏、没有验证闭环、犯错不会自动修。所以,卷 Harness。
今年 2 月 5 日,HashiCorp 联合创始人 Mitchell Hashimoto——那个创造了 Terraform、改变了全球基础设施管理的男人——在他的博客里第一次正式命名了这个范式:
"Anytime you find an agent makes a mistake, you take the time to engineer a solution such that the agent will never make that mistake again."
每次 Agent 犯错,就花时间工程化一个方案,让它永远不再犯同样的错。
6 天后,OpenAI 官方工程博客直接用 "Harness Engineering" 做标题。然后 Anthropic 跟进,Martin Fowler 深度分析。一个月内,这个词从一个人的博客变成了全球开发者社区的高频词。
二、为什么 Harness 比 Model 更值钱
听起来 Harness 只是个"外围辅助"?错了。三个理由:
理由一:模型趋同,Harness 分化
上面的跑分图已经很清楚了——前五名差距不到 2 分,你在模型层面已经很难拉开身位了。
但 Harness 层面呢?Claude Code 和 Codex 用着几乎同等水平的模型,用户体验却有显著差距。因为 Anthropic 在 Harness 上领先了大约 3-6 个月——就在模型打平的情况下,大多数人依然选 Claude Code。
这几个月的窗口期,就是护城河。
理由二:Harness 产生数据飞轮
这才是核心。
Harness 不只是"模型外面的脚手架",它是执行轨迹的捕获器。当 Agent 在你的 Harness 里跑任务时,它留下了完整的行为轨迹:看到了什么信息、用了什么工具、做了什么决策、哪一步出了错、什么反馈让它变好了。
这些轨迹,就是下一代模型最好的训练数据。
更好的 Harness捕获轨迹RL训练·更强更多用户数据飞轮
Harness → 执行轨迹 → RL训练 → 更强模型 → 更多用户 → 更多轨迹 → ……
谁先跑通这个飞轮,谁就进入正循环。后进者不是差一个模型,而是差一整个数据飞轮。
理由三:训练即部署——模型从 Harness 里"长"出来
很多人以为的开发顺序是:先训练一个好模型,再给它接工具、接工作流——模型是主体,Harness 是后装件。
但 Agentic RL 的训练逻辑恰恰相反。
Windsurf 在训练 SWE-1.5 时说得很直白:
"We believe that the quality of the coding environments in RL tasks is the most important factor for downstream model performance."
在 RL 过程中,coding 环境本身的质量,对模型最终表现的影响是最大的。
他们的做法是:把模型和 Harness 当成一个整体来共同优化——一边反复使用模型,一边暴露 Harness 的问题,调整工具和 prompt,然后基于新的 Harness 重新训练模型。
Cursor 训练 Composer 1.5 也是类似:并发跑数十万个沙盒,让模型在真实 coding 环境中反复试错。结果模型自发涌现了很多能力——学会深入搜索、顺手修 linter 错误、自己补单元测试、从大改一片转向先多读少改。
这些能力不是从训练数据里学来的,是从 Harness 环境里"长"出来的。
三、Harness 在做一件很奇特的事
它一边创造价值,一边被模型吃掉。
这是最反直觉的部分。
Harness 创造的价值,正在被模型一点点内化。比如 tool search、programmatic tool use、context compaction、多步工具调用——这些原本都需要 Harness 强行维持的能力,正在变成模型自己的能力。过程是这样的:
前线摸索哪些方法有效Post-training模式做进模型模型内化能力变成模型的新 Harness支持新能力循环往复
Claude Code 负责人 Boris Cherny 说过:Claude Code 的 Harness 在不断被重写,里面每行代码的保质期可能也就 2 个月。
但——这恰恰说明 Harness 有多重要。因为谁在写这些保质期 2 个月的代码,谁就在定义模型的下一轮进化方向。
Harness 是模型的矿脉。模型从 Harness 里采矿,然后把矿脉向前推进。矿脉在哪,矿就往哪走。
四、资本已经开始下注
如果你觉得这只是技术圈的理念之争,看看钱在往哪流:
注意这些公司的投资人:a16z、Sequoia、FirstMark、ICONIQ——这层基础设施已经在被认真下注了。
而在大公司端,更有意思的竞争格局正在形成:头部模型公司在端到端做 Harness,而应用公司开始自己训模型。
湾区已经有很多大 AI 应用公司在搭建自己的 continuous learning 平台——基于自己的 Harness 和业务数据做开源模型的 RL,并且开始从头部 AI Labs 迁移模型用量。
他们的判断是:在很多垂直场景里,今天的开源模型能力已经够用了。接下来的差距,不来自谁有更好的模型,而来自谁能把模型+任务结构+反馈闭环+后训练结合得更好。