模型已经够强了, 真正值钱的变成了Harness_

你有没有注意到一个反常识的现象：

2026 年 5 月的大模型排行榜，Kimi K2.6 跑分 94.3，DeepSeek V4 跑 93.8，GPT-5 跑 93.5——前三名差距不到 1 分。模型军备竞赛，已经从"碾压级差距"变成了"微厘之分"。

但与此同时，另一条赛道正在悄悄决定胜负：Claude Code 和 Codex 用的模型水平差不多，但大多数人选 Claude Code。OpenAI 工程师 Ryan Lopopolo 做了一个极端实验——3 个人、5 个月、0 行人工代码，用 AI Agent 写出了百万行生产级产品——但前几周产出几乎不可用，直到他们开始给 Agent"搭环境"。

这个环境，现在有了一个正式的名字：Harness（驾驭系统）。

DeepMind Staff Engineer Philipp Schmid 给了一句定性：

"The Harness is the Dataset.

Competitive advantage is now the trajectories your harness captures."

翻译：Harness 就是数据集。现在真正的竞争优势，在于你的 Harness 能捕获到怎样的执行轨迹。

这篇文章不长，但我想把这个问题讲透：为什么模型不再是瓶颈，为什么 Harness 才是下一个竞争制高点，以及这对所有人意味着什么。

一、一个公式，三个时代

先给一个公式：

Agent = Model + Harness

模型决定"能做什么"，Harness 决定"能稳定做成什么"。

AI 工程方法在过去四年经历了三次演进，每次都是因为一个矛盾被解决后，瓶颈外移到了下一层：

Prompt Eng.2022–2024"怎么说话"单轮指令优化Context Eng.2025"看什么资料"上下文管理Harness Eng.2026"什么环境干活"工具+记忆+护栏+验证← 当前

Prompt ⊂ Context ⊂ Harness —— 三者是包含关系，不是替代关系

这三层演进背后有一个共同逻辑：一旦模型能力过线，瓶颈就开始外移。

以前你跟 AI 说不清楚需求，所以卷 Prompt；后来发现光说清楚不够，还得喂对资料，所以卷 Context；现在资料也喂了、话也说明白了，AI 还是会犯蠢——因为它没有工具、没有护栏、没有验证闭环、犯错不会自动修。所以，卷 Harness。

今年 2 月 5 日，HashiCorp 联合创始人 Mitchell Hashimoto——那个创造了 Terraform、改变了全球基础设施管理的男人——在他的博客里第一次正式命名了这个范式：

"Anytime you find an agent makes a mistake, you take the time to engineer a solution such that the agent will never make that mistake again."

每次 Agent 犯错，就花时间工程化一个方案，让它永远不再犯同样的错。

6 天后，OpenAI 官方工程博客直接用 "Harness Engineering" 做标题。然后 Anthropic 跟进，Martin Fowler 深度分析。一个月内，这个词从一个人的博客变成了全球开发者社区的高频词。

二、为什么 Harness 比 Model 更值钱

听起来 Harness 只是个"外围辅助"？错了。三个理由：

理由一：模型趋同，Harness 分化

上面的跑分图已经很清楚了——前五名差距不到 2 分，你在模型层面已经很难拉开身位了。

但 Harness 层面呢？Claude Code 和 Codex 用着几乎同等水平的模型，用户体验却有显著差距。因为 Anthropic 在 Harness 上领先了大约 3-6 个月——就在模型打平的情况下，大多数人依然选 Claude Code。

这几个月的窗口期，就是护城河。

理由二：Harness 产生数据飞轮

这才是核心。

Harness 不只是"模型外面的脚手架"，它是执行轨迹的捕获器。当 Agent 在你的 Harness 里跑任务时，它留下了完整的行为轨迹：看到了什么信息、用了什么工具、做了什么决策、哪一步出了错、什么反馈让它变好了。

这些轨迹，就是下一代模型最好的训练数据。

更好的 Harness捕获轨迹RL训练·更强更多用户数据飞轮

Harness → 执行轨迹 → RL训练 → 更强模型 → 更多用户 → 更多轨迹 → ……

谁先跑通这个飞轮，谁就进入正循环。后进者不是差一个模型，而是差一整个数据飞轮。

理由三：训练即部署——模型从 Harness 里"长"出来

很多人以为的开发顺序是：先训练一个好模型，再给它接工具、接工作流——模型是主体，Harness 是后装件。

但 Agentic RL 的训练逻辑恰恰相反。

Windsurf 在训练 SWE-1.5 时说得很直白：

"We believe that the quality of the coding environments in RL tasks is the most important factor for downstream model performance."

在 RL 过程中，coding 环境本身的质量，对模型最终表现的影响是最大的。

他们的做法是：把模型和 Harness 当成一个整体来共同优化——一边反复使用模型，一边暴露 Harness 的问题，调整工具和 prompt，然后基于新的 Harness 重新训练模型。

Cursor 训练 Composer 1.5 也是类似：并发跑数十万个沙盒，让模型在真实 coding 环境中反复试错。结果模型自发涌现了很多能力——学会深入搜索、顺手修 linter 错误、自己补单元测试、从大改一片转向先多读少改。

这些能力不是从训练数据里学来的，是从 Harness 环境里"长"出来的。

三、Harness 在做一件很奇特的事

它一边创造价值，一边被模型吃掉。

这是最反直觉的部分。

Harness 创造的价值，正在被模型一点点内化。比如 tool search、programmatic tool use、context compaction、多步工具调用——这些原本都需要 Harness 强行维持的能力，正在变成模型自己的能力。过程是这样的：

前线摸索哪些方法有效Post-training模式做进模型模型内化能力变成模型的新 Harness支持新能力循环往复

Claude Code 负责人 Boris Cherny 说过：Claude Code 的 Harness 在不断被重写，里面每行代码的保质期可能也就 2 个月。

但——这恰恰说明 Harness 有多重要。因为谁在写这些保质期 2 个月的代码，谁就在定义模型的下一轮进化方向。

Harness 是模型的矿脉。模型从 Harness 里采矿，然后把矿脉向前推进。矿脉在哪，矿就往哪走。

四、资本已经开始下注

如果你觉得这只是技术圈的理念之争，看看钱在往哪流：

注意这些公司的投资人：a16z、Sequoia、FirstMark、ICONIQ——这层基础设施已经在被认真下注了。

而在大公司端，更有意思的竞争格局正在形成：头部模型公司在端到端做 Harness，而应用公司开始自己训模型。

湾区已经有很多大 AI 应用公司在搭建自己的 continuous learning 平台——基于自己的 Harness 和业务数据做开源模型的 RL，并且开始从头部 AI Labs 迁移模型用量。

他们的判断是：在很多垂直场景里，今天的开源模型能力已经够用了。接下来的差距，不来自谁有更好的模型，而来自谁能把模型+任务结构+反馈闭环+后训练结合得更好。

一、一个公式，三个时代

二、为什么 Harness 比 Model 更值钱

理由一：模型趋同，Harness 分化

理由二：Harness 产生数据飞轮

理由三：训练即部署——模型从 Harness 里"长"出来

三、Harness 在做一件很奇特的事

四、资本已经开始下注

五、所以，这跟你有什么关系

相关阅读

模型已经够强了, 真正值钱的变成了Harness_

一、一个公式，三个时代

二、为什么 Harness 比 Model 更值钱

理由一：模型趋同，Harness 分化

理由二：Harness 产生数据飞轮

理由三：训练即部署——模型从 Harness 里"长"出来

三、Harness 在做一件很奇特的事

四、资本已经开始下注

五、所以，这跟你有什么关系

相关阅读

2025-2026年设计素材平台推荐:新媒体内容创作高性价比选择与用户

我是如何只做“老词”,用笨办法获取稳定流量,把日活做到700+的

AI的“火”,烧到了模拟芯片_

北邮00后UP主,早在2023年初就开发出了「龙虾」!_