Harness Engineering 深度研究报告

什么是 Harness Engineering？

Harness Engineering（驾驭工程）是一门新兴的工程学科，专注于设计约束（constraints）、工具（tools）、反馈循环（feedback loops）、文档（documentation）和验证系统（verification systems），以引导强大但不可预测的 AI 代理产生可靠、可维护和可扩展的软件输出[Harness Engineering Guide 2026](https://www.nxcode.io/resources/news/harness-engineering-complete-guide-ai-agent-codex-2026)。

用一句话概括：Harness Engineering 不是让 AI 变得更聪明，而是让 AI 在系统中变得更可靠。

核心洞察

• AI 模型 = 大脑

• Harness = 神经系统 + 骨骼系统 + 反馈系统

当企业发现 AI 采用遇到瓶颈时，问题很少出在模型本身[Beyond the Model 2026](https://www.imbila.ai/beyond-the-model-why-2026-is-the-year-of-harness-engineering/)。真正的挑战在于如何构建一个让 AI 能够持续、稳定输出高质量工作的系统架构。

起源与演进历程

时间线

2024年

Prompt Engineering（提示工程）成为焦点

焦点：如何更好地与模型"对话"

2025年

Context Engineering（上下文工程）兴起

焦点：给 AI 提供更好的"视野"

2025年底

Mitchell Hashimoto 提出"Harness"概念

焦点：AI 代理的"缰绳"与"轨道"

2026年

Harness Engineering 成为主流范式

焦点：设计约束、工具、反馈循环

2026年初

OpenAI 发布"Harness Engineering"实验报告

0行手写代码构建完整产品

关键里程碑

1. Mitchell Hashimoto 的贡献

Terraform、Vagrant、Vault 等知名开源工具的创始人
2025年6月发布"Agentic Engineering in Action"分享[Agentic Engineering Mitchell Hashimoto](https://www.youtube.com/watch?v=XyQ4ZTS5dGw)
提出了"提示就像指导初级工程师"的理念
推动"AI 代理应该与人类工程师使用相同开发环境"的实践

2. OpenAI 的实验

2026年初，OpenAI 团队发布重磅实验结果[Mass Programming Resistance](https://mpr.crossjam.net/wp/mpr/2026/02/harness-engineering/)
实验设定：构建一个没有任何手动编写代码的产品
结果：代理生成了约100万行代码
关键发现：瓶颈从来不是代理写代码的能力，而是缺乏结构、工具和周围机制的支撑

核心概念与原理

什么是"Harness"（驾驭系统）？

Harness 是一套约束、工具、文档和反馈循环，它们共同保持代理的生产力和正确方向[Artificial Ignorance Harness Engineering](https://www.ignorance.ai/p/the-emerging-harness-engineering)。

HARNESS SYSTEM

CONSTRAINTS

约束

TOOLS

工具

FEEDBACK LOOPS

反馈循环

▼

━━━━━━━━━━━━━━━━━━

▼

AI AGENT

AI 代理

▼

RELIABLE OUTPUT

可靠输出

核心原理

1. 熵增管理（Entropy Management）

Harness Engineering 文档[Harness Engineering Guide 2026](https://www.nxcode.io/resources/news/harness-engineering-complete-guide-ai-agent-codex-2026)指出，代理生成的代码会以不同于人类编写代码的方式积累"熵"（混乱）。Harness 系统需要：

阻止架构漂移：通过 linter 阻止架构偏离
CI 门禁：拒绝熵增的代码合并
自我验证指标：让代理能够验证自己的工作

2. 反馈循环强化

有效的 Harness 系统需要多个层次的反馈：

FEEDBACK LAYERS

Layer 1: Immediate (即时反馈)

语法检查、类型检查、linting

Layer 2: Short-term (短期反馈)

单元测试、集成测试、代码审查

Layer 3: Medium-term (中期反馈)

功能测试、端到端测试、用户反馈

Layer 4: Long-term (长期反馈)

性能指标、技术债务追踪、文档 freshness

3. 约束即自由

看似矛盾的是：约束越多，AI 代理的表现越稳定。约束不是限制创造力，而是：

提供清晰的成功标准
防止代理在错误方向上浪费计算资源
建立可预测的行为模式

Harness Engineering 的核心要素

1. 约束设计（Constraints）

约束是 Harness 的"边界"，定义了代理可以做什么、不可以做什么。

约束类型：

约束类型	示例	目的
架构约束	"所有 API 必须遵循 RESTful 规范"	保持架构一致性
技术约束	"禁止使用全局变量"	代码质量保证
流程约束	"每个 PR 必须包含测试"	质量门禁
资源约束	"单次函数调用不超过 100 行"	可维护性

约束设计原则：

约束应该是可验证的
约束应该是可执行的
约束应该随着系统演化而调整

2. 工具系统（Tools）

工具是代理与世界交互的接口。

工具设计模式：

# 示例：浏览器自动化工具接口
class BrowserTool:
    """
    代理可以通过此工具进行端到端测试
    捕获从代码层面看不到的 bug
    """
    def navigate_to(self, url: str) -> None:
        ...

    def click(self, selector: str) -> ActionResult:
        ...

    def verify(self, condition: str) -> bool:
        ...

关键工具类型：

开发环境工具：IDE 集成、终端访问、版本控制
测试工具：单元测试、集成测试、E2E 测试
调试工具：日志、追踪、性能分析
文档工具：API 文档、架构图、变更日志

3. 反馈循环（Feedback Loops）

反馈循环是 Harness 的"神经系统"。

反馈循环设计模式：

EFFECTIVE FEEDBACK LOOP

ACTION

行动

→

OBSERVATION

观察

→

CORRECTION

修正

Agent

执行 →

System

反馈 →

Agent

验证结果

调整策略

实践中的反馈循环：

代理自我验证：代理在提交前运行自己的测试
持续集成门禁：自动化检查阻止低质量代码合并
文档 freshness 监控：后台代理扫描过期文档并创建修复 PR[Mtrajan Blog](https://mtrajan.substack.com/p/harness-engineering-is-not-context)

4. 文档系统（Documentation）

文档是 Harness 的"记忆"。

Harness 文档类型：

AGENTS.md：指向更深层真相的入口
- 设计文档
- 架构图
- 执行计划
- 质量标准
任务列表和进度追踪
- AI 系统可以将进度写入简单文件
- 引用之前的工作[Beyond the Model 2026](https://www.imbila.ai/beyond-the-model-why-2026-is-the-year-of-harness-engineering/)
决策日志
- 记录为什么做某项技术决策
- 供代理和人类参考

5. 验证系统（Verification）

验证系统确保输出符合预期。

验证层次：

VERIFICATION PYRAMID

端到端验证

← 用户场景验证

集成测试

API测试

性能测试

单元测试

← 代码逻辑验证

与传统工程范式的对比

演进路径

EVOLUTION OF AI ENGINEERING

2023-2024

→

2024-2025

→

2025-2026

Prompt Engineer.

→

Context Engineer.

→

Harness Engineer.

"如何问问题"

→

"给什么上下文"

→

"设计什么系统"

三种范式对比

维度	Prompt Engineering	Context Engineering	Harness Engineering
焦点	问题表述	上下文窗口	执行环境与循环
核心问题	如何提问？	给什么看？	如何保持稳定？
假设	模型理解能力是关键	信息充足就能做好	约束和反馈是关键
方法	提示词优化	RAG、文档工程	系统架构设计
挑战	提示脆弱性	上下文溢出	熵增失控

关键区别：Harness ≠ Context

Harness Engineering 不是 Context Engineering 的扩展，而是完全不同的范式[Mtrajan Blog](https://mtrajan.substack.com/p/harness-engineering-is-not-context)：

Context Engineering	Harness Engineering
问：代理应该看到什么？	问：如何让系统保持稳定？
停留在指令文件层面	进入 linter、CI 门禁、指标系统
关注输入质量	关注输出质量和长期稳定性

实践方法论

12条 Harness Engineering 规则

根据 OpenAI 的实验和行业实践[12 Rules of Harness Engineering](https://www.youtube.com/watch?v=BabEnt6VjtE)，以下是核心规则：

第一部分：约束设计

1. 定义清晰的边界

明确代理可以修改和不可以修改的代码区域
使用代码所有者文件（CODEOWNERS）限制关键区域

2. 架构约束

强制执行设计模式和代码风格
使用 architectural linter 检测违规

3. 技术债务控制

设置代码复杂度阈值
强制要求测试覆盖率

第二部分：反馈循环

4. 即时反馈

代理每次修改后立即运行 linter
本地预提交检查

5. 多模型验证

使用不同模型和代理运行相同任务
对比结果发现盲点[Agentic Engineering Mitchell Hashimoto](https://zed.dev/blog/agentic-engineering-with-mitchell-hashimoto)

6. 自动化测试墙

所有代码必须通过自动化测试才能合并
代理必须修复自己的测试失败

第三部分：工具与基础设施

7. 真实环境访问

代理应该能够访问与人类工程师相同的开发环境
包括 IDE、终端、调试工具

8. 浏览器自动化

代理应该能够进行端到端测试
捕获 UI 层面的 bug[Artificial Ignorance Harness Engineering](https://www.ignorance.ai/p/the-emerging-harness-engineering)

9. 指标驱动

定义清晰的健康指标
代理可以查询这些指标来验证工作

第四部分：文档与知识管理

10. 单一事实来源

避免分散的指令
使用版本化的设计文档

11. 自动文档同步

后台代理监控文档 freshness
自动创建文档更新 PR

12. 决策追溯

记录技术决策及其理由
供未来代理和开发者参考

构建 Harness 系统的步骤

BUILDING A HARNESS SYSTEM

Phase 1: 评估

识别当前 AI 代理的痛点
确定可靠性要求
定义成功标准

Phase 2: 设计

设计约束系统
选择和构建工具
建立反馈循环

Phase 3: 实现

实现约束执行机制
集成开发环境
设置验证系统

Phase 4: 优化

收集指标
迭代调整约束
扩展工具能力

行业应用案例

案例1：OpenAI 的 0 行手写代码实验

背景：OpenAI 团队进行了一个为期5个月的实验[Mass Programming Resistance](https://mpr.crossjam.net/wp/mpr/2026/02/harness-engineering/)

设定：

从第一行代码开始就不手动编写
所有代码由 Codex 代理生成
目标是构建一个完整的软件产品

关键发现：

瓶颈不是代理写代码的能力
真正的挑战是缺乏结构、工具和反馈机制
最终产出：约100万行 AI 生成的代码

解决方案：

将 Chrome DevTools 集成到运行时，使代理能够看到 UI 并复现 bug
使用小型 AGENTS.md 文件指向更深层的真相来源
后台代理扫描过期文档并创建清理 PR

案例2：Mitchell Hashimoto 的 Agentic 工作流

背景：HashiCorp 创始人 Mitchell Hashimoto 分享了他的 AI 采用历程[Mitchell Hashimoto AI Adoption](https://mitchellh.com/writing/my-ai-adoption-journey)

实践：

每天最后30分钟启动一个或多个代理
代理在后台运行 while 他处理其他任务
第二天早上获得"温暖启动"的工作进展

成果：

背景代理大约覆盖了正常工作日的 10-20%
代理用于库比较、边缘情况分析、深度研究
不是只用于代码生成

关键洞察：

"开源正在从'默认信任'转向'默认否认'——我认为这是应该的。因为 AI 让创建看似正确但实际错误和低质量的贡献变得 trivial。"

案例3：Anthropic 的长时运行代理研究

发现[Artificial Ignorance Harness Engineering](https://www.ignorance.ai/p/the-emerging-harness-engineering)：

与 OpenAI 类似，Anthropic 工程团队发现了代理生成代码积累"熵"的问题
解决方案是从相反方向构建有效的 Harness
提示代理使用浏览器自动化工具进行端到端测试显著提高了彻底性和准确性

工具与技术栈

开发环境工具

工具	用途	特点
Claude Code	AI 代理编程	集成到开发环境
GitHub Copilot	代码补全	上下文感知
Cursor	AI 增强 IDE	完整的开发环境
Zed	高性能编辑器	代理集成

测试与验证工具

工具	用途	特点
Playwright	E2E 测试	浏览器自动化
Puppeteer	浏览器控制	Node.js API
Jest/Vitest	单元测试	快速反馈
Cypress	UI 测试	开发者友好

CI/CD 与自动化

工具	用途	特点
GitHub Actions	工作流自动化	集成度高
Harness.io	持续交付	AI 增强
Argo CD	GitOps	云原生
Jenkins	CI/CD	成熟生态

代码质量工具

工具	用途	特点
ESLint	JavaScript linting	可扩展
pre-commit	Git hooks	多语言支持
SonarQube	代码分析	全面覆盖

Harness 专用工具模式

# 示例：Harness 配置结构
harness:
  constraints:
    - type: "architectural"
      rules:
        - "no-global-state"
        - "api-restful"
        - "max-function-lines: 50"

    - type: "quality"
      rules:
        - "test-coverage: 80%"
        - "no-lint-errors"

  feedback_loops:
    - name: "immediate"
      triggers: ["file-change"]
      actions: ["lint", "type-check"]

    - name: "short-term"
      triggers: ["pull-request"]
      actions: ["full-test-suite", "security-scan"]

    - name: "long-term"
      triggers: ["daily"]
      actions: ["tech-debt-report", "doc-freshness-check"]

  tools:
    - name: "browser-automation"
      type: "playwright"

    - name: "debug-access"
      type: "devtools-integration"

    - name: "metrics-query"
      type: "prometheus"

挑战与局限性

当前挑战

1. 工具链复杂性

构建有效的 Harness 系统需要：

深厚的软件工程知识
对 AI 代理行为的深入理解
持续的维护和迭代

2. 约束与创造力的平衡

过于严格的约束会：

限制代理解决新问题的能力
增加系统的脆弱性

过于宽松的约束会：

导致熵增失控
产出质量不稳定

3. 验证困难

如何验证代理的输出是正确的？
测试覆盖永远不可能100%
边缘情况难以穷举

4. 长期维护

系统会随时间累积技术债务
Harness 本身需要演进
文档和约束需要持续更新

常见陷阱

陷阱	描述	解决方案
过度工程	构建过于复杂的 Harness	从简单开始，渐进式演进
忽视反馈	只关注输入，不关注输出	建立多层次反馈循环
单一模型依赖	只使用一个模型	多模型验证
文档缺失	Harness 配置没有文档	强制要求 Harness 文档化
缺乏监控	不跟踪 Harness 效果	指标驱动的优化

未来展望

2026-2027 年趋势预测

HARNESS ENGINEERING TRAJECTORY

2026: 早期采纳

大型科技公司内部使用
开源工具和最佳实践涌现
专业角色"Harness Engineer"出现

2027: 主流化

Harness 成为 AI 开发的标准实践
工具链成熟和标准化
教育和培训资源普及

2028+: 深度集成

Harness 能力内置到 IDE 和 CI/CD 中
自动化 Harness 生成和优化
跨组织 Harness 共享和复用

发展方向

1. 标准化

行业标准的约束定义语言
通用的 Harness 接口规范
可复用的 Harness 组件库

2. 自动化

AI 辅助的 Harness 设计
自动化的约束优化
智能的反馈循环调整

3. 专业化

Harness Engineering 作为独立职业
专门的培训和认证
咨询和实施服务

总结

核心要点

范式转变：从"优化模型"到"设计系统"
AI 的能力已经足够强，瓶颈在于如何让其稳定工作
Harness 是系统架构
不是单一工具，而是一套约束、工具、反馈循环和验证系统
约束即自由
看似矛盾，但清晰的边界让 AI 代理表现更稳定
反馈循环是核心
多层次的反馈机制确保系统长期稳定
实践正在进行
OpenAI、Mitchell Hashimoto、Anthropic 等领先团队已经在实践中

行动建议

对于个人开发者：

开始尝试在日常工作中使用 AI 代理
记录哪些约束和反馈机制有效
逐步构建自己的 Harness 系统

对于工程团队：

评估当前 AI 代理使用的痛点
设计适合团队的 Harness 方案
从小规模实验开始，逐步推广

对于组织领导者：

认识到 Harness Engineering 的战略重要性
投资于 Harness 工具和最佳实践
培养 Harness Engineering 人才

最后思考

"AI 成功的关键将不再是选择'最好'的模型，而是围绕它设计正确的系统。"

— Beyond the Model, 2026

Harness Engineering 代表了软件工程的新时代——不是让机器更像人，而是让人机协作更可靠。掌握这一学科，将是未来工程师的核心竞争力。

Sources

• Harness Engineering Guide 2026 - NxCode 完整指南

• Beyond the Model: Why 2026 Is the Year of Harness Engineering - Imbila AI 分析

• Agentic Engineering with Mitchell Hashimoto - Zed 官方博客

• The Emerging "Harness Engineering" Playbook - Artificial Ignorance

• Harness Engineering Is Not Context Engineering - Mtrajan Blog

• Mass Programming Resistance - OpenAI Harness Experiment - OpenAI 实验报告

• 12 Rules of Harness Engineering - YouTube - 视频讲解

• Agentic Engineering with Mitchell Hashimoto - YouTube - Mitchell Hashimoto 分享

• Mitchell Hashimoto's AI Adoption Journey - Mitchell Hashimoto 博客

• The Rise of AI Harness Engineering - Medium 分析

• LinkedIn: 2026 is all about Harness Engineering - LinkedIn 讨论

• Harness.io - DevOps Platform - 官方产品

• Siemens Capital Harness Designer - Siemens 官方

• IPC Standards Overview - 行业标准

Harness Engineering深度研究报告

目录