Harness Engineering
深度研究报告

研究日期:2026年3月25日

核心发现:Harness Engineering 是2025-2026年软件工程领域最关键的新兴学科,它标志着从"优化模型"到"设计系统"的范式转变。

目录

什么是 Harness Engineering?

Harness Engineering(驾驭工程)是一门新兴的工程学科,专注于设计约束(constraints)、工具(tools)、反馈循环(feedback loops)、文档(documentation)和验证系统(verification systems),以引导强大但不可预测的 AI 代理产生可靠、可维护和可扩展的软件输出[Harness Engineering Guide 2026](https://www.nxcode.io/resources/news/harness-engineering-complete-guide-ai-agent-codex-2026)。

用一句话概括:Harness Engineering 不是让 AI 变得更聪明,而是让 AI 在系统中变得更可靠。

核心洞察

AI 模型 = 大脑

Harness = 神经系统 + 骨骼系统 + 反馈系统

当企业发现 AI 采用遇到瓶颈时,问题很少出在模型本身[Beyond the Model 2026](https://www.imbila.ai/beyond-the-model-why-2026-is-the-year-of-harness-engineering/)。真正的挑战在于如何构建一个让 AI 能够持续、稳定输出高质量工作的系统架构。


起源与演进历程

时间线

2024年
Prompt Engineering(提示工程)成为焦点
焦点:如何更好地与模型"对话"
2025年
Context Engineering(上下文工程)兴起
焦点:给 AI 提供更好的"视野"
2025年底
Mitchell Hashimoto 提出"Harness"概念
焦点:AI 代理的"缰绳"与"轨道"
2026年
Harness Engineering 成为主流范式
焦点:设计约束、工具、反馈循环
2026年初
OpenAI 发布"Harness Engineering"实验报告
0行手写代码构建完整产品

关键里程碑

1. Mitchell Hashimoto 的贡献

  • Terraform、Vagrant、Vault 等知名开源工具的创始人
  • 2025年6月发布"Agentic Engineering in Action"分享[Agentic Engineering Mitchell Hashimoto](https://www.youtube.com/watch?v=XyQ4ZTS5dGw)
  • 提出了"提示就像指导初级工程师"的理念
  • 推动"AI 代理应该与人类工程师使用相同开发环境"的实践

2. OpenAI 的实验

  • 2026年初,OpenAI 团队发布重磅实验结果[Mass Programming Resistance](https://mpr.crossjam.net/wp/mpr/2026/02/harness-engineering/)
  • 实验设定:构建一个没有任何手动编写代码的产品
  • 结果:代理生成了约100万行代码
  • 关键发现:瓶颈从来不是代理写代码的能力,而是缺乏结构、工具和周围机制的支撑

核心概念与原理

什么是"Harness"(驾驭系统)?

Harness 是一套约束、工具、文档和反馈循环,它们共同保持代理的生产力和正确方向[Artificial Ignorance Harness Engineering](https://www.ignorance.ai/p/the-emerging-harness-engineering)。

HARNESS SYSTEM
CONSTRAINTS
约束
TOOLS
工具
━━━━━━━━━━━━━━━━━━
AI AGENT
AI 代理
RELIABLE OUTPUT
可靠输出

核心原理

1. 熵增管理(Entropy Management)

Harness Engineering 文档[Harness Engineering Guide 2026](https://www.nxcode.io/resources/news/harness-engineering-complete-guide-ai-agent-codex-2026)指出,代理生成的代码会以不同于人类编写代码的方式积累"熵"(混乱)。Harness 系统需要:

2. 反馈循环强化

有效的 Harness 系统需要多个层次的反馈:

3. 约束即自由

看似矛盾的是:约束越多,AI 代理的表现越稳定。约束不是限制创造力,而是:


Harness Engineering 的核心要素

1. 约束设计(Constraints)

约束是 Harness 的"边界",定义了代理可以做什么、不可以做什么。

约束类型:

约束类型 示例 目的
架构约束 "所有 API 必须遵循 RESTful 规范" 保持架构一致性
技术约束 "禁止使用全局变量" 代码质量保证
流程约束 "每个 PR 必须包含测试" 质量门禁
资源约束 "单次函数调用不超过 100 行" 可维护性

约束设计原则:

2. 工具系统(Tools)

工具是代理与世界交互的接口。

工具设计模式:

# 示例:浏览器自动化工具接口
class BrowserTool:
    """
    代理可以通过此工具进行端到端测试
    捕获从代码层面看不到的 bug
    """
    def navigate_to(self, url: str) -> None:
        ...

    def click(self, selector: str) -> ActionResult:
        ...

    def verify(self, condition: str) -> bool:
        ...

关键工具类型:

  1. 开发环境工具:IDE 集成、终端访问、版本控制
  2. 测试工具:单元测试、集成测试、E2E 测试
  3. 调试工具:日志、追踪、性能分析
  4. 文档工具:API 文档、架构图、变更日志

3. 反馈循环(Feedback Loops)

反馈循环是 Harness 的"神经系统"。

反馈循环设计模式:

实践中的反馈循环:

4. 文档系统(Documentation)

文档是 Harness 的"记忆"。

Harness 文档类型:

  1. AGENTS.md:指向更深层真相的入口
    • 设计文档
    • 架构图
    • 执行计划
    • 质量标准
  2. 任务列表和进度追踪
    • AI 系统可以将进度写入简单文件
    • 引用之前的工作[Beyond the Model 2026](https://www.imbila.ai/beyond-the-model-why-2026-is-the-year-of-harness-engineering/)
  3. 决策日志
    • 记录为什么做某项技术决策
    • 供代理和人类参考

5. 验证系统(Verification)

验证系统确保输出符合预期。

验证层次:

VERIFICATION PYRAMID
端到端验证
← 用户场景验证
集成测试
API测试
性能测试
单元测试
← 代码逻辑验证

与传统工程范式的对比

演进路径

EVOLUTION OF AI ENGINEERING
2023-2024
2024-2025
2025-2026
Prompt Engineer.
Context Engineer.
Harness Engineer.
"如何问问题"
"给什么上下文"
"设计什么系统"

三种范式对比

维度 Prompt Engineering Context Engineering Harness Engineering
焦点 问题表述 上下文窗口 执行环境与循环
核心问题 如何提问? 给什么看? 如何保持稳定?
假设 模型理解能力是关键 信息充足就能做好 约束和反馈是关键
方法 提示词优化 RAG、文档工程 系统架构设计
挑战 提示脆弱性 上下文溢出 熵增失控

关键区别:Harness ≠ Context

Harness Engineering 不是 Context Engineering 的扩展,而是完全不同的范式[Mtrajan Blog](https://mtrajan.substack.com/p/harness-engineering-is-not-context):

Context Engineering Harness Engineering
问:代理应该看到什么? 问:如何让系统保持稳定?
停留在指令文件层面 进入 linter、CI 门禁、指标系统
关注输入质量 关注输出质量和长期稳定性

实践方法论

12条 Harness Engineering 规则

根据 OpenAI 的实验和行业实践[12 Rules of Harness Engineering](https://www.youtube.com/watch?v=BabEnt6VjtE),以下是核心规则:

第一部分:约束设计

1. 定义清晰的边界
  • 明确代理可以修改和不可以修改的代码区域
  • 使用代码所有者文件(CODEOWNERS)限制关键区域
2. 架构约束
  • 强制执行设计模式和代码风格
  • 使用 architectural linter 检测违规
3. 技术债务控制
  • 设置代码复杂度阈值
  • 强制要求测试覆盖率

第二部分:反馈循环

4. 即时反馈
  • 代理每次修改后立即运行 linter
  • 本地预提交检查
5. 多模型验证
  • 使用不同模型和代理运行相同任务
  • 对比结果发现盲点[Agentic Engineering Mitchell Hashimoto](https://zed.dev/blog/agentic-engineering-with-mitchell-hashimoto)
6. 自动化测试墙
  • 所有代码必须通过自动化测试才能合并
  • 代理必须修复自己的测试失败

第三部分:工具与基础设施

7. 真实环境访问
  • 代理应该能够访问与人类工程师相同的开发环境
  • 包括 IDE、终端、调试工具
8. 浏览器自动化
  • 代理应该能够进行端到端测试
  • 捕获 UI 层面的 bug[Artificial Ignorance Harness Engineering](https://www.ignorance.ai/p/the-emerging-harness-engineering)
9. 指标驱动
  • 定义清晰的健康指标
  • 代理可以查询这些指标来验证工作

第四部分:文档与知识管理

10. 单一事实来源
  • 避免分散的指令
  • 使用版本化的设计文档
11. 自动文档同步
  • 后台代理监控文档 freshness
  • 自动创建文档更新 PR
12. 决策追溯
  • 记录技术决策及其理由
  • 供未来代理和开发者参考

构建 Harness 系统的步骤

BUILDING A HARNESS SYSTEM
Phase 1: 评估
  • 识别当前 AI 代理的痛点
  • 确定可靠性要求
  • 定义成功标准
Phase 2: 设计
  • 设计约束系统
  • 选择和构建工具
  • 建立反馈循环
Phase 3: 实现
  • 实现约束执行机制
  • 集成开发环境
  • 设置验证系统
Phase 4: 优化
  • 收集指标
  • 迭代调整约束
  • 扩展工具能力

行业应用案例

案例1:OpenAI 的 0 行手写代码实验

背景:OpenAI 团队进行了一个为期5个月的实验[Mass Programming Resistance](https://mpr.crossjam.net/wp/mpr/2026/02/harness-engineering/)

设定

关键发现

解决方案

案例2:Mitchell Hashimoto 的 Agentic 工作流

背景:HashiCorp 创始人 Mitchell Hashimoto 分享了他的 AI 采用历程[Mitchell Hashimoto AI Adoption](https://mitchellh.com/writing/my-ai-adoption-journey)

实践

成果

关键洞察

"开源正在从'默认信任'转向'默认否认'——我认为这是应该的。因为 AI 让创建看似正确但实际错误和低质量的贡献变得 trivial。"

案例3:Anthropic 的长时运行代理研究

发现[Artificial Ignorance Harness Engineering](https://www.ignorance.ai/p/the-emerging-harness-engineering):


工具与技术栈

开发环境工具

工具 用途 特点
Claude Code AI 代理编程 集成到开发环境
GitHub Copilot 代码补全 上下文感知
Cursor AI 增强 IDE 完整的开发环境
Zed 高性能编辑器 代理集成

测试与验证工具

工具 用途 特点
Playwright E2E 测试 浏览器自动化
Puppeteer 浏览器控制 Node.js API
Jest/Vitest 单元测试 快速反馈
Cypress UI 测试 开发者友好

CI/CD 与自动化

工具 用途 特点
GitHub Actions 工作流自动化 集成度高
Harness.io 持续交付 AI 增强
Argo CD GitOps 云原生
Jenkins CI/CD 成熟生态

代码质量工具

工具 用途 特点
ESLint JavaScript linting 可扩展
pre-commit Git hooks 多语言支持
SonarQube 代码分析 全面覆盖

Harness 专用工具模式

# 示例:Harness 配置结构
harness:
  constraints:
    - type: "architectural"
      rules:
        - "no-global-state"
        - "api-restful"
        - "max-function-lines: 50"

    - type: "quality"
      rules:
        - "test-coverage: 80%"
        - "no-lint-errors"

  feedback_loops:
    - name: "immediate"
      triggers: ["file-change"]
      actions: ["lint", "type-check"]

    - name: "short-term"
      triggers: ["pull-request"]
      actions: ["full-test-suite", "security-scan"]

    - name: "long-term"
      triggers: ["daily"]
      actions: ["tech-debt-report", "doc-freshness-check"]

  tools:
    - name: "browser-automation"
      type: "playwright"

    - name: "debug-access"
      type: "devtools-integration"

    - name: "metrics-query"
      type: "prometheus"

挑战与局限性

当前挑战

1. 工具链复杂性

构建有效的 Harness 系统需要:

2. 约束与创造力的平衡

过于严格的约束会:

过于宽松的约束会:

3. 验证困难

4. 长期维护

常见陷阱

陷阱 描述 解决方案
过度工程 构建过于复杂的 Harness 从简单开始,渐进式演进
忽视反馈 只关注输入,不关注输出 建立多层次反馈循环
单一模型依赖 只使用一个模型 多模型验证
文档缺失 Harness 配置没有文档 强制要求 Harness 文档化
缺乏监控 不跟踪 Harness 效果 指标驱动的优化

未来展望

2026-2027 年趋势预测

HARNESS ENGINEERING TRAJECTORY
2026: 早期采纳
  • 大型科技公司内部使用
  • 开源工具和最佳实践涌现
  • 专业角色"Harness Engineer"出现
2027: 主流化
  • Harness 成为 AI 开发的标准实践
  • 工具链成熟和标准化
  • 教育和培训资源普及
2028+: 深度集成
  • Harness 能力内置到 IDE 和 CI/CD 中
  • 自动化 Harness 生成和优化
  • 跨组织 Harness 共享和复用

发展方向

1. 标准化

2. 自动化

3. 专业化


推荐的学习资料

官方文档与论文

  1. OpenAI Harness Engineering 实验报告
    链接:Mass Programming Resistance
    描述:OpenAI 团队 0 行手写代码构建产品的实验总结
  2. Mitchell Hashimoto 的 Agentic Engineering 实践
    链接:Agentic Engineering in Action
    描述:详细的实践分享和代码示例
  3. Harness Engineering 完整指南
    链接:Harness Engineering: The Complete Guide (2026)
    描述:全面的入门到进阶指南

深度分析文章

  1. 为什么 2026 年是 Harness Engineering 元年
    链接:Beyond the Model: Why 2026 Is the Year of Harness Engineering
    描述:从行业视角分析 Harness Engineering 的重要性
  2. Harness Engineering 不是 Context Engineering
    链接:Harness Engineering Is Not Context Engineering
    描述:澄清两种范式的本质区别
  3. 新兴的 Harness Engineering 方法论
    链接:The Emerging "Harness Engineering" Playbook
    描述:实践者的方法论总结

视频与课程

  1. 12条 Harness Engineering 规则
    链接:YouTube: 12 Rules of Harness Engineering
    描述:视频形式的规则讲解
  2. Mitchell Hashimoto 的 AI 工作流
    链接:Agentic Engineering with Mitchell Hashimoto
    描述:创始人亲述如何使用 AI 代理
  3. Harness Engineering: The Skill That Will Define 2026
    链接:YouTube: Harness Engineering for Solo Devs
    描述:独立开发者的视角

实践工具与资源

  1. Harness.io - CI/CD 平台
    链接:Harness.io
    描述:提供 AI 增强的持续交付能力
  2. Capital Harness Designer - 线束设计软件
    链接:Siemens Capital Essentials
    描述:传统 Harness 工程的工具参考
  3. IPC 标准(电子行业)
    链接:IPC Standards Overview
    描述:电子组件设计标准参考

社区与动态

  1. LinkedIn: 2026 is all about Harness Engineering
    链接:LinkedIn Post
    描述:行业讨论和趋势分析
  2. The Rise of AI Harness Engineering
    链接:Medium: The Rise of AI Harness Engineering
    描述:分析 Harness 作为 AI 代理的缺失架构层

总结

核心要点

  1. 范式转变:从"优化模型"到"设计系统"
    AI 的能力已经足够强,瓶颈在于如何让其稳定工作
  2. Harness 是系统架构
    不是单一工具,而是一套约束、工具、反馈循环和验证系统
  3. 约束即自由
    看似矛盾,但清晰的边界让 AI 代理表现更稳定
  4. 反馈循环是核心
    多层次的反馈机制确保系统长期稳定
  5. 实践正在进行
    OpenAI、Mitchell Hashimoto、Anthropic 等领先团队已经在实践中

行动建议

对于个人开发者

对于工程团队

对于组织领导者

最后思考

"AI 成功的关键将不再是选择'最好'的模型,而是围绕它设计正确的系统。"

Beyond the Model, 2026

Harness Engineering 代表了软件工程的新时代——不是让机器更像人,而是让人机协作更可靠。掌握这一学科,将是未来工程师的核心竞争力。


Sources

Harness Engineering Guide 2026 - NxCode 完整指南

Beyond the Model: Why 2026 Is the Year of Harness Engineering - Imbila AI 分析

Agentic Engineering with Mitchell Hashimoto - Zed 官方博客

The Emerging "Harness Engineering" Playbook - Artificial Ignorance

Harness Engineering Is Not Context Engineering - Mtrajan Blog

Mass Programming Resistance - OpenAI Harness Experiment - OpenAI 实验报告

12 Rules of Harness Engineering - YouTube - 视频讲解

Agentic Engineering with Mitchell Hashimoto - YouTube - Mitchell Hashimoto 分享

Mitchell Hashimoto's AI Adoption Journey - Mitchell Hashimoto 博客

The Rise of AI Harness Engineering - Medium 分析

LinkedIn: 2026 is all about Harness Engineering - LinkedIn 讨论

Harness.io - DevOps Platform - 官方产品

Siemens Capital Harness Designer - Siemens 官方

IPC Standards Overview - 行业标准