Software After AI

Team spice
github地址:https://github.com/Dyalwayshappy/Spice

AI 时代下一个战场:谁先驯服这匹野马
当所有人都能用上同一个最强模型,什么是真正的护城河?
Theory Ventures 的 GP Tomasz Tunguz 最近写了一篇文章,《Software After AI》。他的观点很直接:软件时代已经结束了,接下来是”驯服”(Harness)的时代。
他把 AI 比作一头野马。
强大,但狂野。驯服它,才能真正驾驭它。
而驯服这匹野马,需要七个关键组件。
一个框架的诞生
Tunguz 在 VC 圈很特殊。他不是那种只谈趋势的人——前 Google PM,现在 Theory Ventures 的 GP,他关注的是具体的、可落地的架构问题。
他提出的”驯服 AI”框架,本质上是在回答一个问题:
关键问题:为什么同样是接 GPT-4,有些产品让人惊叹,有些却像个半成品?
答案藏在模型之外的那层架构里。
第一层:上下文与记忆
通用模型需要定制化的检索系统。
给放射科医生用的检索系统,和给法务助理用的,不应该一样。
有时候你需要的是短期记忆——”Agent 45 秒前在做什么?”
有时候你需要的是大规模图像检索——比如影像诊断、视频生成。
还有时候你需要的是在十亿份文档中做关键词搜索。
这些系统没有标准答案,每个场景都是定制的。
而比检索更深的,是”上下文数据库”——每个业务真正运行的”菜谱书”。
我们每个人每天带着的那套 SOP,那些”我习惯这么干”的知识,就是这些菜谱。
把菜谱写下来,并且在流程和人员变化时不断更新——这才是上下文数据库的本质。
第二层:工具与行动
菜谱告诉你要做什么。工具是真正动手的锅碗瓢盆。
现代 AI 系统的工具层,远比想象中复杂:
工具注册中心 → 参数校验 → 调度执行 → 敏感操作审批 → 结果解析反馈。
一整条链路。
这也是 MCP 能成为”连接层霸主”的原因——它让工具接入变得标准化。
Tunguz 说了一句很关键的话:
一个 Harness 的质量,取决于它能安全暴露多少工具,以及它能否干净地处理工具调用失败。
第三层:编排与循环
Agent 的思考循环很朴素:思考 → 行动 → 观察 → 重复。
但真正把这件事做对,你需要处理:任务规划、任务分解、子 Agent 调度、重试机制、终止条件。
而且,我们天然期望软件越用越好。
能从每次运行中”学到东西”的闭环系统——这才是不同供应商真正的分水岭。
第四层:状态与持久化
想象一下:一个 10 步任务,在第 7 步崩溃了。
好的系统从第 8 步恢复。差的系统从头来过。
在企业级场景中,系统必须做到这一点。
文件系统、检查点、会话线程、制品存储——这些机制决定了你的 Agent 是”玩具”还是”生产力工具”。
第五层:沙箱与计算
每个 Agent 都需要一个”游乐场”。
隔离的 Unix 工作空间、受控的网络出站、独立于模型的凭证管理——
这三件事做对了,你的 Agent 才能既安全又高效地规模化。
第六层:可观测与治理
Tunguz 说得直白:你看不见的东西,就别指望信任它。
每一层追踪、每一次工具调用都被记录、把评估当作回归测试来跑、让人类介入最高风险决策——
这才是”Demo 变成生产系统”的关键。
护栏(Guardrails)强制执行策略。评估(Evals)在用户发现之前抓住回归 bug。
第七层:成本与工作流优化
第七个维度,是架构判断力。
什么样的步骤应该用确定性逻辑?什么样的必须用模型?
每一步该用哪个模型?顶级的、中等的、小的、还是微调过的?
哪些知识放进技能库,哪些塞进记忆?
每一个选择都在影响质量、速度、成本这三项指标。
这不是一个能一劳永逸的决定——你需要持续调整,根据使用情况动态优化。
写在最后
读完整篇文章,我最大的感触是:
当所有人都能调用 GPT-4、Claude、DeepSeek 这些顶级模型时,真正的竞争不在模型本身。
在”驯服”。
你能否为你的场景搭建好上下文系统?能否设计出安全的工具调用链?能否在崩溃后优雅恢复?能否在成本失控前做出聪明的架构决策?
Tunguz 在文章结尾说了一句话,我觉得特别适合收尾:
当每家公司都能用上同一个模型——赢的是最好的骑手。
这个框架里的七个维度,每一个都对应着巨大的创业机会。模型的竞争终将收敛,但”驯服”的竞争才刚刚开始。
这其中的一部分也是 Spice 一直在做的事。

Spice正在寻找志同道合的人。
如果你对AI感兴趣,有独特的理解、有创新意义的使用AI的方法,欢迎加入我们的社区,我们欢迎一切乐于分享的人,一同探索AI的疯狂。

夜雨聆风