AIOS元年将至:AI不该再跑在＂给人用＂的操作系统上(下)-夜雨聆风

AIOS元年将至:AI不该再跑在＂给人用＂的操作系统上(下)

上篇《AIOS元年将至:AI不该跑在”给人用”的系统上(上）》讲了 AIOS 是什么、为什么 2026 是它的元年。下篇展开:这四层基础设施(组织记忆、自进化引擎、算力调度、协议层)具体怎么造。

上篇说的 Agent，在公司语境里被组织起来，就是”数字员工”。AIOS 是给数字员工跑的新基础设施（新底盘）。它要承担：组织记忆、自进化引擎、算力调度、协议层。现在它并没有一个确定性的现成解决方案，先驱者需要自己造。

组织记忆：事实和判断需分开

组织记忆里有事实，也有判断。事实是”昨天 AI 跑了一份报告”，判断是”我们决定不发出去，因为口径有问题”。最容易踩的坑：两者混在一起存，调出来就是噪声。

所以记忆得分层。

业内目前主要有三条路在解 AI 工作记忆的存储问题：

MemGPT 流派

（2023 年 UC Berkeley 论文，arXiv:2310.08560）：让 AI 自己管理”当下能看的”和”备查的”两部分记忆，相当于把操作系统的内存换页机制搬到 AI 世界。

RAG 流派

：每次查询时检索相关历史，拼回给 AI 看。简单粗暴，成本高、延迟大。

状态快照流派

（LangGraph 这一类）：把 AI 当下整个状态打包存到外部，下次唤醒时再加载回来。适合长跑、可断点续跑。

这三条解决的是”怎么存得下”。但事实和判断分开存这件事，要的是另一种分法。我们的做法是分成五层：短期 / 工作 / 知识库 / 个人档案 / 协作经验。”知识库”那一层只放事实，”工作”那一层只放判断。

一条判断长这样：

主题：含敏感成分的产品咨询路由

当时为什么这么定：客服 AI 直接回答了”孕妇能不能用”，触发广告法红线，被截图传开

做法：所有涉医疗声明、安全边界的咨询，客服必须交班给成分专员 + 合规专员，人审签字

引用：第 X 次客服声明类事故

下次复审：3 个月后

每一条判断都得有”引用了哪起事故”，不允许凭空写”应该这么做”。判断会过期，所以挂复审时间。事实变化慢，判断变化快，分层之后判断可以独立迭代，不污染知识库。

自进化引擎：先有人审，再谈自动

最现实的入口是数字员工自己改自己的”操作手册”：根据反馈，提议改写自己的提示词或某件工具的说明书，由人或另一个 AI 审过再合并。

打个比方，团队里有人随口一句”这流程我跑过好几次了”，数字员工当下就把这条经验沉淀进手册库。下一次另一个场景启动时，自动调用，跳过摸索。

严格说，”系统自动改自己”还分三层：

全自动：提示词微调走数据反馈，自己学自己改

半自动：系统提案、人审签字、落盘

监督学习：人教一遍，系统抽象

第三层有个朴素的画面。某次踩了个坑：AI 写的一批评论在系统里被归成”人发的”，因为身份字段填错了位置。修完之后，这条写进手册第一行。下次新场景启动，第一秒就读到。后面几次没再复发。

为什么不一上来就全自动？两条原因。

第一，反馈样本不够：AI 自己学自己改，前提是错误模式归类清楚、样本量够大；现阶段大多数公司还没攒到这个量，AI 自己学反而把表面噪声当成规律。

第二，错误的杠杆太长：一条错的提示词改下去，所有跑这条提示词的场景全跟着出错，等账单或客诉来时已经晚了。

人审 5 分钟的成本远小于这种公关代价。但这只是阶段性选择：1~3 个月先放开风险窄的部分（比如纯提示词微调，不动 SOP），半年左右整体进到全自动，这才是合理的迭代速度。

算力调度：给数字员工发能力卡

要回答两件事：让大家用得上、不让 AI 烧爆。

业内主流方案有三类：沙箱 + 能力白名单（Anthropic Computer Use 默认跑在虚拟机里就是这思路）、人在回路（OpenAI Operator 高风险动作必须人确认）、意图判断（用一个轻量模型判断当前调用符不符合原始意图）。工程上是三层叠加，不是三选一。下面拆开看。

1. 能力卡

每个数字员工配一张能力卡（替代以前给员工发工号的做法）：能力卡上写明能用什么工具、能读什么数据、能改什么、什么动作得人签字。卡上还标”敏感度”：客户数据是私有圈，卡上写”不出公司”，就一定不上公网。

一张能力卡的白话版：

谁能用：销售助手、客户支持

能干嘛：查库存，输入 SKU 返回剩余件数和发货仓

多少额度：每个 AI 每天 200 次

要不要审：自动放行，督导每天抽 30% 看日志

数据敏感度：输入 SKU（公开）+ 输出库存（私有圈），不出公司

被拒过：销售助手曾想调一个第三方比价 API 做”竞品库存对比”，被自动拒，理由是”输入会带自家 SKU 列表，敏感度声明是私有圈，不能出公网”。换成内网映射才放行

2. 三层闸门

每次 AI 调用，至少过三层。

一是预算。按任务、按 AI、按用户每天每月发额度。超了降级换小模型，或者直接暂停。大多数公司这一层都还没做对，账单到月底才发现。

二是工具配额 + 沙箱。每次调外部工具计配额，防 AI 进死循环。这件事我们发生过两次，每次烧掉的钱都是四位数。Anthropic Computer Use 默认跑在虚拟机里也是这思路：能动什么先白名单，在隔离环境里跑。

三是意图判断 + 重量动作人审。前两层是硬限，这一层是软判断：用一个轻量模型判断当前调用符不符合原始意图（OpenAI Operator 的策略思路）。重量动作（大额费用、私有圈数据出库、涉及个体决策）默认得人签字。

3. ROI 度量

每次调用都得能回答”值不值”。

打个比方：AI 跑一份月报花 30 分钟、烧掉 20 块 token，人来跑大概 4 小时折合 800 元，算下来 ROI 40 倍。反过来，某次 AI 进死循环跑了 3 小时烧掉 4 位数还没产出，ROI 是负的，得立刻杀。

今天大多数公司还没有这个数。这件事不解决，AI 永远只能是”实验性预算”，进不了”基础设施预算”。

协议层：MCP 是工具协议，A2A 还在路上

人、AI、工具混在一起协作，靠什么对齐？靠协议层。

MCP（Model Context Protocol）由 Anthropic 在 2024 年 11 月开源，把”AI 怎么调外部工具”标准化，今天已经是这一层的事实标准。一年内被 OpenAI、Google、微软全部接入。它在 AIOS 里的位置类似 HTTP 在互联网里：本身不是 OS，但让”跨系统互操作”第一次变得可能。

下一件是A2A（Agent-to-Agent），即 AI 之间怎么互相发现、授权、调用。这件事 MCP 解决不了，A2A 是另一个独立协议。目前没有事实标准，Google 已经在做了，社区上也可以看到几个提案，2027 年前我相信一定会有一个大家都能接受的版本。

A2A 出来之前，每家公司能动手的权宜之计是把内部 AI 之间的调用统一写成”工具调用”的形式。也就是把另一个 AI 视作一个工具来调，复用 MCP 这套调外部工具的接口形态。等 A2A 出来再迁移会很轻松。

打个比方：销售助手要让财务 AI 帮算一笔退款额度。今天 A2A 没标准，最务实的做法是把财务 AI 当工具调，发一句”算一下 X 的退款额”过去，对方吐回数字。每加一个新 AI 都按这个形式接入。

这件事不难，今天大多数公司还没做。

回到自己

我这小半年，在不同项目上，被逼迫着思考这个基础设施，琢磨它应该“长什么样”。但其实不止我们。Anthropic、OpenAI、Apple、Microsoft、Google，所有想要深度 “AI 化”的公司都在被迫回答这个问题。

AI 时代组织的基础设施具体长什么样一定会持续变化。我这两篇里写的方案，过两年回头看不一定都对。但这个基础设施必须每家公司自己造这件事，我相信不会变。

上一代基础设施是工具厂商替你造的。这一代基础设施，要在你自己车库里慢慢长出来。

我们的车库还在施工中。