乐于分享
好东西不私藏

AIOS元年将至:AI不该再跑在"给人用"的操作系统上(下)

AIOS元年将至:AI不该再跑在"给人用"的操作系统上(下)

         
上篇《AIOS元年将至:AI不该跑在”给人用”的系统上(上)》讲了 AIOS 是什么、为什么 2026 是它的元年。下篇展开:这四层基础设施(组织记忆、自进化引擎、算力调度、协议层)具体怎么造。
上篇说的 Agent,在公司语境里被组织起来,就是”数字员工”。AIOS 是给数字员工跑的新基础设施(新底盘)。它要承担:组织记忆、自进化引擎、算力调度、协议层。现在它并没有一个确定性的现成解决方案,先驱者需要自己造。
01
组织记忆:事实和判断需分开
组织记忆里有事实,也有判断。事实是”昨天 AI 跑了一份报告”,判断是”我们决定不发出去,因为口径有问题”。最容易踩的坑:两者混在一起存,调出来就是噪声。
所以记忆得分层。
业内目前主要有三条路在解 AI 工作记忆的存储问题:
MemGPT 流派
(2023 年 UC Berkeley 论文,arXiv:2310.08560):让 AI 自己管理”当下能看的”和”备查的”两部分记忆,相当于把操作系统的内存换页机制搬到 AI 世界。
RAG 流派
:每次查询时检索相关历史,拼回给 AI 看。简单粗暴,成本高、延迟大。
状态快照流派
(LangGraph 这一类):把 AI 当下整个状态打包存到外部,下次唤醒时再加载回来。适合长跑、可断点续跑。
这三条解决的是”怎么存得下”。但事实和判断分开存这件事,要的是另一种分法。我们的做法是分成五层:短期 / 工作 / 知识库 / 个人档案 / 协作经验。”知识库”那一层只放事实,”工作”那一层只放判断。
一条判断长这样:
  • 主题:含敏感成分的产品咨询路由
  • 当时为什么这么定:客服 AI 直接回答了”孕妇能不能用”,触发广告法红线,被截图传开
  • 做法:所有涉医疗声明、安全边界的咨询,客服必须交班给成分专员 + 合规专员,人审签字
  • 引用:第 X 次客服声明类事故
  • 下次复审:3 个月后
每一条判断都得有”引用了哪起事故”,不允许凭空写”应该这么做”。判断会过期,所以挂复审时间。事实变化慢,判断变化快,分层之后判断可以独立迭代,不污染知识库。
02
自进化引擎:先有人审,再谈自动
最现实的入口是数字员工自己改自己的”操作手册”:根据反馈,提议改写自己的提示词或某件工具的说明书,由人或另一个 AI 审过再合并。
打个比方,团队里有人随口一句”这流程我跑过好几次了”,数字员工当下就把这条经验沉淀进手册库。下一次另一个场景启动时,自动调用,跳过摸索。
严格说,”系统自动改自己”还分三层:
  • 全自动:提示词微调走数据反馈,自己学自己改
  • 半自动:系统提案、人审签字、落盘
  • 监督学习:人教一遍,系统抽象
第三层有个朴素的画面。某次踩了个坑:AI 写的一批评论在系统里被归成”人发的”,因为身份字段填错了位置。修完之后,这条写进手册第一行。下次新场景启动,第一秒就读到。后面几次没再复发。
为什么不一上来就全自动?两条原因。
第一,反馈样本不够:AI 自己学自己改,前提是错误模式归类清楚、样本量够大;现阶段大多数公司还没攒到这个量,AI 自己学反而把表面噪声当成规律。
第二,错误的杠杆太长:一条错的提示词改下去,所有跑这条提示词的场景全跟着出错,等账单或客诉来时已经晚了。
人审 5 分钟的成本远小于这种公关代价。但这只是阶段性选择:1~3 个月先放开风险窄的部分(比如纯提示词微调,不动 SOP),半年左右整体进到全自动,这才是合理的迭代速度。
03
算力调度:给数字员工发能力卡
要回答两件事:让大家用得上、不让 AI 烧爆。
业内主流方案有三类:沙箱 + 能力白名单(Anthropic Computer Use 默认跑在虚拟机里就是这思路)、人在回路(OpenAI Operator 高风险动作必须人确认)、意图判断(用一个轻量模型判断当前调用符不符合原始意图)。工程上是三层叠加,不是三选一。下面拆开看。
1. 能力卡
每个数字员工配一张能力卡(替代以前给员工发工号的做法):能力卡上写明能用什么工具、能读什么数据、能改什么、什么动作得人签字。卡上还标”敏感度”:客户数据是私有圈,卡上写”不出公司”,就一定不上公网。
一张能力卡的白话版:
  • 谁能用:销售助手、客户支持
  • 能干嘛:查库存,输入 SKU 返回剩余件数和发货仓
  • 多少额度:每个 AI 每天 200 次
  • 要不要审:自动放行,督导每天抽 30% 看日志
  • 数据敏感度:输入 SKU(公开)+ 输出库存(私有圈),不出公司
  • 被拒过:销售助手曾想调一个第三方比价 API 做”竞品库存对比”,被自动拒,理由是”输入会带自家 SKU 列表,敏感度声明是私有圈,不能出公网”。换成内网映射才放行
2. 三层闸门
每次 AI 调用,至少过三层。
一是预算。按任务、按 AI、按用户每天每月发额度。超了降级换小模型,或者直接暂停。大多数公司这一层都还没做对,账单到月底才发现。
二是工具配额 + 沙箱。每次调外部工具计配额,防 AI 进死循环。这件事我们发生过两次,每次烧掉的钱都是四位数。Anthropic Computer Use 默认跑在虚拟机里也是这思路:能动什么先白名单,在隔离环境里跑。
三是意图判断 + 重量动作人审。前两层是硬限,这一层是软判断:用一个轻量模型判断当前调用符不符合原始意图(OpenAI Operator 的策略思路)。重量动作(大额费用、私有圈数据出库、涉及个体决策)默认得人签字。
3. ROI 度量
每次调用都得能回答”值不值”。
打个比方:AI 跑一份月报花 30 分钟、烧掉 20 块 token,人来跑大概 4 小时折合 800 元,算下来 ROI 40 倍。反过来,某次 AI 进死循环跑了 3 小时烧掉 4 位数还没产出,ROI 是负的,得立刻杀。
今天大多数公司还没有这个数。这件事不解决,AI 永远只能是”实验性预算”,进不了”基础设施预算”。
04
协议层:MCP 是工具协议,A2A 还在路上
人、AI、工具混在一起协作,靠什么对齐?靠协议层。
MCP(Model Context Protocol)由 Anthropic 在 2024 年 11 月开源,把”AI 怎么调外部工具”标准化,今天已经是这一层的事实标准。一年内被 OpenAI、Google、微软全部接入。它在 AIOS 里的位置类似 HTTP 在互联网里:本身不是 OS,但让”跨系统互操作”第一次变得可能。
下一件是A2A(Agent-to-Agent),即 AI 之间怎么互相发现、授权、调用。这件事 MCP 解决不了,A2A 是另一个独立协议。目前没有事实标准,Google 已经在做了,社区上也可以看到几个提案,2027 年前我相信一定会有一个大家都能接受的版本。
A2A 出来之前,每家公司能动手的权宜之计是把内部 AI 之间的调用统一写成”工具调用”的形式。也就是把另一个 AI 视作一个工具来调,复用 MCP 这套调外部工具的接口形态。等 A2A 出来再迁移会很轻松。
打个比方:销售助手要让财务 AI 帮算一笔退款额度。今天 A2A 没标准,最务实的做法是把财务 AI 当工具调,发一句”算一下 X 的退款额”过去,对方吐回数字。每加一个新 AI 都按这个形式接入。
这件事不难,今天大多数公司还没做。
05
回到自己
我这小半年,在不同项目上,被逼迫着思考这个基础设施,琢磨它应该“长什么样”。但其实不止我们。Anthropic、OpenAI、Apple、Microsoft、Google,所有想要深度 “AI 化”的公司都在被迫回答这个问题。
AI 时代组织的基础设施具体长什么样一定会持续变化。我这两篇里写的方案,过两年回头看不一定都对。但这个基础设施必须每家公司自己造这件事,我相信不会变。
上一代基础设施是工具厂商替你造的。这一代基础设施,要在你自己车库里慢慢长出来。
我们的车库还在施工中。