AI 编程工具正在长出自己的操作系统层
从 Claude Code、Codex 到 Cursor plugins,插件层与技能分发层正在成为新的竞争主线
素材来源:2026-05-31 GitHub AI 动态;核心观察对象包括 anthropics/claude-code、openai/codex、cursor/plugins、EveryInc/compound-engineering-plugin、run-llama/liteparse。
这两天浏览 GitHub ,看到一个新的格局:AI 编程工具的竞争,正在从模型能力,慢慢转向插件层、技能层和 Agent 工作流的基础设施。
比模型能力更重要,更容易结合实际工作流。
模型再强,也要落到工作流里。落到团队协作里。落到权限、上下文、工具调用、文档解析、任务编排这些不够漂亮、却非常真实的工程细节里。
GitHub 上几条看似分散的动态,恰好都指向同一个方向。
模型再强,也要穿过工具、权限、上下文和协作流程,才会变成真正的生产力。

图 1:模型能力穿过插件层、技能层和工具调用,才会变成可复用的 Agent 工作流。
▍AI IDE 开始争夺“工作流操作系统”
先看两条 GitHub 变更。
一条来自 anthropics/claude-code。它在 v2.1.158 这个版本里继续扩展 Auto mode,明确支持通过 Bedrock、Vertex 和 Foundry 这几条云侧通道启用。
这看起来像一次普通版本更新。
放到企业开发环境里,意义就完全不一样了。
很多团队并不会直接用单一模型 API 写代码。他们面对的是一整套复杂现实:模型要走不同云厂商,权限要受组织策略约束,日志、审计、账单都要留痕,某些业务还要求区域隔离、供应商切换和服务等级控制。
所以,一个 AI 编程工具能不能在多个托管模型入口里保持一致行为,已经不只是加分项。它决定这个工具能不能真正进入企业开发现场。
另一条来自 openai/codex。5 月 30 日,主分支连续合入了一批提交,涉及 Bedrock 相关的服务层级限制与区域回退修复、线程归档 CLI 命令、request_user_input 交互能力实验开关,以及 multi-agent 工具命名和交互细节调整。
单看每一条,都不算惊人。放在一起看,它们解决的是长期使用问题。
当一个 Agent 不再只是帮你写一段代码,而是进入真实开发流,马上会遇到一堆问题:会话怎么长期保存,任务怎么归档与恢复,不同模型后端怎么统一行为,人什么时候介入,多个 Agent 怎么协作才不会互相打架。
这些问题不性感。谁先把它们做扎实,谁才更像基础设施。
模型能力决定上限,接入层一致性决定能不能落地。
▍插件层正在从隐性能力变成显性产品
如果说 Claude Code 和 Codex 代表 AI IDE 正在补齐底座,另外两条趋势仓库则揭开了更进一步的变化:插件层开始显性化。
先看 cursor/plugins。
Cursor 已经开始把插件规范本身公开出来。
它在仓库里明确写出,这是 Cursor 的插件规范和官方插件仓库。
它公开出来的是一整套结构约定:plugin.json、skills/、rules/、mcp.json。
过去很多人嘴里的 AI 工具体验,正在从散落的 prompt、个人习惯、聊天技巧,变成一种可安装、可迁移、可版本化、可分发的工程对象。
以前你说:“我有一套很好用的代码审查提示词。”
现在你可能会说:“我有一个插件,里面带规则、技能、工具接入和工作流约束,你装上就能用。”
前者更像经验。后者开始像产品。
一旦经验被封装成插件,AI 编程的竞争就会进入生态分发阶段。
▍从 prompt 到 plugin,中间多了什么
很多人会觉得,插件化只是把 prompt 包了一层壳。
其实多了几层关键东西。
一层是行为能力。prompt 的价值大多停留在语言表达层。插件要处理的是能调用哪些工具,遇到什么条件触发什么技能,如何读取项目上下文,什么时候执行规则,结果怎么交给别的 Agent 或流程继续处理。
prompt 更像表达模板,plugin 更像行为容器。
另一层是组织沉淀。个人 prompt 很难管理,常常散落在聊天历史、笔记软件、截图、收藏夹里。人一换,经验就断了。
插件一旦有了结构,就可以进 Git,可以版本管理,可以发 release,可以 code review,也可以在团队内部统一安装。
它让“AI 使用经验”变成真正能沉淀、能继承、能协作的资产。
还有一层是流程编排。过去我们把 AI 编程工具看成一个副驾驶,你问一句,它答一句。插件层成熟之后,AI 会逐渐变成流程网络里的节点:一个节点读代码,一个节点查文档,一个节点写测试,一个节点做 review,一个节点生成变更摘要。
这时,重要的是这条工作流能不能稳定跑完。
prompt 解决表达,plugin 开始承载行为、权限、上下文和协作。
▍compound-engineering-plugin 这类项目为什么值得看
今天还有一个很有代表性的仓库:EveryInc/compound-engineering-plugin。
这个项目公开强调自己服务于 Claude Code、Codex、Cursor 等多种运行环境,并且把技能安装、Agent 安装、工作流复用拆成比较清楚的层级。
这说明,行业里已经有人不满足于在某个 AI IDE 里做几个模板,而是在尝试建立跨运行时复用的技能分发层。
翻译成人话:过去你学的是怎么和某个模型聊天。以后更需要学的,可能是怎么把一套做研究、写代码、审查、规划的流程,封装成可以跨工具迁移的能力模块。
它的现实价值:迁移成本会下降,组织复用效率会上升,生态护城河的形状也会改变。
以后某个工具强,不一定因为它模型最强。也可能因为它插件最多、技能最好、工作流最成熟、迁移最顺。
真正有价值的经验,会从个人技巧变成可分发的能力模块。

图 2:个人技巧被封装成插件包,进入团队技能资产库,再分发到不同开发环境。
▍文档解析和本地工具链也在补课
run-llama/liteparse
一个成熟的 Agent 工作流,最终一定不只是改代码。它还会读 PDF、截图、扫描文档、产品说明、内部知识库。
这时候,文档解析会成为 Agent 进入真实业务流程的前置条件。
liteparse 这类项目被持续关注,说明越来越多团队开始意识到:如果上游文档输入仍然依赖闭源黑箱服务,后面的 Agent 工作流再高级,很多时候也只是搭在不稳的地基上。
这些看起来分散的动态,串成一张完整的图:Claude Code 和 Codex 在补 Agent 底座,Cursor 和 Compound 在显化插件与技能分发,LiteParse 这类项目在补真实世界输入能力。
这是下一阶段 AI 开发工具真正会卷的战场。
Agent 要进入真实业务,先要读懂真实世界交给它的材料。
▍接下来半年,AI 编程工具会怎么演化
接下来半年大概率会出现几类变化。
插件会成为 AI IDE 的一等公民。判断一个 AI 开发工具强不强,不能只看模型名单,还要看有没有明确插件规范,能不能安装、分享、升级、回滚,插件能不能绑定技能、规则、工具和权限,能不能在团队里统一分发。
团队会开始管理“技能资产”。过去团队沉淀的是代码库、文档库、设计系统。接下来会多一层:技能资产库。
新项目初始化、PR review、安全检查、文档整理、事故排查,这些都会被做成可安装能力,而不是写在 wiki 里等人自觉遵守。
Agent 编排会越来越像软件工程。很多人现在谈 Agent,还带着一点“会不会写提示词”的思路。真正落地之后,重点会变成状态怎么保存,上下文怎么裁剪,工具失败怎么重试,人类审核插在哪一步,多 Agent 如何分工和汇总。
聊天依然重要。它已经不再是最核心的门槛。
生态竞争会从模型 API 接入升级到工作流市场。谁能先把插件、技能、Agent、权限和上下文管理串成完整市场,谁就更有机会把开发者留住。
开发者一旦在某个平台沉淀了几十个工作流插件、几套团队规则、几条稳定的 Agent 链路,就不会轻易迁移。
下一轮差距,来自谁先把 AI 使用经验变成组织能力。
▍普通开发者和团队现在该做什么
如果你是个人开发者,可以先做一件很实际的事:别只收藏 prompt,开始整理自己的可复用工作流。
哪怕现在还没有正式插件系统,也可以先把这些东西结构化:哪类任务适合交给 AI,每类任务需要哪些上下文,哪些步骤必须人工确认,哪些输出格式可以标准化。
如果你是团队负责人,建议看两件事。
你们的 AI 经验有没有沉淀机制。如果所有高阶用法都掌握在少数几个人手里,那很难算能力优势,更像组织风险。
你们选择的 AI 工具有没有生态演进空间。今天看起来好用,不代表半年后还能承接团队级工作流。真正该看的,是它有没有插件规范、技能分发、权限边界和工作流编排能力。
这轮变化表面上像是在比模型。往深处看,分水岭正在换位置:从模型层,移到插件层;从回答质量,移到工作流质量;从单次对话,移到长期协作。
谁能把技能做成资产,把插件做成分发层,把 Agent 做成稳定工作流,谁才更可能拿到下一阶段的主动权。
到现在已经不只是又出了一个更强模型。
AI 开发工具,终于开始长出自己的操作系统层。
真正的主动权,属于能把技能、插件和 Agent 工作流沉淀下来的人。
夜雨聆风