下一个 AI 编程风口:插件、技能和 Agent 工作流

AI 编程工具正在长出自己的操作系统层

从 Claude Code、Codex 到 Cursor plugins，插件层与技能分发层正在成为新的竞争主线

素材来源：2026-05-31 GitHub AI 动态；核心观察对象包括 anthropics/claude-code、openai/codex、cursor/plugins、EveryInc/compound-engineering-plugin、run-llama/liteparse。

这两天浏览 GitHub ，看到一个新的格局：AI 编程工具的竞争，正在从模型能力，慢慢转向插件层、技能层和 Agent 工作流的基础设施。

比模型能力更重要，更容易结合实际工作流。

模型再强，也要落到工作流里。落到团队协作里。落到权限、上下文、工具调用、文档解析、任务编排这些不够漂亮、却非常真实的工程细节里。

GitHub 上几条看似分散的动态，恰好都指向同一个方向。

模型再强，也要穿过工具、权限、上下文和协作流程，才会变成真正的生产力。

图 1：模型能力穿过插件层、技能层和工具调用，才会变成可复用的 Agent 工作流。

▍AI IDE 开始争夺“工作流操作系统”

先看两条 GitHub 变更。

一条来自 anthropics/claude-code。它在 v2.1.158 这个版本里继续扩展 Auto mode，明确支持通过 Bedrock、Vertex 和 Foundry 这几条云侧通道启用。

这看起来像一次普通版本更新。

放到企业开发环境里，意义就完全不一样了。

很多团队并不会直接用单一模型 API 写代码。他们面对的是一整套复杂现实：模型要走不同云厂商，权限要受组织策略约束，日志、审计、账单都要留痕，某些业务还要求区域隔离、供应商切换和服务等级控制。

所以，一个 AI 编程工具能不能在多个托管模型入口里保持一致行为，已经不只是加分项。它决定这个工具能不能真正进入企业开发现场。

另一条来自 openai/codex。5 月 30 日，主分支连续合入了一批提交，涉及 Bedrock 相关的服务层级限制与区域回退修复、线程归档 CLI 命令、request_user_input 交互能力实验开关，以及 multi-agent 工具命名和交互细节调整。

单看每一条，都不算惊人。放在一起看，它们解决的是长期使用问题。

当一个 Agent 不再只是帮你写一段代码，而是进入真实开发流，马上会遇到一堆问题：会话怎么长期保存，任务怎么归档与恢复，不同模型后端怎么统一行为，人什么时候介入，多个 Agent 怎么协作才不会互相打架。

这些问题不性感。谁先把它们做扎实，谁才更像基础设施。

模型能力决定上限，接入层一致性决定能不能落地。

▍插件层正在从隐性能力变成显性产品

如果说 Claude Code 和 Codex 代表 AI IDE 正在补齐底座，另外两条趋势仓库则揭开了更进一步的变化：插件层开始显性化。

先看 cursor/plugins。

Cursor 已经开始把插件规范本身公开出来。

它在仓库里明确写出，这是 Cursor 的插件规范和官方插件仓库。

它公开出来的是一整套结构约定：plugin.json、skills/、rules/、mcp.json。

过去很多人嘴里的 AI 工具体验，正在从散落的 prompt、个人习惯、聊天技巧，变成一种可安装、可迁移、可版本化、可分发的工程对象。

以前你说：“我有一套很好用的代码审查提示词。”

现在你可能会说：“我有一个插件，里面带规则、技能、工具接入和工作流约束，你装上就能用。”

前者更像经验。后者开始像产品。

一旦经验被封装成插件，AI 编程的竞争就会进入生态分发阶段。

▍从 prompt 到 plugin，中间多了什么

很多人会觉得，插件化只是把 prompt 包了一层壳。

其实多了几层关键东西。

一层是行为能力。prompt 的价值大多停留在语言表达层。插件要处理的是能调用哪些工具，遇到什么条件触发什么技能，如何读取项目上下文，什么时候执行规则，结果怎么交给别的 Agent 或流程继续处理。

prompt 更像表达模板，plugin 更像行为容器。

另一层是组织沉淀。个人 prompt 很难管理，常常散落在聊天历史、笔记软件、截图、收藏夹里。人一换，经验就断了。

插件一旦有了结构，就可以进 Git，可以版本管理，可以发 release，可以 code review，也可以在团队内部统一安装。

它让“AI 使用经验”变成真正能沉淀、能继承、能协作的资产。

还有一层是流程编排。过去我们把 AI 编程工具看成一个副驾驶，你问一句，它答一句。插件层成熟之后，AI 会逐渐变成流程网络里的节点：一个节点读代码，一个节点查文档，一个节点写测试，一个节点做 review，一个节点生成变更摘要。

这时，重要的是这条工作流能不能稳定跑完。

prompt 解决表达，plugin 开始承载行为、权限、上下文和协作。

▍compound-engineering-plugin 这类项目为什么值得看

今天还有一个很有代表性的仓库：EveryInc/compound-engineering-plugin。

这个项目公开强调自己服务于 Claude Code、Codex、Cursor 等多种运行环境，并且把技能安装、Agent 安装、工作流复用拆成比较清楚的层级。

这说明，行业里已经有人不满足于在某个 AI IDE 里做几个模板，而是在尝试建立跨运行时复用的技能分发层。

翻译成人话：过去你学的是怎么和某个模型聊天。以后更需要学的，可能是怎么把一套做研究、写代码、审查、规划的流程，封装成可以跨工具迁移的能力模块。

它的现实价值：迁移成本会下降，组织复用效率会上升，生态护城河的形状也会改变。

以后某个工具强，不一定因为它模型最强。也可能因为它插件最多、技能最好、工作流最成熟、迁移最顺。

真正有价值的经验，会从个人技巧变成可分发的能力模块。

图 2：个人技巧被封装成插件包，进入团队技能资产库，再分发到不同开发环境。

▍文档解析和本地工具链也在补课

run-llama/liteparse

一个成熟的 Agent 工作流，最终一定不只是改代码。它还会读 PDF、截图、扫描文档、产品说明、内部知识库。

这时候，文档解析会成为 Agent 进入真实业务流程的前置条件。

liteparse 这类项目被持续关注，说明越来越多团队开始意识到：如果上游文档输入仍然依赖闭源黑箱服务，后面的 Agent 工作流再高级，很多时候也只是搭在不稳的地基上。

这些看起来分散的动态，串成一张完整的图：Claude Code 和 Codex 在补 Agent 底座，Cursor 和 Compound 在显化插件与技能分发，LiteParse 这类项目在补真实世界输入能力。

这是下一阶段 AI 开发工具真正会卷的战场。

Agent 要进入真实业务，先要读懂真实世界交给它的材料。

▍接下来半年，AI 编程工具会怎么演化

接下来半年大概率会出现几类变化。

插件会成为 AI IDE 的一等公民。判断一个 AI 开发工具强不强，不能只看模型名单，还要看有没有明确插件规范，能不能安装、分享、升级、回滚，插件能不能绑定技能、规则、工具和权限，能不能在团队里统一分发。

团队会开始管理“技能资产”。过去团队沉淀的是代码库、文档库、设计系统。接下来会多一层：技能资产库。

新项目初始化、PR review、安全检查、文档整理、事故排查，这些都会被做成可安装能力，而不是写在 wiki 里等人自觉遵守。

Agent 编排会越来越像软件工程。很多人现在谈 Agent，还带着一点“会不会写提示词”的思路。真正落地之后，重点会变成状态怎么保存，上下文怎么裁剪，工具失败怎么重试，人类审核插在哪一步，多 Agent 如何分工和汇总。

聊天依然重要。它已经不再是最核心的门槛。

生态竞争会从模型 API 接入升级到工作流市场。谁能先把插件、技能、Agent、权限和上下文管理串成完整市场，谁就更有机会把开发者留住。

开发者一旦在某个平台沉淀了几十个工作流插件、几套团队规则、几条稳定的 Agent 链路，就不会轻易迁移。

下一轮差距，来自谁先把 AI 使用经验变成组织能力。

▍普通开发者和团队现在该做什么

如果你是个人开发者，可以先做一件很实际的事：别只收藏 prompt，开始整理自己的可复用工作流。

哪怕现在还没有正式插件系统，也可以先把这些东西结构化：哪类任务适合交给 AI，每类任务需要哪些上下文，哪些步骤必须人工确认，哪些输出格式可以标准化。

如果你是团队负责人，建议看两件事。

你们的 AI 经验有没有沉淀机制。如果所有高阶用法都掌握在少数几个人手里，那很难算能力优势，更像组织风险。

你们选择的 AI 工具有没有生态演进空间。今天看起来好用，不代表半年后还能承接团队级工作流。真正该看的，是它有没有插件规范、技能分发、权限边界和工作流编排能力。

这轮变化表面上像是在比模型。往深处看，分水岭正在换位置：从模型层，移到插件层；从回答质量，移到工作流质量；从单次对话，移到长期协作。

谁能把技能做成资产，把插件做成分发层，把 Agent 做成稳定工作流，谁才更可能拿到下一阶段的主动权。

到现在已经不只是又出了一个更强模型。

AI 开发工具，终于开始长出自己的操作系统层。

真正的主动权，属于能把技能、插件和 Agent 工作流沉淀下来的人。