1. skill 这个东西,后面可能会到处都是
最近感觉:skill 可能会是 AI 时代的最小协作单元。
或者换个说法,skill 就是 AI 时代的 APP。
移动互联网时代,是人去操作手机上的 APP。
你想做一件稍微复杂一点的事情,就得自己打开很多 APP。
中间把这些东西串起来的,一直都是人。
你要自己判断下一步该干什么,然后手工打开不同的 APP,把这些流程接起来。

2. 你去一个城市玩两天,这个流程就已经出来了
比如你想去上海玩两天。
以前你得先打开旅行 APP 查攻略,然后去票务 APP 订票。订票的时候,可能还要跳到支付 APP 完成支付。定好日程之后,还要记到自己的日程里。最后可能还要到微信里通知朋友或者家人。
旅行 APP 只负责旅行,票务 APP 只负责订票,支付 APP 只负责支付,日历只负责日程,微信只负责聊天。
中间把这些东西接起来的,一直都是你自己。
但在 AI 时代,这件事可能会变化。
人不一定再亲自操作每一个 APP,而是变成人驱动 AI,AI 再去调用一个个 skill。
比如你说:我下周想去上海玩两天,帮我安排一下。
AI 可能会先调用旅行 skill,去查攻略,看看哪些地方适合去。然后它回来跟你确认,你是想轻松一点,还是想多逛几个地方。你确认以后,它再调用票务相关的 skill 去查车票或机票,再调用支付相关的能力完成支付。支付完成以后,再调用日历 skill,把日程写进去。最后再调用聊天相关的 skill,通知朋友或者家人。
这个时候,人不是一个个 APP 去点。人更多是在表达目标、做关键确认、做最终判断。AI 则负责调用不同的 skill,把中间的流程串起来。

3. 所以 skill 不能只把它看成一段提示词
我一开始也会觉得,skill 可能就是提示词,后来发现不是这样。
比如 Codex 里的 skill,它不只是告诉 AI 应该怎么做。
它还可以操作项目里的文件,能读,能写。它也可以配合本地环境执行代码。甚至有些 skill 里面还可以把 API 或 CLI 包进去,比如飞书的 CLI,或者某些工具的接口,都可以被封装到 skill 里。
这样一来,AI 调用 skill 的时候,就不只是参考一段说明。它是真的可以去操作某个工具,完成某个动作。
它就是一个 AI 可以调用的能力单元。
而且 skill 还有一个很重要的地方,就是它可以带说明书。
它可以告诉 AI:这个工具能做什么,输入应该是什么,输出应该是什么,什么情况下该调用它,调用完以后怎么处理结果。
有些 skill 还可以执行代码,有些 skill 还可以把 API 能力包装进去。这样它就不是单纯一个知识文件,而是一个可以被 AI 使用的协作单元。
我觉得这个地方跟 MCP 也有点关系。MCP 是更底层、更通用的接口。但很多时候,普通用户不一定直接感受到 MCP,因为很多工具能力可能已经被封装到 skill 里面了。
对 AI 来说,skill 这种东西就是可以直接拿来用的。

还有一个例子是 Obsidian Canvas。Canvas 这个东西本来是给人用的,人可以在里面画图、放卡片、整理知识结构。但如果 Obsidian 给大模型提供了官方 skill,让 AI 知道怎么创建 Canvas,怎么操作 Canvas,那这个东西就变了。它不只是一个人手动使用的画布,它变成了 AI 可以调用的一个能力。
4. 以后很多软件,可能都得给 AI 准备一套 skill
我觉得以后很多软件可能都会这样。
原来是给人设计按钮、菜单、页面,以后可能还要给 AI 设计 skill。
因为 AI 要知道,这个软件能干什么,哪些能力可以调用,调用的时候需要什么参数,结果怎么返回,失败了怎么处理。
如果你想让一个 AI 帮你完成长周期、复杂一点的任务,它就不可能只靠聊天。它要能读你的数据,能操作你的文件,能调用你的工具,能连接飞书、Google Drive、Gmail、日历、支付、内容发布工具,然后把这些东西串起来。
比如一个通用智能体,它可能要能帮你写代码、写文章、做 PPT、写 Word、生成视频、生成图片、写文案、发朋友圈、发抖音,甚至处理一些办公流程。
这些事情不是一个单点功能,它是一串动作。如果每一个动作都还要人手工去点,那还是 APP 时代。如果这些动作都能变成 skill,然后由 AI 统一调度,那就更像 AI 时代的工作方式。
后面的协作方式,大概会变成这样:人提出目标,AI 理解目标,AI 拆解任务,AI 调用不同 skill,人在关键节点确认,最后 AI 把完整流程跑完。
过去是人自己串流程,后面很可能会变成 AI 去串流程。
夜雨聆风