AI 助手开始干活了,我也重新理解了 Skill-夜雨聆风

AI 助手开始干活了,我也重新理解了 Skill

今天还是挺有收获的。

昨天我给自己弄了两个 AI 助手，一个是主助手，平时主要帮我处理各种日常事情；另一个偏“医生”方向。

刚开始这两个助手就像住在隔壁的两个人，彼此知道对方存在，但门还没打通，联系不上。今天在 Codex 的帮助下，这个门总算被撬开了一点。

两个助手，从“互不相通”到“开始联通”了。

现在的情况是，这两个助手已经可以分别独立跟我对话了，而且它们之间也能开始互相联系了。不过还没有完全调顺，还是会有一点小毛病。

比如说，我让第一个助手去通知第二个助手给我发一句“晚上好”，它其实是能收到这个任务的，只不过现在还没法真正把这句话发出来。

这件事我先搁一下，因为它暂时不影响整体使用。

它开始动手了

今天另外一个很大的突破，就是我给它装上了浏览器相关的 skill。

AI 从“只会说”，开始慢慢变成“会做”。

如果说以前的 AI 助手更像一个只会聊天、提建议的人，那现在它开始有点像“会自己动手”的人了。

它不只是会告诉我“你可以去点哪个按钮”，而是真的能帮我打开网页、找到按钮、点进去，再按照页面提示一步一步往下做。

当然，这个过程也不是说装上就立刻完美。很多 skill 刚装好时，就像新买来的工具，说明书上看着什么都能干，但真正想顺手用起来，还是得调一调、试一试。

今天我做的，其实就是这个过程。

不过整体效果已经很不错了。尤其是用 GPT-5.4 的时候，它做这些网页操作基本已经比较顺了，卡住的时候不算多。

有些按钮一开始它找不到，但只要找到过一次，后面通常就会顺很多，像是它慢慢认得路了。碰到弹窗的时候，也可以提醒它去点“确认”或者“取消”，这些都已经可以配合起来了。

我更像在带人

今天还有一个让我感受特别深的地方，就是我做这些事情，基本不是靠自己敲代码完成的。

我更像是在“带人”，而不是自己埋头写程序。

如果按以前的理解，像这种让 AI 助手学会开网页、点按钮、自动切换课程，甚至给自己写一个 skill 的事，听起来应该是很“程序员”的活，感觉起码要自己写不少代码才行。

但今天我实际操作下来，发现并不是这样。

我更多是在用中文口述，告诉它我想要什么、下一步该干什么、哪里出了问题、应该怎么改。它再根据这些要求自己去调整、去生成。

也就是说，我更像是在带一个会干活的助手，而不是我自己趴在电脑前一行一行写程序。

很多看起来很高的技术门槛，正在被自然语言一点点抹平。

这件事对我来说意义挺大。因为它说明，很多以前觉得门槛很高、好像非得会编程才能做的事情，现在其实可以通过自然语言一步步搭起来。

你不一定非得自己拿锤子拧螺丝，更像是你站在旁边描述你想要一把什么样的椅子，然后它一点点帮你把这把椅子做出来。

它也需要小抄

不过，我也发现了一个问题。

就是它虽然已经会帮我操作网页了，但如果我把对话重新开始，相当于重新开机，那它前面学会的那一套“帮我自动点开课程、自动播放、自动切换下一节”的方法，又得重新来一遍。

没有“记忆”，很多流程就只能一次次重教。

这时候我就在想，能不能不要每次都重新教它，而是干脆让它自己写一本“操作小抄”。

以后只要遇到这种事，它翻一翻这本小抄，就知道该怎么做。

后面我还真让它写了这样一份“操作小抄”，也就是一个专门的 skill。你可以把 skill 理解成一本专门针对某件事写的小手册。

比如这本手册，就是教它怎么打开学习网站、怎么点课程、怎么按每节课的时长安排切换、如果中途断了又该怎么接上。

Skill，本质就是“可复用的经验”。

这样一来，我以后看这些视频课的时候，就不用自己守在那儿一节一节地点了，它可以帮我盯着流程，我只需要看就行。

这个感觉就像以前我要自己拿遥控器不停按“下一集”，现在终于有人在旁边帮我按了。

好模型像老师傅

今天还有一个特别现实的体会，就是模型这件事，真不是谁便宜谁就一定更值。

便宜不一定更省，关键还是看完成效率。

我用 GPT-5.4 来做这些网页操作、调试流程、写学习小抄的时候，整体是比较顺的，很多事能一次做成。

但如果换成 GPT-5.4-mini，虽然价格看起来便宜不少，可一旦任务稍微复杂一点，它就有点像让一个还没完全上手的新手去修精密仪器。

表面上看，请这个“新手”便宜，但问题是他可能来回折腾很多次，拆了装、装了拆，试十遍二十遍都做不成。

最后不仅时间花掉了，材料也浪费了。模型也一样，虽然单次便宜，但它如果老是试错、卡住，最后花掉的 token 不一定更少，甚至可能更多。

好模型像老师傅，贵一点，但往往更省心也更省。

所以我今天越来越觉得，好模型有时候就像一个经验丰富的老师傅，单价看起来高一点，但活干得快、干得准，反而更省。

写 Skill 没那么难

另外一件让我挺惊讶的事，就是写 skill 这件事本身，居然没我想得那么难。

原来以为很难，结果真的能做出来。

原来我总觉得这种东西应该特别技术、特别复杂，好像得会很多代码、懂很多系统才能做出来。

结果今天我让它写完以后，去文件夹里一看，那份 skill 真的已经在里面了。

那种感觉挺奇妙的，就像你原来以为要自己搭一张桌子，结果你只是把要求讲清楚，旁边那个木工已经把桌子搭好了，甚至还摆到了你面前。

它是活的工具

我今天还想明白一件事，就是 skill 这个东西不是写完就封箱，不是一次写完以后永远不能动了。

Skill 是活的工具，不是一次性成品。

它更像一把正在打磨的工具。今天先做成锤子的样子，明天你发现手柄不顺手，就再削一削；后天发现锤头太轻，就再加一点重量。

它是可以一边用一边改的，而且越改会越像你自己的工具。

所以我现在反而觉得，没必要一开始就把它写得特别死、特别满、什么都规定死。

更好的办法，是先给它一个通用的框架，让它先能用起来，后面再根据实际使用的情况一点点补、一点点改。

Skill 不必做成万能刀

我今天还查了一些资料，也越来越认同一个思路。

“万能工具”看起来厉害，实际往往最不顺手。

就是写这种 skill 的时候，最好不要一上来就做一个“万能工具箱”，恨不得什么都往里装。

因为功能越杂，它越容易变得笨重，看着什么都能干，实际反而哪样都不够顺手。

更好的方式，是把它拆开。一个 skill 干一件事，分工越细越好。

就像家里做饭，你当然也可以拿一把“什么都能切”的大刀，但很多时候，切菜有切菜的刀，削皮有削皮的刀，用起来反而更轻松、更顺手。

拆分 skill，不是变弱，反而会更强大、更灵活。

所以如果以后要做一个功能很多的大东西，我觉得更合适的做法，还是先把这些功能拆成几个小 skill，最后再把它们配合起来用。

这样会更清楚，也更有效率。