AI 助手开始干活了,我也重新理解了 Skill

今天还是挺有收获的。
昨天我给自己弄了两个 AI 助手,一个是主助手,平时主要帮我处理各种日常事情;另一个偏“医生”方向。
刚开始这两个助手就像住在隔壁的两个人,彼此知道对方存在,但门还没打通,联系不上。今天在 Codex 的帮助下,这个门总算被撬开了一点。
两个助手,从“互不相通”到“开始联通”了。
现在的情况是,这两个助手已经可以分别独立跟我对话了,而且它们之间也能开始互相联系了。不过还没有完全调顺,还是会有一点小毛病。
比如说,我让第一个助手去通知第二个助手给我发一句“晚上好”,它其实是能收到这个任务的,只不过现在还没法真正把这句话发出来。
这件事我先搁一下,因为它暂时不影响整体使用。
它开始动手了

今天另外一个很大的突破,就是我给它装上了浏览器相关的 skill。
AI 从“只会说”,开始慢慢变成“会做”。
如果说以前的 AI 助手更像一个只会聊天、提建议的人,那现在它开始有点像“会自己动手”的人了。
它不只是会告诉我“你可以去点哪个按钮”,而是真的能帮我打开网页、找到按钮、点进去,再按照页面提示一步一步往下做。
当然,这个过程也不是说装上就立刻完美。很多 skill 刚装好时,就像新买来的工具,说明书上看着什么都能干,但真正想顺手用起来,还是得调一调、试一试。
今天我做的,其实就是这个过程。
不过整体效果已经很不错了。尤其是用 GPT-5.4 的时候,它做这些网页操作基本已经比较顺了,卡住的时候不算多。
有些按钮一开始它找不到,但只要找到过一次,后面通常就会顺很多,像是它慢慢认得路了。碰到弹窗的时候,也可以提醒它去点“确认”或者“取消”,这些都已经可以配合起来了。
我更像在带人

今天还有一个让我感受特别深的地方,就是我做这些事情,基本不是靠自己敲代码完成的。
我更像是在“带人”,而不是自己埋头写程序。
如果按以前的理解,像这种让 AI 助手学会开网页、点按钮、自动切换课程,甚至给自己写一个 skill 的事,听起来应该是很“程序员”的活,感觉起码要自己写不少代码才行。
但今天我实际操作下来,发现并不是这样。
我更多是在用中文口述,告诉它我想要什么、下一步该干什么、哪里出了问题、应该怎么改。它再根据这些要求自己去调整、去生成。
也就是说,我更像是在带一个会干活的助手,而不是我自己趴在电脑前一行一行写程序。
很多看起来很高的技术门槛,正在被自然语言一点点抹平。
这件事对我来说意义挺大。因为它说明,很多以前觉得门槛很高、好像非得会编程才能做的事情,现在其实可以通过自然语言一步步搭起来。
你不一定非得自己拿锤子拧螺丝,更像是你站在旁边描述你想要一把什么样的椅子,然后它一点点帮你把这把椅子做出来。
它也需要小抄

不过,我也发现了一个问题。
就是它虽然已经会帮我操作网页了,但如果我把对话重新开始,相当于重新开机,那它前面学会的那一套“帮我自动点开课程、自动播放、自动切换下一节”的方法,又得重新来一遍。
没有“记忆”,很多流程就只能一次次重教。
这时候我就在想,能不能不要每次都重新教它,而是干脆让它自己写一本“操作小抄”。
以后只要遇到这种事,它翻一翻这本小抄,就知道该怎么做。
后面我还真让它写了这样一份“操作小抄”,也就是一个专门的 skill。你可以把 skill 理解成一本专门针对某件事写的小手册。
比如这本手册,就是教它怎么打开学习网站、怎么点课程、怎么按每节课的时长安排切换、如果中途断了又该怎么接上。
Skill,本质就是“可复用的经验”。
这样一来,我以后看这些视频课的时候,就不用自己守在那儿一节一节地点了,它可以帮我盯着流程,我只需要看就行。
这个感觉就像以前我要自己拿遥控器不停按“下一集”,现在终于有人在旁边帮我按了。
好模型像老师傅

今天还有一个特别现实的体会,就是模型这件事,真不是谁便宜谁就一定更值。
便宜不一定更省,关键还是看完成效率。
我用 GPT-5.4 来做这些网页操作、调试流程、写学习小抄的时候,整体是比较顺的,很多事能一次做成。
但如果换成 GPT-5.4-mini,虽然价格看起来便宜不少,可一旦任务稍微复杂一点,它就有点像让一个还没完全上手的新手去修精密仪器。
表面上看,请这个“新手”便宜,但问题是他可能来回折腾很多次,拆了装、装了拆,试十遍二十遍都做不成。
最后不仅时间花掉了,材料也浪费了。模型也一样,虽然单次便宜,但它如果老是试错、卡住,最后花掉的 token 不一定更少,甚至可能更多。
好模型像老师傅,贵一点,但往往更省心也更省。
所以我今天越来越觉得,好模型有时候就像一个经验丰富的老师傅,单价看起来高一点,但活干得快、干得准,反而更省。
写 Skill 没那么难

另外一件让我挺惊讶的事,就是写 skill 这件事本身,居然没我想得那么难。
原来以为很难,结果真的能做出来。
原来我总觉得这种东西应该特别技术、特别复杂,好像得会很多代码、懂很多系统才能做出来。
结果今天我让它写完以后,去文件夹里一看,那份 skill 真的已经在里面了。
那种感觉挺奇妙的,就像你原来以为要自己搭一张桌子,结果你只是把要求讲清楚,旁边那个木工已经把桌子搭好了,甚至还摆到了你面前。
它是活的工具

我今天还想明白一件事,就是 skill 这个东西不是写完就封箱,不是一次写完以后永远不能动了。
Skill 是活的工具,不是一次性成品。
它更像一把正在打磨的工具。今天先做成锤子的样子,明天你发现手柄不顺手,就再削一削;后天发现锤头太轻,就再加一点重量。
它是可以一边用一边改的,而且越改会越像你自己的工具。
所以我现在反而觉得,没必要一开始就把它写得特别死、特别满、什么都规定死。
更好的办法,是先给它一个通用的框架,让它先能用起来,后面再根据实际使用的情况一点点补、一点点改。
Skill 不必做成万能刀

我今天还查了一些资料,也越来越认同一个思路。
“万能工具”看起来厉害,实际往往最不顺手。
就是写这种 skill 的时候,最好不要一上来就做一个“万能工具箱”,恨不得什么都往里装。
因为功能越杂,它越容易变得笨重,看着什么都能干,实际反而哪样都不够顺手。
更好的方式,是把它拆开。一个 skill 干一件事,分工越细越好。
就像家里做饭,你当然也可以拿一把“什么都能切”的大刀,但很多时候,切菜有切菜的刀,削皮有削皮的刀,用起来反而更轻松、更顺手。
拆分 skill,不是变弱,反而会更强大、更灵活。
所以如果以后要做一个功能很多的大东西,我觉得更合适的做法,还是先把这些功能拆成几个小 skill,最后再把它们配合起来用。
这样会更清楚,也更有效率。
夜雨聆风