
在东湖边上的马力步道散步。手机上刚安装了豆包语音输入法,试着用语音来写篇文章。
AI 从 2023 年 ChatGPT 上线到今天,已经过去了三年,变化太大了。
中间有几个让人明显感受到 AI 能力突变的节点。一个是 ChatGPT-4o,另一个就是 Claude 4.5。当时体验 Claude 4.5 的时候,真的有一种"AGI 已经实现了"的感觉。它的编程能力真正做到了让一个完全不会编程的人,借助 AI 就能做出一些自动化的小东西。所以在今年一二月份,我特别沉迷于 vibe coding。
那时候各个厂商大概都在推广自己的模型,你可以用很便宜的价格用到最顶级的模型。而现在想再去用 GPT-5.5 或者 Claude 4.7,就很贵。
另外一个变化是国产 AI 模型的突飞猛进。去年智谱上市的时候,我买了它的 Coding 会员。今年智谱 5.1 出来之后,其实感觉用它来编程已经完全可以了。之前可能会觉得像智谱 5.1 这样的模型在"设计品位"之类的方面有些不足,但其实这些完全可以通过 skill 来弥补。好的 skill 就像 Agent 的脚手架——有时候你觉得模型做不到某些事情,只是因为你没有给它好的脚手架。
所以现在其实不应该、或者说不需要去"用 AI 编写一个什么软件"。当你有什么需求的时候,真正应该想的是:AI 拥有了什么能力能够帮我自动化解决这个需求?然后你去给 AI 编写软件,而不是给自己编写一个软件。
就像最近推特上在讨论的:之前大家说 Agent 特别适合 Markdown 格式,但最近出现了一种新观点——我们应该让 AI 生成 HTML 格式。因为 Markdown 是适合人类编辑文本时用的格式,而现在人其实已经不参与编辑过程了。你只是对 AI 说,AI 写,你读 AI 写的东西然后给反馈,AI 再编辑。所以这个时候,文件格式的关键不在于方便人类编辑,而在于方便人类阅读。HTML 就是更方便人类阅读的格式,它可以有更丰富的铺陈内容的形式。人在这个循环中只是一个验证者,不太需要介入生成过程。
再说说 Agent 这件事。当初🦞出来的时候,我第一时间就体验了,但感觉整个系统很笨重,用着非常不舒服。后来出现了像 NanoClaw 等一系列更加简洁的架构。我在 NanoClaw 的基础上把内核换成了 Pi Agent,作为自己的 Agent 助理,接入了 Discord。Discord 很适合用来跟 Agent 交互——每个频道可以是一个独立的上下文空间,处理不同的任务;再有一个主控频道,可以把各个频道的 Agent 编排起来,组成一个工作流。
最近我试了一下 Hermes 这个 Agent,把它接入了微信。体验下来很不错,尤其搭配上豆包语音输入法,比直接用豆包的体验好非常多。因为直接用豆包,你会发现它的幻觉太大了,它好像没办法、或者说不太主动去获取及时的信息,经常产生各种奇怪的幻觉。你也没法给豆包提供很多 skill 或者 context 作为脚手架。
像我这样的 ADHD,平时脑子里想法太多太多,但是执行力又很差。AI 真的是天降福音。不过我体验 AI,感觉更多的是把它当成一种游戏在玩,新奇感胜过了创造。
夜雨聆风