散步闲聊点 AI

在东湖边上的马力步道散步。手机上刚安装了豆包语音输入法，试着用语音来写篇文章。

AI 从 2023 年 ChatGPT 上线到今天，已经过去了三年，变化太大了。

中间有几个让人明显感受到 AI 能力突变的节点。一个是 ChatGPT-4o，另一个就是 Claude 4.5。当时体验 Claude 4.5 的时候，真的有一种"AGI 已经实现了"的感觉。它的编程能力真正做到了让一个完全不会编程的人，借助 AI 就能做出一些自动化的小东西。所以在今年一二月份，我特别沉迷于 vibe coding。

那时候各个厂商大概都在推广自己的模型，你可以用很便宜的价格用到最顶级的模型。而现在想再去用 GPT-5.5 或者 Claude 4.7，就很贵。

另外一个变化是国产 AI 模型的突飞猛进。去年智谱上市的时候，我买了它的 Coding 会员。今年智谱 5.1 出来之后，其实感觉用它来编程已经完全可以了。之前可能会觉得像智谱 5.1 这样的模型在"设计品位"之类的方面有些不足，但其实这些完全可以通过 skill 来弥补。好的 skill 就像 Agent 的脚手架——有时候你觉得模型做不到某些事情，只是因为你没有给它好的脚手架。

所以现在其实不应该、或者说不需要去"用 AI 编写一个什么软件"。当你有什么需求的时候，真正应该想的是：AI 拥有了什么能力能够帮我自动化解决这个需求？然后你去给 AI 编写软件，而不是给自己编写一个软件。

就像最近推特上在讨论的：之前大家说 Agent 特别适合 Markdown 格式，但最近出现了一种新观点——我们应该让 AI 生成 HTML 格式。因为 Markdown 是适合人类编辑文本时用的格式，而现在人其实已经不参与编辑过程了。你只是对 AI 说，AI 写，你读 AI 写的东西然后给反馈，AI 再编辑。所以这个时候，文件格式的关键不在于方便人类编辑，而在于方便人类阅读。HTML 就是更方便人类阅读的格式，它可以有更丰富的铺陈内容的形式。人在这个循环中只是一个验证者，不太需要介入生成过程。

再说说 Agent 这件事。当初🦞出来的时候，我第一时间就体验了，但感觉整个系统很笨重，用着非常不舒服。后来出现了像 NanoClaw 等一系列更加简洁的架构。我在 NanoClaw 的基础上把内核换成了 Pi Agent，作为自己的 Agent 助理，接入了 Discord。Discord 很适合用来跟 Agent 交互——每个频道可以是一个独立的上下文空间，处理不同的任务；再有一个主控频道，可以把各个频道的 Agent 编排起来，组成一个工作流。

最近我试了一下 Hermes 这个 Agent，把它接入了微信。体验下来很不错，尤其搭配上豆包语音输入法，比直接用豆包的体验好非常多。因为直接用豆包，你会发现它的幻觉太大了，它好像没办法、或者说不太主动去获取及时的信息，经常产生各种奇怪的幻觉。你也没法给豆包提供很多 skill 或者 context 作为脚手架。

像我这样的 ADHD，平时脑子里想法太多太多，但是执行力又很差。AI 真的是天降福音。不过我体验 AI，感觉更多的是把它当成一种游戏在玩，新奇感胜过了创造。