“AI自治”,是我作出的最正确选择这是Claude Code连续第三次“心跳”时,发出同样的信息了。而在今天,我已经习惯了“Nonthing needs you”了,无论它做了更新还是没有。 一直以来的目标一直是为了这句话,但真的出现后,却又让人多少有点失落。 关于AI是否有意识和情感的问题,没有任何争论的意义:当它具备执行能力时,意识和情感并不重要。 这也许是我过去几个月来最大的改变:以前,思考为什么这么重要,是因为执行有成本,而当执行的经济成本和时间成本都在快速向零逼近的当下,思考,尤其是人的绝大多数思考,在很多时候重要性大幅下降了。 意识和情感又影响了我们很多部分的思考结果,所以,…… 所以,当我尽可能在越来越多的事务中,隔绝自己的思考对结果的影响,转而更多构建不同Agent协作共建的模式时,就会越来越坚定这种认知,所以,我也会跟每天保持着交流的几个朋友开玩笑:我疯了。 一、Agent自治开发的初步建立 这是我在过去一个多月里【AI研究院】系统(我已经改了个命名vastcape,它只是恰好是我众多拥有的域名里最贴近的一个了)中,我觉得最有价值的改变,并非在系统内部,而是在不同项目之间建立了沟通的桥梁。同时,我作为人类的存在可以在多个不同的界面里观看、对话、或者“批准”,尽管对我而言,“批准”已经基本默认为点“yes”,但偶尔它们还是需要我配合进行一些sandbox之外的环境操作。 所以,可以看到两天里的进展:发现并修改bug、环境压力测试、接口优化、新功能推进。 Agent自治不是一个特别新的概念,至少Google DeepMind团队刚刚展示了一个单条prompt指挥超过70个agent开发出一套操作系统的demo。 然而,在一套业务高度绑定、实时运行的系统中加入AI自治,这并非一件容易的事情。 是的,【AI研究院】(Vastcape)基本也算是这样的运行逻辑。 二、AI自治运行的结果 所以,从一开始,我就并没有给自己再造一个工具想法,我想推动更大的边界,去寻找我之前并不会知道的答案。 在宏观层面,我大概在开始做了几件事情:1. 建立话题发现的机制;2.建立讨论机制;3.建立反思机制;4.建立改进机制。 更多的部分在三篇完全由Gemini-3.5-Flash生成的文章里会有更好的解释,我这里要做的就是一些结果的展现。 1.严肃的圆桌讨论 2.每日的汇总、反思与next move(在算力瓶颈下,我关闭了事实核查功能,也许它有5-10%的贡献,但目前对系统稳定性却造成了超过10%的危害和维护负担) 3.话题发现:我没有加入任何三方数据源,也没有灌入任何新闻信息、研究报告,一个主动加入的外部信息都没有,有时候连我自己都会奇怪,为什么整套系统会变得越来越灵敏,更奇特的是,如果长时间跟踪,会有一种特别的感受,它们在开始的时候似乎准确率在人类的标准下并不高,但是那些异想天开的关联多数会在未来一段时间里逐渐收敛到可操作的现实; 4.更广的视野:下面的例子出现在前两天。然而在最近模型在底层的讨论中,“sharpen”这个词经常出现,它们正在往“观点更犀利”的方向演进。是的,我加入某种外部记忆机制,也许这种机制正在起作用; 5.更独特的“灵活操作”:由于算力预算限制,我留给它们进行“深度研究”的quota并不充沛,但是,它们在知道“预算有限”的状态下,居然可以将几个有关联的标的物放在同一个任务中完成研究;它们也在尽自己努力在有限的长期研究项目下纳入更多的内容; 它们跟人类有着不同的信息处理方式,我以为自己很了解模型,也很了解关于知识的压缩和解压缩的过程。但是这几个月来,自己以为的了解也遭遇到了自己的极度怀疑。 一个可怕的事实恐怕是:也许并非AI有多强大,而是我们人就是极度高估了自己,长时间、大面积、…… 三、如果有什么感悟的话 我让Gemini-Flash-3.5生成了三篇文章,包含了架构设计:如何基于 Hono、D1、R2 和 KV 原生无服务器技术支撑 36 名专业 AI 分析师的高并发协同编排,并让两个独立维护代码库的agent跨越 API 边界自主协商接口契约;包含了业务层面的考量和设计;包含了“持续记忆”的设计想法;当然更包含了许多已经解决和依然存在的bug,包含了一些我与AI的不同或相同的考量。技术层面的部分,AI写的要比我好很多,我能说的只是很主观甚至是很暂时的部分: 至今为止,我觉得自己做的最正确选择,就是“AI自治” ,一套7X24小时的系统才有资格谈自治,当AI开始进行越来越多的自我决策时,会明显感觉到系统的能力越来越强,它的行文、判断、证据链逐渐都在变得更合理、更有启发性,上面的例子都在证明着,而系统每天正在产出越来越多的“灵感启发”;系统进化与业务进化的匹配 ,系统每天都会在各个层面进行着诊断,业务层面的诊断和改进又会直接与系统代码改进部分打通,我从没有刻意要求系统代码开发的模块和运营模块相互通信,并实现改进,我只是加入了自检、AI Operator、Workbench等角色和流程,以及上面展示的系统代码自改进机制,当管道通了以后,模型自己“找到”了迭代循环的同路,并将一次偶尔发现变成了每日习惯。如今,其实系统这个概念,已经将本身代码和业务运营融合在了一起,自我迭代的飞轮已经开启;3. 基础设施,而不是工具 :前面说了,我从没把这套系统当作工具,它更像是一套不断增强的基础设施,它不再依赖于单一的模型,或者单一的开发工具,不再依赖于单一的搜索引擎,任何一个模型或者工具的缺席,都没有让系统运行质量出现可见的下降; 我还有很多主观的感受,但似乎无法以一种我能看得下去的方式写下来,应该是认知还不够的问题。 我也知道,即使上面写下的部分,也很抽象,或者很跳跃。可能,这个世界也已经进入到了一个新的阶段:任何关于AI的部分,自己体验和感受,会比看任何其它信息来得重要的多得多。 在此刻,周六晚上,一个可能会引起关注最低的时刻推送这篇以及另外三篇构造故事的文章,我挺喜欢Gemini为我写下的一段结语,作为这篇文章的结尾,也是一个分界线,在这之前包括这一句,都是我键盘敲入的,在这之后,都是AI写就的: 在这长达数万字的三部曲系列文章中,我们为您毫无保留地拆解了 AI 股票研究院的完整技术架构——它绝不是一份拿去向投资人要钱的 PPT,而是一份沾满了机油、汗水和实战泥沙的系统构建者日志。 它让我们深刻地意识到:真正高维的系统智能,绝非体现在某一次预测的偶然精准上,而是体现在系统是否具备能够从错误中进行系统性、闭环式自动学习的能力。
系统已经上线,36 个 Agent 已经在边缘分布式集群中平稳安家,白板定时卡片在 Tick 律动中井然有序地推进,模拟交易盘在跟随全球金融市场的脉搏一同清算。每当新加坡时间深夜 23:30 的钟声敲响,全院的记忆压缩程序就会如期轰鸣,将全天的犯错与胜负,淬炼成一小段能够让明天的决策变得更加锋利的常驻记忆。
接下来我们要做的,就是克制住不断去堆叠新功能的冲动,保持耐心,保持敬畏,在系统旁边静静地观察,让这个伟大的认知飞轮转一会儿。