之前在扣子很便宜的时候买了一个月,但没及时取消订阅,导致又买了一个月,上面有不少积分,我想给他布置点任务,让它在后台慢慢干活,把积分耗掉,这样能不那么亏。
于是给它下了一个制作小说的命令,让它把赛文奥特曼揉进哈利波特的世界里,比如:赛文头上的红点替代了哈利波特的闪电伤疤,可以飞行是天生最优秀的找球手,不用穿隐身衣也能奥特隐身,胶囊怪兽在《密室》中被误认为是五十年前的怪兽,等等。这是一个很好的脑洞。
但是在Coze制作小说的过程中,我发现它的上下文有问题,前面说着,后面忘着。对于长任务、多步骤任务、需要跨很多轮对话保持一致的任务,它没有办法让自己变得靠谱。
它记不住,只能记住最近几轮,越往前越模糊 它不知道自己忘了 它不会主动回溯检查,不提醒,就一直偏下去
虽然memory_search可以搜索对话历史、read_file可以读写好的大纲文件,但是它不会主动去用,而是一通瞎编,编完还信誓旦旦。
虽然Coze用的是被称为DeerFlow的Agent调度中枢,但这些问题在OpenClaw中也存在,二者问题是类似的,都是由于上下文存在上限引发的。
(1)上下文有上限,为了能记住更多的信息,就会进行压缩,从而不可逆的丢失信息。
(2)当对话中反复修改后,记忆碎片化,记不住前因后果,有噪音累积、记忆污染。
总之一句话,不靠谱,而且不知道啥时候它会不靠谱,它承诺了也没用,因为它连承诺本身都会忘。
而OpenClaw部署于本地时,权限非常大,不靠谱的情况下,非常危险,这还不包括软件漏洞、Skill供应链投毒、提示词攻击等等。
复杂的不能交给它干,逻辑漂移、步骤遗漏、上下文丢失、前后矛盾。
而如果执行简单的,又没有直接使用DeepSeek、豆包等大模型快,因为多绕了好多圈,这是机制上的必然。
所以很鸡肋。
至于手动创建工作流,强制执行前读文件、执行结果写文件,也依然有问题,还是做不到写长篇小说。
一是模型不知道哪些内容要存下来,存了没用的噪音。
二是文件会越来越大,最终再一次达到上下文上限。
三是即使用RAG,也得主动调用才行,得它自己知道需要搜索、知道要搜什么才行。
所以说,我又交了一笔很大的智商税(Pia~Pia~)。上次是Minimax的OpenClaw,还不如Coze聪明呢,但至少没有自动续费,成功及时止损。
没法让AI完全自主做一些事情,那我直接用免费的DeepSeek、豆包、Kimi、秘塔来做简单问答不好么?还可以分对话,不用担心记忆污染。
(为啥没有列BAT的元宝、千问、文心一言?对呀,为什么呢?可能是因为人类作为一种同样存在上下文长度限制的“AI”,也会把太久远的信息给遗漏了吧。我信了。)
再说一句,开多个AI,同时干多件事,理论上就是不靠谱的,因为人类也存在上下文长度有限、上下文切换代价、记忆碎片化的问题。AI不靠谱,人来辅助就靠谱了么?而且AI不知道疲劳,但人是会累的。
最近大规模裁员的公司,真的是因为大规模应用AI提高了效率么?真的不是裁员的借口么?真的不是AI泡沫要破的预演么?得落落滚,饺子才能熟。30年代才是强人工智能大放异彩的时候,现在还早了点。
站在20年代这个时间,在哪些地方,AI没法替代人呢?
(1)难以验证的任务:当“正确”没有标准答案
AI的训练和评估都依赖于一个可计算的“损失函数”——它必须知道怎样算“对”,怎样算“错”。但当任务成果无法被客观、即时地验证时,AI就失去了航向。
(2)需要长时间保持专注的任务:当“一致性”变成“僵化”
AI看似可以无限专注——它不会累、不会饿、不会走神。但这种“专注”有一个致命的代价:无法识别自己何时在错误的轨道上越走越远。
(3)复杂环境中的任务:当“环境”本身是博弈的一部分
AI擅长在封闭、静态、规则明确的环境中运行(如下围棋、写代码)。但当环境是开放、动态、规则由参与者共同塑造时,AI就会暴露脆弱性。
最后要收个尾,写点什么嘛?AI才写,我不写。AI才专注一个主题,我跑题又不是一年两年了。(承认写跑题也圆不过去了,就这样吧。)
夜雨聆风