Coze、OpenClaw会忘东西,不建议在复杂任务中使用

之前在扣子很便宜的时候买了一个月，但没及时取消订阅，导致又买了一个月，上面有不少积分，我想给他布置点任务，让它在后台慢慢干活，把积分耗掉，这样能不那么亏。

于是给它下了一个制作小说的命令，让它把赛文奥特曼揉进哈利波特的世界里，比如：赛文头上的红点替代了哈利波特的闪电伤疤，可以飞行是天生最优秀的找球手，不用穿隐身衣也能奥特隐身，胶囊怪兽在《密室》中被误认为是五十年前的怪兽，等等。这是一个很好的脑洞。

但是在Coze制作小说的过程中，我发现它的上下文有问题，前面说着，后面忘着。对于长任务、多步骤任务、需要跨很多轮对话保持一致的任务，它没有办法让自己变得靠谱。

虽然memory_search可以搜索对话历史、read_file可以读写好的大纲文件，但是它不会主动去用，而是一通瞎编，编完还信誓旦旦。

虽然Coze用的是被称为DeerFlow的Agent调度中枢，但这些问题在OpenClaw中也存在，二者问题是类似的，都是由于上下文存在上限引发的。

（1）上下文有上限，为了能记住更多的信息，就会进行压缩，从而不可逆的丢失信息。

（2）当对话中反复修改后，记忆碎片化，记不住前因后果，有噪音累积、记忆污染。

总之一句话，不靠谱，而且不知道啥时候它会不靠谱，它承诺了也没用，因为它连承诺本身都会忘。

而OpenClaw部署于本地时，权限非常大，不靠谱的情况下，非常危险，这还不包括软件漏洞、Skill供应链投毒、提示词攻击等等。

复杂的不能交给它干，逻辑漂移、步骤遗漏、上下文丢失、前后矛盾。

而如果执行简单的，又没有直接使用DeepSeek、豆包等大模型快，因为多绕了好多圈，这是机制上的必然。

所以很鸡肋。

至于手动创建工作流，强制执行前读文件、执行结果写文件，也依然有问题，还是做不到写长篇小说。

一是模型不知道哪些内容要存下来，存了没用的噪音。

二是文件会越来越大，最终再一次达到上下文上限。

三是即使用RAG，也得主动调用才行，得它自己知道需要搜索、知道要搜什么才行。

所以说，我又交了一笔很大的智商税（Pia~Pia~）。上次是Minimax的OpenClaw，还不如Coze聪明呢，但至少没有自动续费，成功及时止损。

没法让AI完全自主做一些事情，那我直接用免费的DeepSeek、豆包、Kimi、秘塔来做简单问答不好么？还可以分对话，不用担心记忆污染。

（为啥没有列BAT的元宝、千问、文心一言？对呀，为什么呢？可能是因为人类作为一种同样存在上下文长度限制的“AI”，也会把太久远的信息给遗漏了吧。我信了。）

再说一句，开多个AI，同时干多件事，理论上就是不靠谱的，因为人类也存在上下文长度有限、上下文切换代价、记忆碎片化的问题。AI不靠谱，人来辅助就靠谱了么？而且AI不知道疲劳，但人是会累的。

最近大规模裁员的公司，真的是因为大规模应用AI提高了效率么？真的不是裁员的借口么？真的不是AI泡沫要破的预演么？得落落滚，饺子才能熟。30年代才是强人工智能大放异彩的时候，现在还早了点。

站在20年代这个时间，在哪些地方，AI没法替代人呢？

（1）难以验证的任务：当“正确”没有标准答案

AI的训练和评估都依赖于一个可计算的“损失函数”——它必须知道怎样算“对”，怎样算“错”。但当任务成果无法被客观、即时地验证时，AI就失去了航向。

（2）需要长时间保持专注的任务：当“一致性”变成“僵化”

AI看似可以无限专注——它不会累、不会饿、不会走神。但这种“专注”有一个致命的代价：无法识别自己何时在错误的轨道上越走越远。

（3）复杂环境中的任务：当“环境”本身是博弈的一部分

AI擅长在封闭、静态、规则明确的环境中运行（如下围棋、写代码）。但当环境是开放、动态、规则由参与者共同塑造时，AI就会暴露脆弱性。

最后要收个尾，写点什么嘛？AI才写，我不写。AI才专注一个主题，我跑题又不是一年两年了。（承认写跑题也圆不过去了，就这样吧。）