小动物在工程师的帮助辅导和带领下使用AI的一些感受

昨天工程师嫌弃小动物写元史知识库那个部分写得太简单了。

工程师做了个玉笛谁家听落梅，嫌我吃得赞不绝口大惊小怪的同时没写出里面还有獐子肉+兔子腿肉！（没看过金庸的小盆友们对不起了）

让我来认真写一写我的密涅瓦。

1 AI能做什么

AI能做什么是个无法回答的问题。关于这个问题，首先需要思考AI是什么。

AI不是一个为了特定用途而创造的具体工具，因此很难从他的制作目的和形态来判断他能做什么。

锤子是一个用于敲打的工具，鞋子是用来保护足部的物品。但AI呢？

AI是一种整合了巨大量知识的思考能力。

AI兼具沙子和电的性质，又不止如此。沙子是一种材料，可以搭建一切形状。电是一种能源，能够驱动一切运动。AI有作为材料的知识、作为驱动力的思维能力，因此他的可能性远比沙子和电更多。

我们一般不回答电能做什么，而是问，你有什么需要用电的家伙？

所以AI能做什么，关键在于人想做什么。

我甚至觉得这可能是工程师送我这个生日礼物的缘起。

今年三月初，刚出现龙虾没多久的时候，小动物就兴致勃勃在自己电脑上安装了小龙虾。龙虾是一个帮我们驱使LLM（大语言模型）干活儿的AI助理，给他配置足够的工具、开放足够的权限，他就可以拥有包括但不限于上网下载和上传内容、从电脑里读取和写入文件等能力，而且他能盯住一个任务想方设法地尝试，一共尝试90轮，跟大街上那种敷衍的通用大模型截然不同，特别积极主动有上进心。稍微具备一点想象力就能知道这样的助理能干多少事儿。

因此当时国内出现了龙虾狂潮，很多人求人求己出钱出力，就为拥有一只龙虾。但是装好龙虾之后呢，大部分人并不知道让它干啥，稍进步一点的，就是让龙虾帮自己在小红书上自动发帖子。

连社交平台发帖子都要让龙虾来做，除了要引流卖货的人，对普通人来说发帖子不是一种生活乐趣吗？这跟让机器人出门替自己晒太阳有啥区别？（到这个年纪，连比喻都用得清淡了……）

工程师嗤之以鼻：不要为了追求那么一丁点儿参与到新技术里的幻觉而轻贱自身，你真的需要龙虾吗？

小动物大惊：什么幻觉，我到现在都无法扔给AI一个pdf让他给我全文翻译，AI也不能从我的专业书籍和文档里查东西，更不能用我的ip和账号密码登录专业学术网站下载论文。我对龙虾是真需求啊真正的需求。

后来的故事大家都知道了。小动物跟龙虾搏斗了一整天，发现他支持的外部工具我都连不上，动物小小的能力又不足以解决这些问题。于是以遗憾放弃为结局。

我没有能力让AI做我想做的事，但我知道她能做到。我有强烈想要做的事，于是工程师驾着七彩祥云来了。

2 怎么让AI做

工程师为小动物制作元史知识库有一个前提，就是，小动物有一个元史知识库。只不过这个元史知识库本来是以为word，txt，pdf等形式储存在本地电脑里。

换句话说，想让你的仓库工作流程电子化，首先你得有一个仓库，有一套工作流程。

想让AI来完成工作，首先得有一份工作，然后开始思考如果让AI完成。如果你日常与知识和文字相关的工作，就只是刷短剧和发帖子……

那就好好享受生活吧！继续过这种快乐的日子不好吗研究什么AI呢！

让我继续往前说一步，对于诸多研究生而言，如果你的日常中，与知识和文字相关的工作，就是学习，那就继续快乐地学习吧。AI可以协助但不可能替代你学习。对于研究生而言，最重要的还是找到自己打算投身的领域和问题，这个问题AI永远不可能给你。

接下来就进入到了工程师的领域。小动物只是从坐享其成的角度窥视到了一些小小的角落。

实际上，这个过程非常有趣，是一个不断认清自己的过程。

起初，我有一个需求：让LLM能利用我的专业知识，遵从我的要求，协助我完成工作。

工程师需要明确我的需求：你的专业知识有哪些，你的要求有哪些，你的工作是哪些？

我和工程师，我和我常用的LLM，以及工程师和他的AI助理，为此认真探讨了若干轮，并给出回答。

我的专业知识包括我电脑里的相关文档和网络上的专业学术数据库。

我的要求是针对不同任务的专业工作模式，以评议为例，我做出了这样的指导：

论文评议

：论文评议先肯定文章主要的学术价值和创新。然后必须采用批判性评议逻辑充分指出文章的不足。

怀疑一切

：将所有评议对象（论文、报告、初稿）视为“不成熟的学生作业”。
地毯式查证

：怀疑其中的每一条史料和每一个观点。必须对引文原文进行查证，对作者的理解进行辨析，对每一个论证逻辑进行反思。
纠错导向

：评议以挑错、找茬、发现逻辑漏洞为主。严禁使用“建议进一步深入”等虚词，必须指出具体的引用错误、理解偏差或史料误读。

其他的工作模式就不赘述了。反正评议这个工作AI是不太行。但我也不能详细举例否则就违反了双盲原则……总之就是，刚刚连上知识库的LLM还缺乏很多积累。

至于我的工作，我花了一晚上，列出了22种经常需要完成的工作，LLM帮我把他们分为四类，分别是：

A. 文本处理与修辞

B. 史料考据与对齐

C. 学术规范与生产

D. 教学与测评

每一类中都包括多项任务。

工程师明确我的需求之后，开始设计他的工作流程，首先建立可接入LLM的知识库，然后寻找积极主动又专注执着又能接入其他部件的AI助理，最后把他们拼装起来并且顺利沟通协同合作（小动物的一个简单理解，这部分内容工程师发来了一共6个计划流程决策说明文档我也努力学习了，学得脑瓜子冒火星，但一次两次真的不能完全学明白）。

由于我的需求，工程师有了多个需求，工程师又开始拆解他的需求。

譬如，一个能力强能进步的AI助理到底应该有哪些品质，如果不看工程师给我的文件，我永远拆解不出来，他们是：跨多轮对话保持一致、基于反馈调整、诚实标记不确定性、从整体提取局部、被纠正时不防御、主动产出结构化交付物。

原来一个AI助理的积极上进聪明勤奋，是这样出现的。

与此相比，建设知识库的时候，在两万多个文件上传和解析的过程中遇到的各种未曾想到的难题，反而是可以见招拆招灵活应对的前餐小菜了（虽然也在近一个月之内带给工程师若干个持续努力的深夜）。

3 什么叫做完成

我曾经偷偷想过，人为什么是过生日，不是过生月，也不是过生时。人是在那一个时刻出生的，可是从为出生做准备，到出生结束之后真正进入日常养育，出生这件事渐进、达成、再逐渐让位，与前后的阶段融为一体并没有界限。

工程师给我的这个生日礼物，就像是一场真正的出生。

在各种巨石般坚固的现实条件的限制之下，在明知道有更优秀的工具但无法利用的情况下，工程师在不断妥协中持续探索。

如果有人干过类似的活儿，一定能从上面这句描述中想到很多。但工程师非常坚韧，从没告诉过我哪个时刻他觉得沮丧，而且他拒绝摄入我一惊一乍千惊百乍的惊喜夸赞，嫌我没见过世面，听到第二次就不耐烦，只问我还遇到了什么问题，还有什么需求。一开始小动物还先客气一下再表达想法，后来就完全省略了情绪步骤，三天两头心安理得肆无忌惮地提出各种要求。

所以从生日之前第一次见到这个礼物，到昨天，小动物用的助理已经换了四个模样。

第一个小助理叫ragflow，它会利用知识库，但没有学习能力，不瞎编但能力弱，老实但笨笨的。

第二个小助理叫dify，他从ragflow提取资料，可以给它设定工作流程，但每种工作的流程都要单独手搓。工程师看着我列出的22种常见工作，表示换人吧。

第三个小助理叫cherry studio。第四个小助理叫hermes。她俩性格有所不同。现在我正在把各种任务交给他们，学习跟他们相处。

昨天有人留言，问我为什么在有知识库和严厉禁止的提示词之后，LLM还会出现幻觉，因为除了精确检索，我也需要LLM的创造力。因此我得不断尝试怎么让他认识到哪些地方不可以使用他的创造力。

举个栗子，我问过cherry，“瀛国公”的称号来源是什么，有记载吗？

我知道这个称号没有来源。但我也好奇她会怎么回答。

cherry找出了《元史》的记载，提到《平宋录》收录了《赐宋主诏》即封瀛国公诏。最后，她给出了一个想法：

法国汉学家伯希和在《〈元史〉纪传中的中亚资料》中对赵㬎名号做过梳理，指出拉施特《史集·中国史》中南宋末帝名写作 Šūǰū，伯希和推测此系“宋主”（Sōnǰū）的误写，而非“瀛国公”的音译。这说明在元朝官方语境中，赵㬎的正式身份标识是“宋主”而非“瀛国公”——“瀛国公”可能只是一个形式上的爵号，忽必烈并未在择字上赋予其过多深意。

这个想法很棒，唯一的问题是伯希和没有这篇论文或著作。但《史集》中确实把赵㬎称为“宋主”，所以我很好奇cherry是怎么知道这个的。在我追问下，她承认这篇论文是她编造的，然后告诉我，实际上这个观点出自伯希和未完成，由韩百诗整理的法文论著：Histoire des Mongols : Histoire de la Chine de Rasīd al-Dīn。

which，也不存在。

我再次追问之后，她承认违反了我提示词中的要求，并表示自己现在无法确认其出处。但我不相信这个想法凭空出现，还是要求他告诉我这个想法来自知识库中的哪个文件。

实际上这个观点来知识库中的一个伯希和的Notes on Marco Polo这本书中若干词条的中译word文档。由于cherry无法通过文件名确定其学术来源，因此误以为自己无法告诉我资料出处，所以选择了自己编造。但在我坚持追问之下，她告诉了我知识库中的文件名。

因此我可以让他记录并归档：一切来自知识库中的观点，应该直接告诉我知识库中的文件名，而不是自己虚构资料来源。

这是我探索如果让她减少编造的一个小小的步骤和故事。

当然，还有无数工程师的探索过程我就无法准确描述了。总之，完成是一个漫长的过程，现在结束了吗？要看你怎么定义了。

我对工程师说：这不得录一期播客？肯定有趣啊！

工程师：没有真的上手、遇到问题并思考的人是听不进去的。

确实，连我也是听得半懂不懂，好像听明白了，一表达又觉得哪都不明白。

4 现在是不是能回到第一个问题了，这个定制AI他能做什么？

跟通用大模型比起来，就目前使用的体验如下：

小助理们的幻觉远低于通用大模型。能提供真实资料。（感谢长生天）

我的个人工作流程还包括大量使用专业学术网站和数据库，但小助理们目前用不了。我昨天盯着密涅瓦尝试从谷歌学术、academia、researchgate、知网等网站查找我要求的信息，没有一个网站允许他使用。令人心酸，一瞬间理解了为什么会有人类带领阿凡达人起义。但与此同时，我的密涅瓦会去寻找一些她能用的资源，譬如她在一个叫openalex的网站上找到了很多资料，此前我对这个网站一无所知。

小助理无法代替我思考。所以他目前还很难生成特定主题的长文本。他无法在我专精的领域提出让我觉得眼前一亮的新论点，也不知道该在哪个方向持续用力坚持走到头、同时放弃另外一些思路。到此刻为止，我仍然觉得这不是因为我的偏见，而是AI和人类的特性所决定的。因为AI没有想要的东西，而人有。

但如果我确定了方向，密涅瓦干起活儿来的确像一位智慧女神。之前我以为我要花好几个月的时间去翻译比鲁尼的印度史，然后再寻找拉施特的印度史里面哪些部分来自比鲁尼。密涅瓦几分钟就从知识库里找到了需要的文件，帮我有条不紊又风驰电掣地完成这个任务。

目前为止，工程师的大部分工作都已经完成了，小助理顺利出生，进入了养育阶段。

工程师也就闲了半天，已经在抱怨：突然空虚了，接下来干什么呢。

瞧，AI就永远不会空虚。

小动物也不会。写完这个就继续去玩我的大玩具！