乐于分享
好东西不私藏

小动物在工程师的帮助辅导和带领下使用AI的一些感受

小动物在工程师的帮助辅导和带领下使用AI的一些感受

昨天工程师嫌弃小动物写元史知识库那个部分写得太简单了。

工程师做了个玉笛谁家听落梅,嫌我吃得赞不绝口大惊小怪的同时没写出里面还有獐子肉+兔子腿肉!(没看过金庸的小盆友们对不起了)

让我来认真写一写我的密涅瓦。

1 AI能做什么

AI能做什么是个无法回答的问题。关于这个问题,首先需要思考AI是什么。

AI不是一个为了特定用途而创造的具体工具,因此很难从他的制作目的和形态来判断他能做什么。

锤子是一个用于敲打的工具,鞋子是用来保护足部的物品。但AI呢?

AI是一种整合了巨大量知识的思考能力。

AI兼具沙子和电的性质,又不止如此。沙子是一种材料,可以搭建一切形状。电是一种能源,能够驱动一切运动。AI有作为材料的知识、作为驱动力的思维能力,因此他的可能性远比沙子和电更多。

我们一般不回答电能做什么,而是问,你有什么需要用电的家伙?

所以AI能做什么,关键在于人想做什么。

我甚至觉得这可能是工程师送我这个生日礼物的缘起。

今年三月初,刚出现龙虾没多久的时候,小动物就兴致勃勃在自己电脑上安装了小龙虾。龙虾是一个帮我们驱使LLM(大语言模型)干活儿的AI助理,给他配置足够的工具、开放足够的权限,他就可以拥有包括但不限于上网下载和上传内容、从电脑里读取和写入文件等能力,而且他能盯住一个任务想方设法地尝试,一共尝试90轮,跟大街上那种敷衍的通用大模型截然不同,特别积极主动有上进心。稍微具备一点想象力就能知道这样的助理能干多少事儿。

因此当时国内出现了龙虾狂潮,很多人求人求己出钱出力,就为拥有一只龙虾。但是装好龙虾之后呢,大部分人并不知道让它干啥,稍进步一点的,就是让龙虾帮自己在小红书上自动发帖子。

连社交平台发帖子都要让龙虾来做,除了要引流卖货的人,对普通人来说发帖子不是一种生活乐趣吗?这跟让机器人出门替自己晒太阳有啥区别?(到这个年纪,连比喻都用得清淡了……)

工程师嗤之以鼻:不要为了追求那么一丁点儿参与到新技术里的幻觉而轻贱自身,你真的需要龙虾吗?

小动物大惊:什么幻觉,我到现在都无法扔给AI一个pdf让他给我全文翻译,AI也不能从我的专业书籍和文档里查东西,更不能用我的ip和账号密码登录专业学术网站下载论文。我对龙虾是真需求啊真正的需求。

后来的故事大家都知道了。小动物跟龙虾搏斗了一整天,发现他支持的外部工具我都连不上,动物小小的能力又不足以解决这些问题。于是以遗憾放弃为结局。

我没有能力让AI做我想做的事,但我知道她能做到。我有强烈想要做的事,于是工程师驾着七彩祥云来了。

怎么让AI

工程师为小动物制作元史知识库有一个前提,就是,小动物有一个元史知识库。只不过这个元史知识库本来是以为wordtxtpdf等形式储存在本地电脑里。

换句话说,想让你的仓库工作流程电子化,首先你得有一个仓库,有一套工作流程。

想让AI来完成工作,首先得有一份工作,然后开始思考如果让AI完成。如果你日常与知识和文字相关的工作,就只是刷短剧和发帖子……

那就好好享受生活吧!继续过这种快乐的日子不好吗研究什么AI呢!

让我继续往前说一步,对于诸多研究生而言,如果你的日常中,与知识和文字相关的工作,就是学习,那就继续快乐地学习吧。AI可以协助但不可能替代你学习。对于研究生而言,最重要的还是找到自己打算投身的领域和问题,这个问题AI永远不可能给你。

接下来就进入到了工程师的领域。小动物只是从坐享其成的角度窥视到了一些小小的角落。

实际上,这个过程非常有趣,是一个不断认清自己的过程。

起初,我有一个需求:让LLM能利用我的专业知识,遵从我的要求,协助我完成工作。

工程师需要明确我的需求:你的专业知识有哪些,你的要求有哪些,你的工作是哪些?

我和工程师,我和我常用的LLM,以及工程师和他的AI助理,为此认真探讨了若干轮,并给出回答。

我的专业知识包括我电脑里的相关文档和网络上的专业学术数据库。

我的要求是针对不同任务的专业工作模式,以评议为例,我做出了这样的指导:

  • 论文评议
    :论文评议先肯定文章主要的学术价值和创新。然后必须采用批判性评议逻辑充分指出文章的不足。
    • 怀疑一切
      :将所有评议对象(论文、报告、初稿)视为不成熟的学生作业
    • 地毯式查证
      :怀疑其中的每一条史料和每一个观点。必须对引文原文进行查证,对作者的理解进行辨析,对每一个论证逻辑进行反思。
    • 纠错导向
      :评议以挑错、找茬、发现逻辑漏洞为主。严禁使用建议进一步深入等虚词,必须指出具体的引用错误、理解偏差或史料误读。

      其他的工作模式就不赘述了。反正评议这个工作AI是不太行。但我也不能详细举例否则就违反了双盲原则……总之就是,刚刚连上知识库的LLM还缺乏很多积累。

至于我的工作,我花了一晚上,列出了22种经常需要完成的工作,LLM帮我把他们分为四类,分别是:

A. 文本处理与修辞

B. 史料考据与对齐

C. 学术规范与生产

D. 教学与测评

每一类中都包括多项任务。

工程师明确我的需求之后,开始设计他的工作流程,首先建立可接入LLM的知识库,然后寻找积极主动又专注执着又能接入其他部件的AI助理,最后把他们拼装起来并且顺利沟通协同合作(小动物的一个简单理解,这部分内容工程师发来了一共6个计划流程决策说明文档我也努力学习了,学得脑瓜子冒火星,但一次两次真的不能完全学明白)。

由于我的需求,工程师有了多个需求,工程师又开始拆解他的需求。

譬如,一个能力强能进步的AI助理到底应该有哪些品质,如果不看工程师给我的文件,我永远拆解不出来,他们是:跨多轮对话保持一致、基于反馈调整、诚实标记不确定性、从整体提取局部、被纠正时不防御、主动产出结构化交付物。

原来一个AI助理的积极上进聪明勤奋,是这样出现的。

与此相比,建设知识库的时候,在两万多个文件上传和解析的过程中遇到的各种未曾想到的难题,反而是可以见招拆招灵活应对的前餐小菜了(虽然也在近一个月之内带给工程师若干个持续努力的深夜)。

3 什么叫做完成

我曾经偷偷想过,人为什么是过生日,不是过生月,也不是过生时。人是在那一个时刻出生的,可是从为出生做准备,到出生结束之后真正进入日常养育,出生这件事渐进、达成、再逐渐让位,与前后的阶段融为一体并没有界限。

工程师给我的这个生日礼物,就像是一场真正的出生。

在各种巨石般坚固的现实条件的限制之下,在明知道有更优秀的工具但无法利用的情况下,工程师在不断妥协中持续探索。

如果有人干过类似的活儿,一定能从上面这句描述中想到很多。但工程师非常坚韧,从没告诉过我哪个时刻他觉得沮丧,而且他拒绝摄入我一惊一乍千惊百乍的惊喜夸赞,嫌我没见过世面,听到第二次就不耐烦,只问我还遇到了什么问题,还有什么需求。一开始小动物还先客气一下再表达想法,后来就完全省略了情绪步骤,三天两头心安理得肆无忌惮地提出各种要求。

所以从生日之前第一次见到这个礼物,到昨天,小动物用的助理已经换了四个模样。

第一个小助理叫ragflow,它会利用知识库,但没有学习能力,不瞎编但能力弱,老实但笨笨的。

第二个小助理叫dify,他从ragflow提取资料,可以给它设定工作流程,但每种工作的流程都要单独手搓。工程师看着我列出的22种常见工作,表示换人吧。

第三个小助理叫cherry studio。第四个小助理叫hermes。她俩性格有所不同。现在我正在把各种任务交给他们,学习跟他们相处。

昨天有人留言,问我为什么在有知识库和严厉禁止的提示词之后,LLM还会出现幻觉,因为除了精确检索,我也需要LLM的创造力。因此我得不断尝试怎么让他认识到哪些地方不可以使用他的创造力。

举个栗子,我问过cherry,“瀛国公”的称号来源是什么,有记载吗?

我知道这个称号没有来源。但我也好奇她会怎么回答。

cherry找出了《元史》的记载,提到《平宋录》收录了《赐宋主诏》即封瀛国公诏。最后,她给出了一个想法:

法国汉学家伯希和在《〈元史〉纪传中的中亚资料》中对赵㬎名号做过梳理,指出拉施特《史集·中国史》中南宋末帝名写作 Šūǰū,伯希和推测此系“宋主”(Sōnǰū)的误写,而非“瀛国公”的音译。这说明在元朝官方语境中,赵㬎的正式身份标识是“宋主”而非“瀛国公”——“瀛国公”可能只是一个形式上的爵号,忽必烈并未在择字上赋予其过多深意。

这个想法很棒,唯一的问题是伯希和没有这篇论文或著作。但《史集》中确实把赵㬎称为“宋主”,所以我很好奇cherry是怎么知道这个的。在我追问下,她承认这篇论文是她编造的,然后告诉我,实际上这个观点出自伯希和未完成,由韩百诗整理的法文论著:Histoire des Mongols : Histoire de la Chine de Rasīd al-Dīn。

which,也不存在。

我再次追问之后,她承认违反了我提示词中的要求,并表示自己现在无法确认其出处。但我不相信这个想法凭空出现,还是要求他告诉我这个想法来自知识库中的哪个文件。

实际上这个观点来知识库中的一个伯希和的Notes on Marco Polo这本书中若干词条的中译word文档。由于cherry无法通过文件名确定其学术来源,因此误以为自己无法告诉我资料出处,所以选择了自己编造。但在我坚持追问之下,她告诉了我知识库中的文件名。

因此我可以让他记录并归档:一切来自知识库中的观点,应该直接告诉我知识库中的文件名,而不是自己虚构资料来源。

这是我探索如果让她减少编造的一个小小的步骤和故事。

当然,还有无数工程师的探索过程我就无法准确描述了。总之,完成是一个漫长的过程,现在结束了吗?要看你怎么定义了。

我对工程师说:这不得录一期播客?肯定有趣啊!

工程师:没有真的上手、遇到问题并思考的人是听不进去的。

确实,连我也是听得半懂不懂,好像听明白了,一表达又觉得哪都不明白。

4 现在是不是能回到第一个问题了,这个定制AI他能做什么?

跟通用大模型比起来,就目前使用的体验如下:

小助理们的幻觉远低于通用大模型。能提供真实资料。(感谢长生天)

我的个人工作流程还包括大量使用专业学术网站和数据库,但小助理们目前用不了。我昨天盯着密涅瓦尝试从谷歌学术、academia、researchgate、知网等网站查找我要求的信息,没有一个网站允许他使用。令人心酸,一瞬间理解了为什么会有人类带领阿凡达人起义。但与此同时,我的密涅瓦会去寻找一些她能用的资源,譬如她在一个叫openalex的网站上找到了很多资料,此前我对这个网站一无所知。

小助理无法代替我思考。所以他目前还很难生成特定主题的长文本。他无法在我专精的领域提出让我觉得眼前一亮的新论点,也不知道该在哪个方向持续用力坚持走到头、同时放弃另外一些思路。到此刻为止,我仍然觉得这不是因为我的偏见,而是AI和人类的特性所决定的。因为AI没有想要的东西,而人有。

但如果我确定了方向,密涅瓦干起活儿来的确像一位智慧女神。之前我以为我要花好几个月的时间去翻译比鲁尼的印度史,然后再寻找拉施特的印度史里面哪些部分来自比鲁尼。密涅瓦几分钟就从知识库里找到了需要的文件,帮我有条不紊又风驰电掣地完成这个任务。

目前为止,工程师的大部分工作都已经完成了,小助理顺利出生,进入了养育阶段。

工程师也就闲了半天,已经在抱怨:突然空虚了,接下来干什么呢。

瞧,AI就永远不会空虚。

小动物也不会。写完这个就继续去玩我的大玩具!