从直播到实际操作,字句上的寥寥几语,却是实际行动中的重重困难。
跟着步骤,给背景资料,写需求,写约束条件,本以为很简单,却在写的过程中发现,需求不知道怎么更好的提,约束不知道怎么写才是好的。
正所谓看着容易,做起来就卡在了开头。
仿照着例子颤颤巍巍写出了问题和约束,用两个模型一起测试。
一轮下来又发现,怎么模型与模型之间给到的问题和答案都如此不同?
背景文档一样,问法一致,然而不同模型之间给到的问题不一样,答法自然也就变得不同,最终呈现出来的结果感觉差了很好多。
也让我困惑重重,它们说的究竟谁是真的,谁又给了多余的内容?
还是说都是正确的,那为什么又不一样若都是错的,又在哪里做了自动补充?我要怎么去验证它们的正确与否呢?…
问题一个接一个在脑海闪现,怎么提问,怎么验证,怎么得到更加公正客观的判断,却成了我要面对的最大挑战与难题。
此时我知道了提好问题的重要性,但确实还不知道如何做,只能在往后一次又一次的实践中摸索、学习。
两个不同的AI(豆包和glm-5.1),给到我的感觉完全不一样。
虽然我偏好其中一些答案,但还是跟着步骤进行验证。
首先是追问细节。通过对其中一个不满意,有疑惑的部分答案,问它:是怎么得出这个结果的,有什么事实依据,如果改变其中的某些字词语句结果会变吗?会变的话,又会变成什么?
这步测试下来说实话感觉作用不大(特别是在后面让两个AI进行交叉验证后),但会给到你解释它是怎么得到这样的结果的。
做完这步,我通过将两个AI得出的答案分别交换给了它们,然后让它们进行判断,指出漏洞,为什么它们的答案会不一样,是它错了还是另一个AI错了,有什么依据等等。
也就是让两个AI“打架”。

通过让两个AI相互评判,给出实际证据,你会看到它们指出的有矛盾、有问题的点,这些争议的内容就是自己需要深入思考的部分。
这种交叉让我感到很有趣。也相当于是让AI先对它们给出的初版答案先做评判,而不是我们先拿着初版的五、六十分的答案做判断。
通过让另一个AI进行判断,得到有争议的部分后,再次将其传回给原来的AI,让它们再次对“别人”的评判进行事实证明。
如果有问题,就让它进行学习修正,如果觉得评判有误,就会给出更多的论据,并说明另一个AI为什么对它判读错误,同时对初始答案进一步优化,得出一版更加实用的方案。

你若是在此版本上进行思考,那就是在七、八十分的答案进行判断。
到这一步,若是你觉得还有必要继续判断下去,你可以继续询问,或者你觉得已经够用了,那就先用这最新版的答案去在实际操作中验证一遍,再把在实际中得到的结果传回给它进行最终真实的验证。
第一次实战练习,我做的步骤比较少,也有很多细节丢失。
虽也想要完全和文档要求中做到一致,但知道这不可能,细节太多,思维欠缺,角度也比较狭窄。
毕竟自己看到的是寥寥几句,却是他人多年来的思维结晶,自己只能在往后不断练习中慢慢熟悉、积累,最终达到、超越。
第二天的实战学习,让我知道,练,比看,更有效果。
夜雨聆风