乐于分享
好东西不私藏

OpenClaw手记第二季(四)一种新的大模型PK方式

OpenClaw手记第二季(四)一种新的大模型PK方式

现在有各种各样的大模型评分方式,大致可以分为评判代码能力、评判对话能力和评判工具调用能力这几类。
这两天看到一个有意思的Github仓库:
https://github.com/Ammaar-Alam/minebench
它的想法很有意思,它评估的是大模型的空间推理能力。由于没有特别权威的这方面的榜单,所以可以肯定没有大模型会往这个方向微调,所以它一定程度上能够反映大模型较为真实的聪明程度。
操作方式是这样的:你告诉大模型你要构建什么,大模型根据收到的指令,输出坐标和方块类型,然后minebench将其渲染成为可视的3D画面。通过对比不同大模型在同样提示词下的输出,可以非常直观地看到哪个大模型更聪明。
我是舍不得拿GPT老师干这个事,所以参加PK的对象是GLM 5.1 和 Minimax M2.7 。
当然这个可能没什么悬念,所以我给它们搭配了不同的Agent,GLM 5.1 搭配的是 Opencode,Minimax M2.7搭配的是Claude Code。
首先进入赛场的是 Minimax 2.7,它接受并更新了代码,开发了一些高级工具,这事实上相当于“作弊”了,但是不重要,大家都能用。它首先构建了圣索菲亚大教堂、古罗马竞技场、帕特农神庙,谈不上多惊艳吧,但建筑本来就是MineCraft砖块堆积擅长的领域,所以看上去还不错,就不放图了。
接下来构建了一些机械,这就遇到了一些麻烦。
这是它老人家在经过了若干次调试后搞出来的起重机……
它还会非常正经地告诉我它构建了哪些零部件,非常骄傲的样子,全然不在意缺了点什么。
这时候我让GLM 5.1介入了,它首先做了Code Review,提出了很多问题,经过几次反复后,Minimax 基本上完成了修复。
然后GLM 5.1拿到的题目是斐迪南坦克歼击车,它是这样描述完成情况的:
完成的模型长这样:
排除颜色问题,我觉得还是可以的。
既然是对比嘛,别完全一样,找个差不多的。我给Minimax的题目是虎式坦克,结果这家伙构建模型不怎么行,嘴很硬:
行吧,也不能算它错。那么差别再大一点,生成一台谢尔曼坦克吧,谢尔曼M1有个名场面:)
它实际上基本长这样:
Minimax 生成的结果:
别说还真的挺可以的!
但是最终分出胜负的还是 Crane,这是GLM 5.1 生成的:
高下立判。