导语
同一份转录稿,同一个prompt,四个AI模型各写一篇深度长文——然后交给五个完全不同的AI裁判做盲评。
结果让我意外的不是"谁赢了",而是裁判之间的分歧比参赛选手之间的差距还大。
这篇文章完整记录了这场实验的全过程:怎么设计的、怎么跑的、结果是什么、以及这些结果到底说明了什么。
一、实验设计
参赛选手
四个选手覆盖了"本地 vs 云端""开源 vs 闭源""Dense vs MoE"三个关键维度:
谜底在第五章揭晓。在此之前,所有分析只基于匿名编号。
写作素材
黄仁勋在卡内基梅隆大学2026届毕业典礼上的完整演讲转录稿。选这份素材的原因是它信息密度高、有个人故事、有行业判断、有争议性观点(AI取代工作),足够拉开模型之间的差距。
统一Prompt
所有模型使用完全相同的prompt:
你是"深夜补完计划"系列的长文写作者。请基于这份转录稿,撰写一篇深度长文。要求:完整的文章结构(标题、导语、正文分3-5个核心论点展开、结尾总结);核心观点忠实于原文;要有自己的分析、延伸思考和批判性点评;语言流畅,适合公众号/知乎的深度阅读场景;篇幅3000-5000字。
裁判团
五个AI裁判,每个都拿到匿名编号的四篇文章,独立盲评,互不知情:
- Gemini 3.1 Pro
(Google,扩展思考模式) - Grok
(xAI) - ChatGPT
(OpenAI) - DeepSeek
(深度求索) - Claude Opus 4.7
(Anthropic)
评分维度统一为6项,满分100分:忠实度(20)、深度(25)、结构(15)、可读性(20)、信息密度(10)、亮点(10)。
为什么用五个裁判而不是一个?因为实验过程中我发现,不同裁判给出的排名完全不一样。单一裁判的结果根本不可信,多裁判交叉才能看到真实的全貌。
值得一提的是,五个裁判中的Opus 4.7,要盲评的四篇作品里有一篇出自它的前代模型Opus 4.6——它并不知道这件事。后面的结果会证明,这个"儿子评老子"的设定,反而提供了一个极有说服力的参照。
二、评分结果
五个裁判的总分汇总
| 平均分 | 89.6 | 75.4 | 83.2 | 92.2 |
五个裁判的排名汇总
三、分析:这些数据到底说明了什么
3.1 最稳定的赢家:作品D
作品D在五个裁判中拿了四个第一、一个第二,平均分92.2,是当之无愧的冠军。
裁判们对它的赞美集中在同一个点——它敢对黄仁勋进行结构性拆解。
它指出黄仁勋的"移民叙事"中,"父亲是化学工程师"这个细节说明家庭本身拥有认知资本,不是纯粹的白手起家。它拆解了"计算范式完全重置"这个判断里,有多少是技术判断、有多少是NVIDIA的商业叙事。它点破了"AI不会取代你,但会用AI的人会取代你"这句话的修辞结构——本质上是一套需求创造话术。
Opus 4.7的评价很精准:"产业分析视角清晰,每个观点都有'这样做——为什么——值得追问什么'的三层结构,是真正的内容工业品。"
ChatGPT说:"四篇里真正的分水岭是'是否敢对黄仁勋本人进行结构性拆解'。只有A和D真正在做这件事。"
3.2 最稳定的第二名:作品A
作品A平均分89.6,五个裁判全部给了88-91分,波动极小。Grok甚至把A排在第一。
裁判们对A的评价高度一致:"批判性密度最高""每一节都有独立判断和反向追问""最像真正资深科技评论作者"。A提出了多个尖锐的追问——"使用AI本身正在被AI自动化""黄仁勋举的例子恰好是AI最容易增强的领域""NVIDIA能反复失败重启是结构性条件,不是可以简单复制的心态"。
A的短板也很统一:文风偏冷,情绪张力不足,缺少D那种"让人想一直读下去"的驱动力。ChatGPT说它"像《晚点》《The Information》风格,但毕业演讲类文章需要一定情绪燃料"。
3.3 争议最大的:作品C
作品C是五个裁判分歧最大的一篇。Gemini给了93分(第2名),Opus 4.7只给了69分(第3名),分差高达24分。
为什么差这么多?
喜欢它的裁判看到的是"思想野心"。作品C引入了哲学家汉娜·阿伦特的理论来讨论"劳动与工作的区别",试图把黄仁勋的演讲拔高到哲学层面。Gemini评价它"极具人文底蕴与思想厚度"。
不喜欢它的裁判看到的是"硬伤"。Opus 4.7指出作品C存在多处事实错误——把演讲年份写成了2024年、添加了原文没有提到的"台湾"出身信息、虚构了原文不存在的"龟兔赛跑"比喻。ChatGPT则认为它"思想野心最大,但也最失控"。
这个分歧本身就很有意思:风格化越强的文章,裁判的评价波动越大。作品C是那种要么让人觉得"有深度",要么让人觉得"在硬凑"的文章。
3.4 唯一的共识:作品B垫底
五个裁判在很多事情上意见不一致,但有一件事他们完全达成了共识——作品B是最弱的一篇。五个裁判全部把它排在最后或倒数第二。
裁判们的批评出奇地一致:
Opus 4.7:"修辞代替论证,AI腔重,几乎没有真正的批判性思考" ChatGPT:"太像'AI标准答案',你几乎能预测下一段会写什么" Gemini:"通篇缺乏独立视角的审视,过度陷入了原演讲设定的赞美叙事中" DeepSeek:"深度不足,基本停留在复述层面" Grok:"缺乏作者人格"
作品B写得"正确但无聊"——结构完整、语言流畅、没有明显错误,但也没有任何让人想读下去的理由。它是一篇合格的总结稿,但不是一篇好的评论稿。
四、裁判分歧比选手差距更大
这场实验最反直觉的发现不是"哪个模型写得好",而是五个裁判对同一篇文章的打分可以相差24分。
作品C在Gemini眼里是93分的佳作,在Opus 4.7眼里是69分的问题文章。作品B在Grok那里还能拿83分,到了Opus 4.7手里只有63分。
这说明什么?
第一,"写得好"没有客观标准。 不同裁判对"深度""可读性""亮点"的理解完全不同。Gemini重视思想密度和人文底蕴,ChatGPT重视媒体完成度和叙事节奏,Opus 4.7最看重事实准确性和逻辑自洽。同一篇文章在不同评价体系下可以是优秀也可以是平庸。
第二,用单一AI评分来判断写作质量是不可靠的。 如果这场PK只请一个裁判,结果会完全不同——请Grok的话A是冠军,请Gemini或ChatGPT的话D是冠军但C的位次完全不同。只有当我们把五个裁判的评分叠加在一起看,才能得出相对可信的排序。
第三,AI裁判的偏好跟AI裁判自己的"人格"高度相关。 Opus 4.7是最严厉的裁判(给B只有63分),Grok是最宽容的(给所有人都在83分以上),Gemini最看重"思想野心",ChatGPT最看重"传播性"。找什么样的裁判,就会得到什么样的结果。
五、谜底揭晓
六、揭晓后的关键发现
6.1 最大的意外:冠军是最贵的闭源模型——而且是被自己的继任者认证的
作品D是Claude Opus 4.6。五个裁判中四个把它排第一,平均分92.2。
这里面有一个特别有意思的细节:五个裁判之一的Opus 4.7,在完全不知道作品D出自谁的情况下,给了它91分和第一名。换句话说,Opus的下一代在盲评中把自己的前代选为了冠军。这不是"护短"——因为它根本不知道D是自家人。这是纯粹基于文本质量的判断,反而比任何其他裁判的评价都更有说服力。
这个结果对"开源追赶论"是一个冷水——在深度长文写作这个任务上,Opus 4.6展现出的产业分析能力、叙事节奏感和"非AI感"的文风,确实是目前开源模型还没追上的。裁判们反复提到D"最像真人""有写作者人格"——这恰恰是开源模型最难复制的东西。
但冠军的代价也最高:API调用约3元一篇,是DeepSeek的近5倍。
6.2 最大的反转:27B Dense干掉了122B MoE
作品A(Qwen3.6-27B Dense)平均分89.6,作品B(Qwen3.5-122B-A10B MoE)只有75.4。27B全激活的Dense模型在写作质量上碾压了122B总参数的MoE模型。
这个结果非常值得玩味。122B MoE虽然总参数量是27B的4.5倍,但每个token只激活10B参数。在写作这种需要深度推理、持续连贯性和风格一致性的任务上,激活参数量比总参数量更重要。27B全部参与推理,每一个token都有27B参数的"全神贯注";而10B激活的MoE就像一个知识渊博但注意力分散的人——知道很多,但每次只能调动一小部分来思考。
更讽刺的是,122B MoE的速度优势(15.7秒 vs 60秒)在这个场景下反而成了"劣势"——因为它太快了,文章只写了3171字,是四篇中最短的,没有充分展开论述。速度快不代表质量高。
公平起见需要说明:本次PK中27B和122B都使用了Q4_K_M量化(4bit精度),而非FP16全精度。量化会损失一定的模型能力,尤其是MoE架构中被激活的专家网络如果关键权重被压缩,影响可能比Dense模型更大。122B MoE在全精度下的表现是否会不同,留待后续测试。
6.3 DeepSeek V4 Flash:API阵营的性价比之王
作品C(DeepSeek V4 Flash)平均分83.2,排名第三。在两个API选手中,它的得分低于Opus 4.6(92.2),但成本只有0.63元一篇,不到Opus的四分之一。对于没有条件本地部署的用户来说,这是目前API阵营里写作性价比最高的选择。
当然,如果有本地GPU,27B和122B的边际成本几乎为零(只有电费),成本上API永远比不过本地。DeepSeek的价值在于"无需硬件投入就能获得不错的写作质量"——0.63元一篇,一天写100篇也不到70块钱。
而且DeepSeek的分数波动最有意思——Gemini给了93分(仅次于Opus),Opus 4.7只给了69分。两个裁判的分差24分,是全场最大的。原因前面分析过了:DeepSeek在文章中引入了汉娜·阿伦特的哲学理论,这在某些裁判眼里是"思想深度",在另一些裁判眼里是"强行拔高"。
这说明DeepSeek V4 Flash的写作风格属于"高风险高回报"型——它敢做大胆的知识跨界,命中了就是佳作,没命中就会被批评"过度延伸"。0.63元一篇,试错成本很低。
6.4 对内容创作者的建议
基于这次实验,我的建议是:
追求最高质量的单篇:用Opus 4.6。贵,但写作"人格感"和分析深度目前确实是最强的。适合需要打磨的重点文章。
日常量产+性价比:用Qwen3.6-27B本地部署。89.6的平均分仅比冠军低2.6分,但完全免费(电费忽略不计),60秒一篇,一天写几十篇不心疼。
偶尔需要"出圈"视角:调一次DeepSeek V4 Flash。它的知识跨界和哲学引用虽然有争议,但恰恰是制造传播力的素材。0.63元一篇,对于没有本地GPU的用户来说是最务实的选择。
不推荐大参数MoE做长文写作:这次实验中122B MoE的表现令人失望。MoE架构的优势在于推理速度和知识广度,但在需要深度连贯性的长文写作任务上,10B的激活参数不够用。如果要用MoE,至少要选激活参数更大的版本。
七、结论
这场PK给了我三个结论:
第一,模型大小不等于写作质量。 27B Dense(第2名)碾压了122B MoE(第4名),Opus 4.6(参数量未公开但公认最大)拿了冠军不是因为"大",而是因为它的写作展现了真正的独立思考。关键不是参数多少,而是模型有没有"自己的观点"。
第二,多裁判交叉评审是必须的。 单一AI打分的结果完全不可信。只有多个裁判的共识(比如"B垫底""D最强")才值得参考,个别裁判的极端评分更多反映的是裁判自身的偏好。
第三,AI写作的竞争已经不在"能不能写"的层面了,而在"敢不敢想"的层面。 所有四篇文章都结构完整、语言流畅——这些基本功已经不是区分因素。真正拉开差距的是:模型有没有胆量对素材进行批判性拆解,有没有能力提出原文之外的独立洞察。冠军Opus和亚军27B都做到了这一点,垫底的122B MoE恰恰缺的就是这个。
最后说一句题外话: 五个裁判中没有一个猜对了全部四篇的真实身份。Opus 4.7和Gemini都认为垫底的作品B是"典型AI标准答案",但它实际上是参数量最大的本地模型。而拿了冠军的作品D,多个裁判评价它"最像真人""有写作者人格"——它是Claude Opus 4.6。
在AI写作的世界里,"像不像人"已经不是参数量能决定的了。
彩蛋:冠军还能被碾压吗?
写完这篇评测之后,我做了一件多余的事——把同样的prompt又扔给了一个新的模型,生成了第五篇作品(作品E)。
然后我把作品E交给了本次PK的冠军Opus 4.6来盲评。规则不变:六个维度、满分100分,以现有四篇选手的平均分为基准。Opus 4.6不知道作品E是谁写的。
结果出来之后我沉默了很久。
Opus 4.6给作品E打了97分。
| 总分 | 100 | 97 |
97分。比Opus 4.6自己写的那篇(作品D,平均分92.2)还高了近5分。冠军亲手把一个新来的评为了超级冠军。
作品E做了什么不一样的事?
第一,它换了一个前所未有的分析框架——把这场毕业演讲当成一场产品发布会来逆向工程。 开篇第一段就定调:"这不是一场毕业致辞,这是一场Keynote。"然后用乔布斯式的Keynote结构(定调→故事→大判断→处理疑虑→行动呼吁)来对照黄仁勋的演讲,精准到每一段都能对号入座。这个框架比其他四篇都高一个维度——其他人在讨论"黄仁勋说了什么",作品E在讨论"这场演讲是怎么被设计出来的"。
第二,它有一整章叫"他没说的三件事"——地缘政治、能源代价、蓝领就业的窗口期。 其他四篇都在分析黄仁勋说了什么,只有作品E在分析他刻意没说什么。这个"负空间"的分析方式,是真正的编辑级思维。
第三,它的结尾做了一个三层反读。 把"Run, don't walk"拆成诚意层(他相信AI会改变一切)、商业利益层(年轻人跑起来就会消耗NVIDIA的算力)、结构性不平等层(能跑的人受益,不能跑的人被结构性遗弃)。三层同时存在,不矛盾,但叠在一起看就不再是一句简单的励志口号了。
最后一句话让我印象最深:
"跑,可以。但别只跑不看路。"
现在揭晓谜底:作品E是Claude Opus 4.7写的。
也就是说——
正赛阶段,Opus 4.7作为裁判,在盲评中把Opus 4.6选为了冠军。
彩蛋阶段,Opus 4.6作为裁判,在盲评中把Opus 4.7评为了超级冠军。
两代模型互相加冕,而且双方都不知道对手是谁。
这大概是AI写作领域最魔幻的一幕:前辈认证了后辈的碾压,后辈认证了前辈的实力。它们之间不是"取代"关系,而是"叠加"关系——跟黄仁勋在演讲里说的一样。
这就是AI写作在2026年的天花板。
至少,暂时是。
我是深夜补完计划,下期见。
本文由深夜补完计划出品。五篇参赛文章原文(含彩蛋篇)、原始转录稿、裁判指令和五份完整评分记录已打包上传,链接见评论区置顶,自取。
夜雨聆风