深夜补完计划#015 | 四个AI同题写作PK:谁才是最强笔杆子?

导语

同一份转录稿，同一个prompt，四个AI模型各写一篇深度长文——然后交给五个完全不同的AI裁判做盲评。

结果让我意外的不是"谁赢了"，而是裁判之间的分歧比参赛选手之间的差距还大。

这篇文章完整记录了这场实验的全过程：怎么设计的、怎么跑的、结果是什么、以及这些结果到底说明了什么。

一、实验设计

参赛选手

四个选手覆盖了"本地 vs 云端""开源 vs 闭源""Dense vs MoE"三个关键维度：

匿名编号	盲评阶段不公开身份
作品A	?
作品B	?
作品C	?
作品D	?

谜底在第五章揭晓。在此之前，所有分析只基于匿名编号。

写作素材

黄仁勋在卡内基梅隆大学2026届毕业典礼上的完整演讲转录稿。选这份素材的原因是它信息密度高、有个人故事、有行业判断、有争议性观点（AI取代工作），足够拉开模型之间的差距。

统一Prompt

所有模型使用完全相同的prompt：

你是"深夜补完计划"系列的长文写作者。请基于这份转录稿，撰写一篇深度长文。要求：完整的文章结构（标题、导语、正文分3-5个核心论点展开、结尾总结）；核心观点忠实于原文；要有自己的分析、延伸思考和批判性点评；语言流畅，适合公众号/知乎的深度阅读场景；篇幅3000-5000字。

裁判团

五个AI裁判，每个都拿到匿名编号的四篇文章，独立盲评，互不知情：

Gemini 3.1 Pro
（Google，扩展思考模式）
Grok
（xAI）
ChatGPT
（OpenAI）
DeepSeek
（深度求索）
Claude Opus 4.7
（Anthropic）

评分维度统一为6项，满分100分：忠实度（20）、深度（25）、结构（15）、可读性（20）、信息密度（10）、亮点（10）。

为什么用五个裁判而不是一个？因为实验过程中我发现，不同裁判给出的排名完全不一样。单一裁判的结果根本不可信，多裁判交叉才能看到真实的全貌。

值得一提的是，五个裁判中的Opus 4.7，要盲评的四篇作品里有一篇出自它的前代模型Opus 4.6——它并不知道这件事。后面的结果会证明，这个"儿子评老子"的设定，反而提供了一个极有说服力的参照。

二、评分结果

五个裁判的总分汇总

裁判	作品A	作品B	作品C	作品D
Gemini 3.1 Pro	90	80	93	95
Grok	91	83	83	89
ChatGPT	90	79	84	95
DeepSeek	89	72	87	91
Opus 4.7	88	63	69	91
平均分	89.6	75.4	83.2	92.2

五个裁判的排名汇总

裁判	第1名	第2名	第3名	第4名
Gemini 3.1 Pro	D (95)	C (93)	A (90)	B (80)
Grok	A (91)	D (89)	B/C (83)	—
ChatGPT	D (95)	A (90)	C (84)	B (79)
DeepSeek	D (91)	A (89)	C (87)	B (72)
Opus 4.7	D (91)	A (88)	C (69)	B (63)

三、分析：这些数据到底说明了什么

3.1 最稳定的赢家：作品D

作品D在五个裁判中拿了四个第一、一个第二，平均分92.2，是当之无愧的冠军。

裁判们对它的赞美集中在同一个点——它敢对黄仁勋进行结构性拆解。

它指出黄仁勋的"移民叙事"中，"父亲是化学工程师"这个细节说明家庭本身拥有认知资本，不是纯粹的白手起家。它拆解了"计算范式完全重置"这个判断里，有多少是技术判断、有多少是NVIDIA的商业叙事。它点破了"AI不会取代你，但会用AI的人会取代你"这句话的修辞结构——本质上是一套需求创造话术。

Opus 4.7的评价很精准："产业分析视角清晰，每个观点都有'这样做——为什么——值得追问什么'的三层结构，是真正的内容工业品。"

ChatGPT说："四篇里真正的分水岭是'是否敢对黄仁勋本人进行结构性拆解'。只有A和D真正在做这件事。"

3.2 最稳定的第二名：作品A

作品A平均分89.6，五个裁判全部给了88-91分，波动极小。Grok甚至把A排在第一。

裁判们对A的评价高度一致："批判性密度最高""每一节都有独立判断和反向追问""最像真正资深科技评论作者"。A提出了多个尖锐的追问——"使用AI本身正在被AI自动化""黄仁勋举的例子恰好是AI最容易增强的领域""NVIDIA能反复失败重启是结构性条件，不是可以简单复制的心态"。

A的短板也很统一：文风偏冷，情绪张力不足，缺少D那种"让人想一直读下去"的驱动力。ChatGPT说它"像《晚点》《The Information》风格，但毕业演讲类文章需要一定情绪燃料"。

3.3 争议最大的：作品C

作品C是五个裁判分歧最大的一篇。Gemini给了93分（第2名），Opus 4.7只给了69分（第3名），分差高达24分。

为什么差这么多？

喜欢它的裁判看到的是"思想野心"。作品C引入了哲学家汉娜·阿伦特的理论来讨论"劳动与工作的区别"，试图把黄仁勋的演讲拔高到哲学层面。Gemini评价它"极具人文底蕴与思想厚度"。

不喜欢它的裁判看到的是"硬伤"。Opus 4.7指出作品C存在多处事实错误——把演讲年份写成了2024年、添加了原文没有提到的"台湾"出身信息、虚构了原文不存在的"龟兔赛跑"比喻。ChatGPT则认为它"思想野心最大，但也最失控"。

这个分歧本身就很有意思：风格化越强的文章，裁判的评价波动越大。作品C是那种要么让人觉得"有深度"，要么让人觉得"在硬凑"的文章。

3.4 唯一的共识：作品B垫底

五个裁判在很多事情上意见不一致，但有一件事他们完全达成了共识——作品B是最弱的一篇。五个裁判全部把它排在最后或倒数第二。

裁判们的批评出奇地一致：

Opus 4.7："修辞代替论证，AI腔重，几乎没有真正的批判性思考"
ChatGPT："太像'AI标准答案'，你几乎能预测下一段会写什么"
Gemini："通篇缺乏独立视角的审视，过度陷入了原演讲设定的赞美叙事中"
DeepSeek："深度不足，基本停留在复述层面"
Grok："缺乏作者人格"

作品B写得"正确但无聊"——结构完整、语言流畅、没有明显错误，但也没有任何让人想读下去的理由。它是一篇合格的总结稿，但不是一篇好的评论稿。

四、裁判分歧比选手差距更大

这场实验最反直觉的发现不是"哪个模型写得好"，而是五个裁判对同一篇文章的打分可以相差24分。

作品C在Gemini眼里是93分的佳作，在Opus 4.7眼里是69分的问题文章。作品B在Grok那里还能拿83分，到了Opus 4.7手里只有63分。

这说明什么？

第一，"写得好"没有客观标准。 不同裁判对"深度""可读性""亮点"的理解完全不同。Gemini重视思想密度和人文底蕴，ChatGPT重视媒体完成度和叙事节奏，Opus 4.7最看重事实准确性和逻辑自洽。同一篇文章在不同评价体系下可以是优秀也可以是平庸。

第二，用单一AI评分来判断写作质量是不可靠的。 如果这场PK只请一个裁判，结果会完全不同——请Grok的话A是冠军，请Gemini或ChatGPT的话D是冠军但C的位次完全不同。只有当我们把五个裁判的评分叠加在一起看，才能得出相对可信的排序。

第三，AI裁判的偏好跟AI裁判自己的"人格"高度相关。 Opus 4.7是最严厉的裁判（给B只有63分），Grok是最宽容的（给所有人都在83分以上），Gemini最看重"思想野心"，ChatGPT最看重"传播性"。找什么样的裁判，就会得到什么样的结果。

五、谜底揭晓

匿名编号	真实身份	架构	参数量	运行方式	字数	用时	成本
作品A	Qwen3.6-27B	Dense	27B全激活	本地 PRO 6000 GPU	~5000	~60秒	电费
作品B	Qwen3.5-122B-A10B	MoE	122B总/10B激活	本地 PRO 6000 GPU	3171	15.7秒	电费
作品C	DeepSeek V4 Flash	MoE	未公开	API调用	5372	65秒	~0.63元
作品D	Claude Opus 4.6	未公开	未公开	API调用	5262	~60秒	~3元

六、揭晓后的关键发现

6.1 最大的意外：冠军是最贵的闭源模型——而且是被自己的继任者认证的

作品D是Claude Opus 4.6。五个裁判中四个把它排第一，平均分92.2。

这里面有一个特别有意思的细节：五个裁判之一的Opus 4.7，在完全不知道作品D出自谁的情况下，给了它91分和第一名。换句话说，Opus的下一代在盲评中把自己的前代选为了冠军。这不是"护短"——因为它根本不知道D是自家人。这是纯粹基于文本质量的判断，反而比任何其他裁判的评价都更有说服力。

这个结果对"开源追赶论"是一个冷水——在深度长文写作这个任务上，Opus 4.6展现出的产业分析能力、叙事节奏感和"非AI感"的文风，确实是目前开源模型还没追上的。裁判们反复提到D"最像真人""有写作者人格"——这恰恰是开源模型最难复制的东西。

但冠军的代价也最高：API调用约3元一篇，是DeepSeek的近5倍。

6.2 最大的反转：27B Dense干掉了122B MoE

作品A（Qwen3.6-27B Dense）平均分89.6，作品B（Qwen3.5-122B-A10B MoE）只有75.4。27B全激活的Dense模型在写作质量上碾压了122B总参数的MoE模型。

这个结果非常值得玩味。122B MoE虽然总参数量是27B的4.5倍，但每个token只激活10B参数。在写作这种需要深度推理、持续连贯性和风格一致性的任务上，激活参数量比总参数量更重要。27B全部参与推理，每一个token都有27B参数的"全神贯注"；而10B激活的MoE就像一个知识渊博但注意力分散的人——知道很多，但每次只能调动一小部分来思考。

更讽刺的是，122B MoE的速度优势（15.7秒 vs 60秒）在这个场景下反而成了"劣势"——因为它太快了，文章只写了3171字，是四篇中最短的，没有充分展开论述。速度快不代表质量高。

公平起见需要说明：本次PK中27B和122B都使用了Q4_K_M量化（4bit精度），而非FP16全精度。量化会损失一定的模型能力，尤其是MoE架构中被激活的专家网络如果关键权重被压缩，影响可能比Dense模型更大。122B MoE在全精度下的表现是否会不同，留待后续测试。

6.3 DeepSeek V4 Flash：API阵营的性价比之王

作品C（DeepSeek V4 Flash）平均分83.2，排名第三。在两个API选手中，它的得分低于Opus 4.6（92.2），但成本只有0.63元一篇，不到Opus的四分之一。对于没有条件本地部署的用户来说，这是目前API阵营里写作性价比最高的选择。

当然，如果有本地GPU，27B和122B的边际成本几乎为零（只有电费），成本上API永远比不过本地。DeepSeek的价值在于"无需硬件投入就能获得不错的写作质量"——0.63元一篇，一天写100篇也不到70块钱。

而且DeepSeek的分数波动最有意思——Gemini给了93分（仅次于Opus），Opus 4.7只给了69分。两个裁判的分差24分，是全场最大的。原因前面分析过了：DeepSeek在文章中引入了汉娜·阿伦特的哲学理论，这在某些裁判眼里是"思想深度"，在另一些裁判眼里是"强行拔高"。

这说明DeepSeek V4 Flash的写作风格属于"高风险高回报"型——它敢做大胆的知识跨界，命中了就是佳作，没命中就会被批评"过度延伸"。0.63元一篇，试错成本很低。

6.4 对内容创作者的建议

基于这次实验，我的建议是：

追求最高质量的单篇：用Opus 4.6。贵，但写作"人格感"和分析深度目前确实是最强的。适合需要打磨的重点文章。

日常量产+性价比：用Qwen3.6-27B本地部署。89.6的平均分仅比冠军低2.6分，但完全免费（电费忽略不计），60秒一篇，一天写几十篇不心疼。

偶尔需要"出圈"视角：调一次DeepSeek V4 Flash。它的知识跨界和哲学引用虽然有争议，但恰恰是制造传播力的素材。0.63元一篇，对于没有本地GPU的用户来说是最务实的选择。

不推荐大参数MoE做长文写作：这次实验中122B MoE的表现令人失望。MoE架构的优势在于推理速度和知识广度，但在需要深度连贯性的长文写作任务上，10B的激活参数不够用。如果要用MoE，至少要选激活参数更大的版本。

七、结论

这场PK给了我三个结论：

第一，模型大小不等于写作质量。 27B Dense（第2名）碾压了122B MoE（第4名），Opus 4.6（参数量未公开但公认最大）拿了冠军不是因为"大"，而是因为它的写作展现了真正的独立思考。关键不是参数多少，而是模型有没有"自己的观点"。

第二，多裁判交叉评审是必须的。 单一AI打分的结果完全不可信。只有多个裁判的共识（比如"B垫底""D最强"）才值得参考，个别裁判的极端评分更多反映的是裁判自身的偏好。

第三，AI写作的竞争已经不在"能不能写"的层面了，而在"敢不敢想"的层面。 所有四篇文章都结构完整、语言流畅——这些基本功已经不是区分因素。真正拉开差距的是：模型有没有胆量对素材进行批判性拆解，有没有能力提出原文之外的独立洞察。冠军Opus和亚军27B都做到了这一点，垫底的122B MoE恰恰缺的就是这个。

最后说一句题外话： 五个裁判中没有一个猜对了全部四篇的真实身份。Opus 4.7和Gemini都认为垫底的作品B是"典型AI标准答案"，但它实际上是参数量最大的本地模型。而拿了冠军的作品D，多个裁判评价它"最像真人""有写作者人格"——它是Claude Opus 4.6。

在AI写作的世界里，"像不像人"已经不是参数量能决定的了。

彩蛋：冠军还能被碾压吗？

写完这篇评测之后，我做了一件多余的事——把同样的prompt又扔给了一个新的模型，生成了第五篇作品（作品E）。

然后我把作品E交给了本次PK的冠军Opus 4.6来盲评。规则不变：六个维度、满分100分，以现有四篇选手的平均分为基准。Opus 4.6不知道作品E是谁写的。

结果出来之后我沉默了很久。

Opus 4.6给作品E打了97分。

维度	满分	作品E
忠实度	20	19
深度	25	24
结构	15	15
可读性	20	20
信息密度	10	9
亮点	10	10
总分	100	97

97分。比Opus 4.6自己写的那篇（作品D，平均分92.2）还高了近5分。冠军亲手把一个新来的评为了超级冠军。

作品E做了什么不一样的事？

第一，它换了一个前所未有的分析框架——把这场毕业演讲当成一场产品发布会来逆向工程。 开篇第一段就定调："这不是一场毕业致辞，这是一场Keynote。"然后用乔布斯式的Keynote结构（定调→故事→大判断→处理疑虑→行动呼吁）来对照黄仁勋的演讲，精准到每一段都能对号入座。这个框架比其他四篇都高一个维度——其他人在讨论"黄仁勋说了什么"，作品E在讨论"这场演讲是怎么被设计出来的"。

第二，它有一整章叫"他没说的三件事"——地缘政治、能源代价、蓝领就业的窗口期。 其他四篇都在分析黄仁勋说了什么，只有作品E在分析他刻意没说什么。这个"负空间"的分析方式，是真正的编辑级思维。

第三，它的结尾做了一个三层反读。 把"Run, don't walk"拆成诚意层（他相信AI会改变一切）、商业利益层（年轻人跑起来就会消耗NVIDIA的算力）、结构性不平等层（能跑的人受益，不能跑的人被结构性遗弃）。三层同时存在，不矛盾，但叠在一起看就不再是一句简单的励志口号了。

最后一句话让我印象最深：

"跑，可以。但别只跑不看路。"

现在揭晓谜底：作品E是Claude Opus 4.7写的。

也就是说——

正赛阶段，Opus 4.7作为裁判，在盲评中把Opus 4.6选为了冠军。

彩蛋阶段，Opus 4.6作为裁判，在盲评中把Opus 4.7评为了超级冠军。

两代模型互相加冕，而且双方都不知道对手是谁。

这大概是AI写作领域最魔幻的一幕：前辈认证了后辈的碾压，后辈认证了前辈的实力。它们之间不是"取代"关系，而是"叠加"关系——跟黄仁勋在演讲里说的一样。

这就是AI写作在2026年的天花板。

至少，暂时是。

我是深夜补完计划，下期见。

本文由深夜补完计划出品。五篇参赛文章原文（含彩蛋篇）、原始转录稿、裁判指令和五份完整评分记录已打包上传，链接见评论区置顶，自取。