
很多人第一次用 AI 写长文,都会经历一个相似的过程:刚开始很惊艳,标题像样,开头顺滑,分段也整齐;可读到中后段,就会发现它在绕圈。观点看似丰富,其实没有推进;资料看似很多,其实只是堆叠;整篇文章像一个会说话的人,但不像一个真的研究过问题的人。这就很像我读卢克文的文章,典型的羊肉串式的风格。
我们常说这是“AI 味”,什么是AI味?或许AI 味不只是措辞问题。它更深层的来源,是文章缺少真正的研究过程。最近看过的一篇Stanford OVAL 的论文 《Assisting in Writing Wikipedia-like Articles From Scratch with Large Language Models》提出的 “STORM”,正好切中了这一点:长文写作的关键,不是让模型更会写,而是让模型在写之前先学会研究。
STORM 的全称是 “Synthesis of Topic Outlines through Retrieval and Multi-perspective Question Asking”。翻译得直白一点,就是通过检索、多视角提问和资料综合,先生成一个高质量大纲,再写长文。这件事听起来并不复杂,但它击中了 AI 写作里最容易被忽略的问题。
一、好文章不是从写作开始的
我们人写一篇有深度的长文章,通常不是打开文档就开始输出。真正耗时间的部分,往往发生在动笔之前:构思选题搭框架,查资料收集信息、判断信息源是否可靠等等,这就是写作经常踢到的“预写作”阶段。 STORM 的理论起点就在这里。它把长文生成拆成两个阶段:第一段是预写作,负责研究主题、收集资料、形成大纲;第二段才是写作,根据大纲和资料生成文章。这看起来只是流程拆分,但意义很大,因为大多数 RAG 写作系统的问题,恰恰在于它把信息的“检索”误当成了“研究”。
搜索一些网页,不等于理解一个主题;把资料塞进上下文,不等于形成文章结构;让模型带引用写作,也不等于它真的知道每条信息该放在哪里。STORM 想解决的不是“怎么写得更流畅”,而是“怎么在写之前知道该写什么”。
二、为什么“视角”比“提示词”更重要

STORM 这套框架最有关键的地方,是它不让模型直接列问题。因为直接列问题,很容易变成常识问答。你给一个主题,模型通常会问:是什么、什么时候发生、在哪里发生、有什么影响。这些问题不是没用,但很浅。
我们人类研究一个主题时,真正让问题变深的,往往是视角。文章里面例到同样研究一个音乐节,观众会关心体验,主办方会关心预算和组织,城市管理者会关心交通和安全,组织者会关心赞助和收入。视角不同,问题就不同;问题不同,搜到的资料也不同;资料不同,最后文章的结构和深度也会不同。
这就是 STORM 的第一层理论逻辑:“多视角带来多样化问题,多样化问题带来更完整的信息覆盖。” 它会先查找与目标主题相似的维基文章,分析这些文章的目录,再让模型根据这些目录总结出若干个适合研究该主题的视角。然后,每个视角都变成一个“虚拟作者”,分别去提问。
三、真正的研究,是被答案不断改变问题
STORM 框架的第二个关键设计,是多轮对话。它不是让模型一次性问完 30 个问题,而是让“作者”和“专家”对话:作者提出一个问题,专家基于可信互联网资料回答;作者读完答案后,再继续追问。
这件事听起来简单,但它很接近真实人类的研究状态。很多好问题,一开始是问不出来的。你必须先读到一些真实信息,才会发现里面的矛盾、不足和线索。一个答案不是终点,而是下一个问题的入口。
这也是为什么普通 AI 长文经常显得“平”。它有知识,但缺少被资料推动的过程;它会总结,但没有经历过追问;它能把信息排整齐展现出来,却不一定知道哪里值得深挖。STORM 的多轮对话,实际上是在模拟一种研究中的认知循环:提出问题,检索资料,综合答案,发现新线索,然后继续追问。这套循环,比单次检索更接近人的研究方式。
四、大纲不是形式,而是理解的骨架
这个框架里还有一个很关键的环节:大纲。
论文专门评估了大纲质量,而且发现了一件事:如果去掉大纲阶段,直接把研究问题和对话资料丢给模型,让它写完整文章,效果会明显变差。这其实很符合我们自己的写作经验。人在面对大量资料时,最容易出问题的地方,往往不是“不知道写什么”,而是“什么都想写”。模型也是一样。信息越多,就越需要结构来约束。没有结构,材料之间就会互相抢位置,最后文章很容易变成资料拼贴,看起来什么都有,但读起来很散,像一串内容羊肉串。
STORM 的处理方式是:先让模型根据已有知识生成一个粗略大纲,再把多视角问答得到的信息交给模型,最后让模型根据这些新信息修订大纲。这个设计很有意思。模型自己的知识,负责先搭一个大体框架;外部检索来的资料,负责补充这个主题里的具体内容。前者提供稳定性,后者提供新信息。也就是说,STORM 既不是完全相信模型自己瞎写,也不是把搜索结果简单堆进去,而是让模型知识和外部资料互相校正。

五、STORM 真正超过 RAG 的地方
普通 RAG 的思路比较直接:先把相关资料搜出来,再让模型基于资料写答案。STORM 的思路要多一步:它不是一上来就搜,而是先判断这个主题应该从哪些角度去问,再围绕这些问题检索资料,继续追问,最后再整理大纲、进入写作。差别就在这里。RAG 主要解决的是“模型不知道外部事实”的问题;STORM 想解决的是另一个问题:模型不知道该怎么研究一个主题。前者是补知识,后者是搭研究过程。
如果只是查一个具体事实,RAG 已经很好用。但如果要写一篇接近维基百科长度和信息密度的文章,光有资料远远不够。你还得知道哪些内容必须写,哪些内容可以略过,材料之间怎么组织,哪些关系不能随便建立,哪些来源还需要再核查。论文里的实验也说明了这一点。 研究者请了 10 位有经验的维基百科编辑,对比 STORM 和当时最强的基线方法 oRAG 生成的文章。结果显示,STORM 写出来的文章在结构和覆盖面上都更好。其中,被认为“组织良好”的文章比例比 oRAG 高 25%,被认为“覆盖充分”的比例高 10%。
不过,论文也说得很清楚:即使用了 STORM,生成文章的质量仍然比不上经过充分修改的人类文章。STORM 会引用资料来源,但引用了来源,不代表文章就完全可靠。作者发现了两个比较典型的问题。
第一个问题是语气和立场会被带进去。网上的资料并不总是中立的,很多内容本身就带有宣传口吻、情绪词,或者某种隐含立场。模型在综合资料时,可能会把这种语气也一起带进文章里。于是文章虽然看起来有来源,但读起来不像百科,更像一篇宣传稿。第二个问题更麻烦:模型可能会过度关联。也就是说,它没有编造事实,两个事实本身可能都是真的,但它会把它们强行连在一起,写出一种原资料并没有明确支持的关系。
这类问题比单纯的“事实有没有错”更难查。因为很多误导不是来自假事实,而是来自错误连接。一个事实是真的,另一个事实也是真的,但它们放在一起,不一定能推出文章暗示的结论。所以,STORM 的意义不只是提出了一种更好的写作流程,也暴露了 AI 写作接下来真正难解决的问题:未来不能只做事实核查,还要做关系核查、语气核查和立场核查。
六、SKILL实现STORM方式写作
这篇文章写于 2024 年。那时,人类与 AI 的互动基本还停留在 Prompt 时代:大家总希望写出一句足够完美的提示词,让模型一次性生成理想结果。但复杂任务很难靠一句话解决,长文写作尤其如此。它并不是“输入一个主题,输出一篇文章”这么简单,而是包含选题、研究、提问、检索、筛选、结构化、写作、核查和修订等多个环节。STORM 的价值正在于,它把这些原本隐藏在写作过程中的步骤显性化了。
而到了今天,Skill 已经可以在很大程度上承接这类复杂流程。它不再依赖单一 Prompt,而是让 AI 按照一套相对完整的工作路径去执行任务:从前期研究、提出问题,到资料整理、结构搭建,再到写作、核查和修改。一个好的写作 Skill,不应该只是把几句提示词打包起来,而应该是一套稳定的认知流程设计:先问哪些问题,如何查找资料,怎样判断视角是否充分,什么时候生成大纲,什么时候进入写作,什么时候必须回到事实核查。

基于这篇论文我写了一个Skill,可以明显的看到调用这个SKILL写的文章质量很高。让他对中国少子化现象进行研究,给出了一篇15000字的维基百科式的文章。



夜雨聆风