今日判断
这句话很安慰人,也很容易让人误判风险。
昨天看到编辑同行老师《高端的审读编辑,万里挑一,AI替代不了》,这个判断很安慰人,但也很容易让人误判风险。
原文说中了一个真问题:审读不是改错字、核格式、查参考文献著录项,也不是把编校规范背熟就能胜任。真正困难的审读,是把稿件重新放回专业知识、研究方法、论证链条和结论边界里判断。编校层面没有错误的稿件,照样可能有逻辑断裂、方法不当、数据与结论不匹配、讨论过度外推。能看出这些问题的编辑,确实稀缺。
但问题也恰恰从这里开始。
如果高端审读的核心是专业知识判断、跨领域理解、逻辑链条识别、方法与结论匹配,那么这些能力真的都只能由编辑个人长期积累来完成吗?
我的判断更直接一点:不能再这么想了。
AI 未必替代编辑这个岗位,但它已经在辅助、拆解并重构一部分过去被归入高端审读的局部动作。继续把“AI替代不了”挂在嘴边,可能不是清醒,而是旧流程不愿被反思。
真正不可替代的,也不再是“编辑知道得比 AI 多”,而是编辑能否把 AI 提出的风险点、专家意见、作者回复、证据链和期刊责任组织成可复核的判断。
01
别把高端审读神秘化,它首先是一组可拆分的动作
高端审读当然难。但一说“难”,编辑部很容易把它想成一种完整而神秘的个人能力:一个资深编辑坐在那里,凭多年积累,读几遍稿子,就能看出别人看不出的毛病。
这种想象很舒服,也很危险。因为它把审读能力藏进了个人经验里,只能敬畏,不能拆解;只能仰赖高手,不能训练组织。
真实工作并不是这样。审读一篇稿件,至少包含一串可以拆开的动作:题名、摘要和结论是否一致?研究问题是否清楚?方法能不能支撑结论?样本、数据、实验设计、统计处理,是否足以承受作者结尾那几句判断?讨论部分有没有把小样本结论推到大范围场景?参考文献是真在支撑论述,还是只在背景处摆了几篇看起来相关的文章?作者回复外审意见时,是补充了证据,还是换一种说法绕开关键质疑?
这些都叫审读。
但它们不在同一个层级。有些问题必须由编辑结合学科发展、期刊定位、外审意见和发表风险作综合判断;有些问题本质上就是一致性检查、证据追问、风险提示和回复拆解。过去,这些动作混在一起,全靠资深编辑的敏感性。现在,至少其中一部分已经可以被 AI 拆出来,变成可提示、可校验、可复核、可留痕的环节。
从笔者的流程测试看,让代理做反向质疑、问题链生成、证据追问、外推边界标注、作者回复拆解、审稿意见质量检查,效果已经不是“也许有点帮助”。外部研究也显示,GPT-4 对论文反馈与人类审稿意见存在部分可比重合。坦白讲,在不少文本链条问题上,它已经非常强。它不会疲惫,不会因为稿件堆积而跳读,也不会因为作者语气诚恳就放过没有证据的回答。
这不是让 AI 替编辑下结论。它不应该直接判断一篇稿件该不该录用,更不能绕过编辑和专家给处理决定。但让 AI 先列出“这里可能不一致”“这里缺少证据”“这里结论越过数据边界”“作者没有回应第 2 条审稿意见”,这已经不是语言润色。
它进入的是审读动作本身。
高端审读被拆开以后,编辑部要面对的就不是“AI 能不能替代一个全能编辑”这个粗问题,而是:哪些环节必须由人判断,哪些环节可以让机器先扫一遍,哪些输出必须回到原文和证据里核验。
一个动作只要能被拆出来,就有可能被训练、被记录、被复盘。它不再只是某位老师傅的手感,而会成为编辑部的组织能力。
02
跨领域不是人的护城河,反而可能是 AI 的入口
原文提到综合性科技期刊编辑的跨领域压力,这一点我非常认同。
一个编辑不可能熟悉所有二级方向。今天处理公共卫生,明天处理材料制备,后天又来一篇人工智能与教育评价交叉的稿件。很多时候,编辑不是完全读不懂,而是读懂了一半:概念能跟上,文章结构也顺,方法名称看起来熟悉,但心里知道,某个细节可能藏着坑。
过去,编辑只能靠长期积累一点点补齐。查综述,翻同类论文,请教专家,慢慢建立这个方向的感觉。这当然必要。但如果把跨领域理解完全理解为人的护城河,就低估了 AI 的入口价值。
跨领域未必是 AI 完全进不去的地方;至少在帮助编辑快速建立问题地图、列出常见方法与风险方面,它已经有进入空间。
AI 不需要变成全科专家。它只要帮助编辑更快进入陌生领域,就已经改变了审读前半段。一篇陌生方向的稿件进来,AI 可以先做初步整理:基本概念、近年常见研究问题、该类研究通常使用哪些方法、外审专家一般会抓哪些毛病、哪些统计处理或实验设计容易出错。但这些提示只能作为入口,仍要回到综述、指南、数据库和专家意见中核验。它也可以把作者的研究问题拆开,检查样本来源、变量设置、分析方法和结论表达之间是否对得上。
更关键的是,它可以帮助编辑提出更像样的问题。
综合性期刊编辑最怕的,不是承认自己不懂某个细分方向,而是不知道该问什么。没有问题意识,初筛就容易退回到格式、重复率、选题是否沾边;送审也容易变成机械分派。AI 如果能把陌生领域的基本地图、常见方法和高频风险先铺出来,编辑进入稿件的速度就会明显变快。
这一步的含义很重。过去,跨领域压力常被用来证明高端编辑稀缺;未来,它也会反过来证明旧式个人积累模式太慢。
当然,AI 整理出来的内容必须核验。它可能混淆概念,也可能把过时做法说成通行做法。但跨领域审读的工作方式已经变了:编辑不再只是独自积累知识,而是在调度知识源、比较证据、追问模型输出。
所谓护城河,未必只在“我知道多少”。真正危险的不是 AI 太强,而是编辑部还把个人经验当免检牌。
03
AI 最可能先重构逻辑链条审读
原文列出的逻辑断裂、方法不当、数据与结论不匹配、讨论过度外推,其中有一部分恰恰适合让 AI 先做提示和预筛,但是否构成实质缺陷仍要由编辑和专家核验。
很多编辑会觉得,这些正是高端审读最核心的地方,怎么能说 AI 适合参与?关键在于,参与不等于裁决。
逻辑链条审读有一大部分工作,是把文本内部的支撑关系拉出来看。摘要提出了什么主张?结论是否重复、缩小或放大了这个主张?方法部分承诺做的分析,结果部分有没有完成?结果支撑到哪里,讨论却延伸到了哪里?研究问题、方法、结果、结论之间有没有断点?
这些检查并不要求 AI 拥有真正的学术裁决权。它更像一个不知疲倦的交叉核对员,可以逐段比对、逐句追问,把可能的断裂位置列出来。
让 AI 检查摘要与结论是否一致,它可以指出摘要说“显著提升”,结论却只保留“可能改善”;也可以发现结论新增了摘要和结果中都没有出现的政策建议。让 AI 检查方法是否支撑结果,它可以追问样本量、对照组、统计检验、变量定义是否足以支撑作者的表达。让 AI 检查结果是否支撑讨论,它可以圈出那些从样本内观察跳到行业普遍结论的句子。
更有价值的是反向质疑。不是让模型顺着作者写一段好听的评语,而是逼它站到反方:如果这篇稿件要被退修,最可能卡在哪里?如果审稿人要质疑,最难回答的问题是什么?如果作者的结论被缩窄,哪些句子必须改?如果审稿意见过于笼统,哪里需要补证据?
这类问题链已经能把不少隐藏风险逼出来。
NEJM AI 2024 年有研究比较了 GPT-4 对论文生成的反馈和人类审稿意见,结果显示二者在部分反馈上存在可比重合,不少研究者也认为这些反馈有帮助。这不能推导出 AI 达到专家审稿水平,更不能说明它能替代正式同行评议。但它足以说明,AI 已经能在论文反馈中碰到一部分真实问题。
编辑部该利用的正是这一点:不要让 AI 说“录用”或“退稿”,让它列疑点。不要让它替专家审稿,让它把逻辑链条中的松动位置暴露出来。
审读不是神秘感越强越高级。能把问题摊开、能让证据说话、能让判断被复核,才高级。
04
“AI 会幻觉”不是拒绝 AI 审读的充分理由
反对 AI 参与审读,最常见也最有力的理由,是幻觉。
这个担心完全成立。AI 会编造参考文献,会误解统计结果,会把没有证据的判断写得像专业意见,也会在没有把握时给出过分确定的回答。更麻烦的是,它的错误往往很像真的。一个编辑如果只是把模型输出复制进审稿意见,风险会比不用 AI 更大。
所以,不能让 AI 直接判稿。
但“AI 会幻觉”并不等于“AI 不能进入审读流程”。这句话如果被当成挡箭牌,就会遮住更重要的问题:AI 应该被放在什么位置。
把 AI 放在判稿人位置,让它决定稿件是否成立、是否录用、是否需要退修,那是越界。把 AI 放在可核验事项生成器的位置,让它做风险枚举、疑点提示、证据回查、交叉校验、审稿意见质量检查,情况就不同了。
它可以提示:“作者第 3 条结论缺少结果支撑。”编辑要回到结果和表格中核验。它可以提示:“参考文献 12 可能只支持背景陈述,不能支撑作者的机制解释。”编辑要去查原文。它可以提示:“作者回复没有正面回答审稿人关于样本代表性的质疑。”编辑要对照审稿意见和回复信。它还可以检查审稿意见本身:有没有只给情绪判断、没有证据;有没有提出无法操作的修改要求;有没有前后矛盾;有没有把个人偏好包装成学术标准。
事实上,审读链条早已被不同类型的工具拆开。iThenticate 可用于文本相似度和可能 AI 写作检测,StatReviewer 可做统计与报告规范初筛,ImageTwin、Proofig 可做图像重复、篡改或 AI 生成图像等风险筛查。它们不都属于生成式 AI,也不等同于 ChatGPT。更准确地说,它们共同说明:审读中的一部分风险发现,已经可以变成可记录、可复核的机器信号。但机器信号不是最终定性,不能把相似度报告直接等同于抄袭,也不能把图像异常提示直接等同于学术不端。
这不是把判断权交给 AI,而是把 AI 输出变成可核查清单。
公共大模型,尤其是不能保证保密、数据不被再利用的第三方工具,不能随便吃稿件,这一点必须讲清楚。ICMJE 要求审稿人遵守期刊政策或先获许可,并维护稿件保密;Elsevier、Springer Nature / Nature Portfolio、Taylor & Francis 等也限制或禁止审稿人把未发表稿件、图片、相关信息或审稿报告交给不受控的生成式 AI 工具。稿件中可能有未公开数据、研究思路、个人信息和学术竞争利益。编辑部如果要使用 AI,通常必须考虑本地化、私有化、授权、日志留存、数据不外流等条件,而不是随手把稿件丢给公共模型。
但这恰恰说明,问题不在于“用不用”,而在于“怎么用”。成熟的做法不是禁用,也不是乱用,而是给 AI 定位。它最适合做风险提示、证据追问和质量检查,不适合做最终判定者。
把幻觉当作拒绝改变的理由,听起来谨慎,实际上可能只是把旧流程继续藏在黑箱里。
05
真正不可替代的,不是知识储备,而是责任化判断
如果把不可替代性建立在“编辑知道得比 AI 多”上,这个基础会越来越不稳。
编辑当然还需要知识储备。没有知识储备,就不知道模型哪句话可疑,也不知道该追问什么。但未来真正不可替代的编辑,未必是独自记住最多知识点的人,而是知道怎样向 AI 提问、哪些输出不能信、什么时候必须转给专家、怎样核验证据、怎样结合期刊定位、学术伦理和发表风险作决定的人。
这类编辑的核心能力,不是把自己变成百科全书,而是把审读变成一条可追责的判断链。
他要知道,题名和摘要不一致,是退修问题还是表达问题;方法支撑不了结论,是需要补充分析,还是已经伤到研究设计;图像或统计工具给出异常信号,是要求作者提交原始材料,还是启动出版伦理流程;AI 提出的疑点,是模型误读,还是稿件真的有断点;外审意见过于笼统时,是请审稿人补充依据,还是由编辑部再做一次定向核查。
这才是责任化判断。
它不是一句“我觉得可以”,也不是一句“AI 说有问题”。它要求编辑能解释自己的处理意见:依据是什么,证据在哪里,哪些问题已经核验,哪些问题交给专家,哪些风险需要作者回应,哪些判断最终由编辑部承担。
这也会倒逼编辑部改变人才培养方式。过去培养高端审读编辑,很容易变成“跟着老师傅学”。能学多少,取决于个人悟性,也取决于有没有机会接触复杂稿件。未来,编辑部更应该把高手的判断方式沉淀下来:问题清单、提示词库、案例库、作者回复审查模板、专家分流规则、工具使用边界、复核记录。
别再把“万里挑一”只理解为个人天赋。真正稀缺的,是一个编辑部能不能把高水平审读从个人能力变成组织能力。
高端审读编辑当然稀缺,但稀缺不应成为拒绝重构的理由。AI 替代不了一个负责任的编辑,却正在接管或前置处理一部分过去高度依赖人工敏感性的审读动作。
把不可替代挂在嘴边,可能只是旧流程不愿被颠覆。编辑不需要因为 AI 变强而恐慌,但也不能再用“AI替代不了”给自己免检。
参考资料
1. NEJM AI, “Can Large Language Models Provide Useful Feedback on Research Papers? A Large-Scale Empirical Analysis” (2024). https://ai.nejm.org/doi/full/10.1056/AIoa2400196
2. ICMJE, “AI Use by Reviewers”. https://www.icmje.org/recommendations/browse/artificial-intelligence/ai-use-by-reviewers.html
3. Elsevier, “Generative AI policies for journals”. https://www.elsevier.com/about/policies-and-standards/generative-ai-policies-for-journals
4. Nature Portfolio, “Artificial intelligence (AI)”. https://www.nature.com/nature-portfolio/editorial-policies/ai
5. Taylor & Francis, “AI policy”. https://taylorandfrancis.com/our-policies/ai-policy/
6. iThenticate. https://www.turnitin.com/products/ithenticate/
7. StatReviewer. https://www.statreviewer.com/
8. ImageTwin. https://imagetwin.ai/
9. Proofig. https://www.proofig.com/
夜雨聆风