这是本号的常规环节了。上一期"7个AI工具实测对比"收获了800+阅读,说明大家最关心的还是:到底哪个工具写材料最靠谱?
半年过去,每家都更新了。DeepSeek出了V4-Pro+降价,通义千问升到了Qwen3.7-Max,文心一言也到了4.0。刚好赶上这波更新,我重新跑了一轮公文场景的实测。
测试方法
测试模型
四个测试场景
- 通知
— 最基础的文种,考察格式规范和简洁度 - 年度总结
— 最常见的材料,考察逻辑组织和亮点提炼 - 调研报告
— 最考验深度的材料,考察信息整合和分析能力 - 领导讲话稿
— 最体现"人味"的材料,考察语言风格和分寸感
评分标准
每项满分10分,权重:
内容质量(40%):逻辑清晰度、信息密度、实用价值 格式规范(20%):公文格式、政治表述准确度 语言自然度(20%):是否"一眼假" 效率(20%):需要修改的轮次、生成速度
场景一:通知
Prompt
请起草一份关于召开"2026年上半年经济运行分析会"的通知。
要求:正式公文格式,包含会议目的、时间地点(用XX占位)、参会人员、会议议程、有关事项。
结果
DeepSeek V4-Pro:格式标准,主送机关、正文、落款完整。会议议程自动拆成了3项(通报、汇报、部署),逻辑合理。唯一的不足是"有关事项"部分稍嫌啰嗦。
评分:9/10 修改:删掉一行废话即可。
通义千问Qwen3.7:格式同样标准,但正文部分出现了一个问题——把"经济运行分析会"写成了"经济运行分析座谈会",一字之差,文体全变。分析会是务实的、座谈会是务虚的。
评分:7/10 修改:需要手动纠正文体偏差。
文心一言4.0:格式最完整,甚至自动生成了"联系人及电话"占位符。但正文有明显的套话冗余:"为深入贯彻落实...精神,经研究决定..."——这句放了任何通知都能用,但对"经济运行分析会"来说太重了。
评分:8/10 修改:删掉过度修饰的开头。
场景一小结:
三家的通知写作能力都在线,差异在于"简洁度"。DeepSeek最克制,通义千问容易跑偏文体,文心一言喜欢加戏。
本场景推荐:DeepSeek > 文心一言 > 通义千问
场景二:年度总结
Prompt
请撰写一份"2026年上半年XX市发改委工作总结"初稿。
素材:主要工作包括经济运行监测、重大项目推进、价格调控、能源保供。
要求:3000字左右,结构完整,有数据占位符,亮点突出,问题分析有深度。
结果
DeepSeek V4-Pro(R1-0528推理模式):
亮点突出是最大优势。自动把"经济运行监测"拆成了"月度分析+季度预测+专题报告"三层结构,每层都有具体做法和预期效果。问题分析部分也相对走心——指出了"监测预警灵敏度有待提升"这个具体问题,而不是泛泛的"工作力度不够"。
评分:9/10 修改:基本可以直接用,补充真实数据即可。
通义千问Qwen3.7:
让我意外的是,Qwen3.7在深度分析上表现不错。"重大项目推进"部分自动分成了"前期工作、在建管理、竣工投产"三个阶段,逻辑清晰。但"价格调控"部分写得像发改委的工作计划,而不是工作总结——总结应该写"做了什么",它写成了"要做什么"。
评分:8/10 修改:价格调控部分需要重写,时态错误。
文心一言4.0:
最"安全"的选择。结构稳、表述准、政治正确性高。但四平八稳到有点无聊——"经济运行总体平稳""项目建设有序推进""价格水平基本稳定""能源保障有力有效"——全是标准表述,看不出哪个是重点。
评分:7/10 修改:需要手动注入"人味"和重点差异化。
场景二小结:
DeepSeek在"有思想的写作"上继续领先。通义千问有进步但细节容易翻车。文心一言安全但平庸。
本场景推荐:DeepSeek > 通义千问 > 文心一言
场景三:调研报告
Prompt
请撰写一份"关于优化营商环境降低企业制度性交易成本的调研报告"框架和初稿。
要求:
1. 包含调研背景、现状分析、存在问题、对策建议四部分
2. 问题分析要有深度,不能停留在"办事难、办事慢"层面
3. 建议要具体可操作,不能全是"加强领导""提高认识"
结果
这是四个场景中最考验AI"真功夫"的。
DeepSeek V4-Pro:
自动梳理了制度性交易成本的五个来源:①行政审批的时间和合规成本、②中介服务成本、③信息获取成本、④跨部门协调成本、⑤政策不确定带来的隐性成本。
这个分析框架本身就已经有点调研报告的意思了。对策建议也匹配了这五个维度,不是泛泛的"简政放权"。
评分:9/10 修改:框架可用,需要补充真实案例和数据。
通义千问Qwen3.7:
分析逻辑上有一个亮点——把问题分成了"显性成本"和"隐性成本"两类,显性是审批时效、中介费用等可量化的,隐性是政策预期不稳定、部门间信息不对称等不可量化的。这个分类思路不错。
但建议部分明显乏力,基本回到了"优化流程、精简材料、压缩时限"的老三样。
评分:8/10 修改:分析框架好,建议部分需要重写。
文心一言4.0:
最大的问题:它把"调研报告"写成了"工作总结"。全篇没有调研方法、调研对象、数据来源的交代,直接就是"经过调研发现"——这不符合调研报告的基本规范。
建议部分更是典型的老干部体:"一要提高政治站位,充分认识优化营商环境的重要性..."。
评分:5/10 修改:文体跑偏,需要大改。
场景三小结:
这个场景拉开了差距。DeepSeek在深度分析上的优势最明显。通义千问有思路但执行打折。文心一言在"非典型公文"(调研报告不是标准公文文种)上表现明显吃力。
本场景推荐:DeepSeek > 通义千问 >> 文心一言
场景四:领导讲话稿
Prompt
请撰写一段县级领导在"乡村振兴工作推进会"上的讲话稿(500字左右)。
要求:
1. 语言要有感染力和号召力,但不能空洞
2. 要有具体的工作部署,不能全是"要提高认识"
3. 语气符合县级领导身份,不能太文绉绉,也不能太随意
4. 内嵌2-3个"接地气"的表述(老百姓听得懂的话)
结果
DeepSeek V4-Pro:
最接近"人话"。开头没有"同志们"之后的三段论,而是直接切入:"刚才农业农村局把前5个月的数据摆了一下,好的我不重复了,说三个问题。"
然后三个问题分别用"账要算清楚""路要找对""人要用好"三个口语化标题串联,接地气但不失分寸。
评分:9/10 修改:微调即可。
通义千问Qwen3.7:
出乎意料地好。也用了口语化的推进方式,而且自动识别了"县级领导讲话"的语境——没有用太多中央文件语言,而是偏重执行层面。
唯一瑕疵:有一处"必须牢固树立..."的表述,打断了前面建立的口语化节奏。
评分:8/10 修改:删除一处突兀的书面语即可。
文心一言4.0:
满屏的"同志们"。三段式标准结构,每段都是"一是...二是...三是..."。语言工整但对仗痕迹太重,不像是领导在讲话,像是宣传部的通稿。
评分:6/10 修改:需要注入口语化表达,打破三段式结构。
场景四小结:
讲"人话"这件事上,DeepSeek和通义千问都有明显进步。文心一言依然困在"宣传稿"的壳里出不来。
本场景推荐:DeepSeek > 通义千问 > 文心一言
综合排名
最终建议:选工具要看场景
如果你主要写通知、简报、简单汇报 → 三家都行,用你最顺手、最安全的那个。
如果你经常写调研报告、深度分析 → DeepSeek是唯一选择,差距已经拉大。
如果你写领导讲话稿 → DeepSeek和通义千问都可以,文心一言暂时不适合这个场景。
如果你最在意安全性和合规性 → 文心一言/通义千问(国产大厂)+ 配合人工审校。
如果你追求性价比 → DeepSeek V4-Pro降价后,写再多也不心疼。
下期预告:一个真实案例——领导下午通知明天要调研报告,我用AI+搜索组合拳,3小时搞定了3天的工作量。附全套模板。
所有测评基于2026年5月30日各模型最新版本,实际效果可能因Prompt、使用场景、模型更新而有所不同。
夜雨聆风