上次那份"完整报告",你敢直接签字吗?
你把几十页材料塞给 AI,拿回来一份"完整报告"。
你敢直接在上面签字吗?
不管你做的是合规审查、行业研究还是投资判断——这个问题都一样。
前一阵子,我做一个新能源大储行业的研究,要把商业模式(调峰补偿、调频收益、现货交易等)、估值逻辑、政策走向和竞争格局全部摸清楚。
我把能找到的材料整理出来——监管文件、行业报告、上市公司公告、券商研报,加起来几十万字,全塞进了 NotebookLM。
窗口够大,材料够全,每句话都有出处。
我觉得这次稳了。
结果核对到中间部分的时候,手停住了。
模型把一条关键的监管口径变化漏掉了。
不是附件里的边角料——这条政策直接影响整个赛道此后的游戏规则。漏了它,整份报告的核心判断方向就是反的。
我后背出了一层冷汗。这份东西距离交给决策层只差最后一步。
01 一个反直觉的事实:开卷考试,可能不如闭卷

这个故事的根源,是一个 2023 年就被学术研究验证了的现象——
Liu et al. (2023) 提出的 “Lost in the Middle”(迷失在中段)效应。
研究的核心发现很反直觉:
当关键信息埋在长文档的中段时,模型的表现,甚至不如不给文档直接回答。
换句话说——
“开卷考试"的效果,可能不如"闭卷考试”。
这不是比喻,是数据。
02 为什么越多反而越笨?
注意力稀释:固定预算原理
Transformer 架构里,注意力资源是固定的。
你喂进去的文本越长,每个 Token 能分到的注意力就越少。
当低价值文本占据大量上下文,关键信息就会被噪音稀释——就像往一杯清水里不停地加沙子,最后你分不清哪部分是水哪部分是沙。
位置偏差:中间的信息被系统性忽略
即便模型没有"主动忽略"中段内容,2026 年的最新研究依然显示:
模型对文档开头和结尾的信息,优先处理;中间部分,系统性弱化。
这不是 bug,是架构特性。
平台截断:你以为的"全量",可能只是片段
部分 AI 平台在底层会截取内容作答,但不告知用户。
你以为全量输入,模型实际上只看到了前 N 万字。
“文件可能太大,无法获得最佳结果”——这类提示,大多数人选择忽略。
03 三个你正在犯的错
误区一:资料越全,风险越低
直觉:材料多 = 覆盖全 = 遗漏少
实际:资料繁杂会引入更多噪音,关键信息被稀释,误判概率反而上升
全 ≠ 准。数量不能替代质量。
误区二:先全量喂入,再让模型找
直觉:一顿饭吃饱比饿着强
实际:把筛选责任完全外包给模型,等于放弃了人该做的事——判断什么重要、什么不重要
模型擅长推理,不擅长主动"发现"。你的判断前置,模型的输出才能聚焦。
误区三:检索命中 = 任务完成
直觉:找到相关材料,AI 就该用好它
实际:命中 ≠ 被正确使用。检索把材料拉回来了,推理照样可能错位。
04 踩坑之后,我留下的工作流程

第一步:先清洗,再分层喂
不是一上来就问"帮我分析"。
起手永远是格式整理——不管材料是从数据库导出、手动下载还是同事发来的,先做物理清洗:
去页眉页脚、扫描噪点、重复模板段 PDF、Word、扫描件统一转成结构化 Markdown 给每份文件加最小标签:文档名、来源机构、发布日期、文件类型
这一步看起来笨,但它是所有后续环节的地基。
第二步:先产出"材料盘点",再开始分析
清洗完不要一股脑塞进去。
让模型先跑一轮粗筛,产出我叫做**“材料盘点”**的中间产物,只回答四件事:
第三步:短回合推进,不追求一轮出结果
避免超长对话。
每轮只推进一步,落盘状态摘要:当前目标、已确认证据、悬而未决点、下一步计划。
结论可验证:每条结论标注原文页码或文件名,确保 30 秒内可追溯来源。
写在最后:不是 AI 不够聪明,是你喂的方式错了
这套流程不是为了"让 AI 更聪明"。
是为了在你签字之前,让自己的判断有据可查。
你得知道每份材料为什么在这里,它能证明什么。
我后来养成了一个习惯:每次往上下文加东西之前,先问自己三个问题——

这份新材料,能改变当前决策吗?不能,不加。 它会引入一套新术语体系吗?是,先做术语对齐再加。 加它纯粹是为了心安吗?是,先不加。
这三个问题,比我最初以为的要深。
它不只是上下文管理的技术问题,它是一个关于判断力在复杂系统里如何维持的问题。
下次让 AI 分析那份最长文档的时候,翻到中间位置问一下自己:
那一页的关键信息,出现在最终输出的报告里了吗?
夜雨聆风