AI 科研助手的关键课:让假设先打起来

AI 科研助手的关键课：让假设先打起来

AI 科研助手真正值得普通人学习的地方，在于它能把多个假设放到同一个场里竞争：先生成，再挑刺，再排序，再拿证据验证。那个看起来完整的答案，反而没那么重要。

这件事听起来像科研流程，其实很适合迁移到日常知识工作。

写方案、做调研、判断产品路线、分析一次数据异动，我们经常犯同一个错误：太早相信第一个顺口的解释。AI 一旦被当成“答案机器”，只会把这个错误放大。

更好的用法，是把 AI 当成一个假设组织器。

高级的 AI 工作流，不急着回答。它先让可能性彼此竞争。

先看机制

DeepMind 最新的 Co-Scientist 很适合拆开看。

它不是让一个模型从头写到尾。它把科研假设拆成一组角色：有的负责生成初始假设，有的负责把假设聚类，避免大家都挤在同一条路上；有的扮演虚拟审稿人，专门检查正确性、质量和新颖性；有的通过成对比较和模拟辩论，把更有前途的方向排到前面；还有角色继续组合、演化高排名假设。

背后还有一个 supervisor agent，负责把高层研究目标拆成可执行步骤，并行探索不同路径。

这套设计里，最值得学的是“假设有生命周期”。

一个想法不是从 prompt 里冒出来就算数。它要经历四件事：

1. 能不能生成足够多的候选。
2. 能不能主动找弱点。
3. 能不能和其他候选比较。
4. 能不能被实验、数据或外部证据压一遍。

科研里叫 hypothesis generation。放到公司里，就是方案池、反例池、优先级和验证计划。

反例更值钱

OpenAI 的离散几何案例给了另一个提醒：AI 的价值不只在“补全证明”，也可能在寻找反例。

这个问题来自 Erdős 的单位距离问题：平面上放 n 个点，最多能有多少对点之间距离正好为 1。很长时间里，社区普遍相信一类“接近方格”的构造已经差不多到头。OpenAI 的内部通用推理模型给出了反例构造，外部数学家检查了证明，并有配套说明文章解释它的数学意义。

这里要压住兴奋感。

数学场景有一个特殊优势：命题精确，证明能被检查，错误会在链条里暴露。模型找到反例很重要，但这个重要性建立在可验证性上。换到战略判断、用户心理、组织协作、商业竞争，很多结论没有这么硬的验算器。

AI 给出反例时，真正有价值的地方在于：它把我们的默认假设拖到了证据面前。

普通人用 AI 做调研，也应该把“找反例”提前。

别只问：

• “帮我写一个方案。”
• “这个方向有什么机会？”
• “帮我总结这篇报告。”

改成：

• “列出三个互相冲突的解释。”
• “每个解释最可能被什么证据推翻？”
• “如果这个方案失败，最可能死在哪个前提上？”
• “给我找一个能让当前判断失效的反例。”

这会让 AI 从顺着你说话，变成帮你拆掉过早成型的判断。

排序要公开

Co-Scientist 里有一个很重要的设计：idea tournament。

它没有停在简单打分，而是让假设成对比较，经过辩论和排序，再把表现好的假设继续演化。这个机制迁移到知识工作里很直接。

写产品方案时，不要只让 AI 给一个“最佳方案”。让它先给 5 个方向，每个方向写清楚：

• 核心假设是什么。
• 依赖哪些事实。
• 最大反例是什么。
• 成本在哪里。
• 成功后会带来什么变化。
• 失败后最早会出现什么信号。

然后再让它做成对比较。

A 相比 B，赢在哪里？输在哪里？如果资源只有两周，谁更值得先做？如果目标从增长换成留存，排序会不会变？如果数据质量很差，哪个方案最容易被误判？

这个过程比“让 AI 打分”更可靠一点，因为它把排序理由摊开了。

排序本身不是结论，排序理由才是可复用资产。

你会发现，很多方案看起来都对，直到被迫两两比较，真正的差别才会浮出来：有的方向只是描述漂亮，有的方向证据更近；有的方向想象空间大，但验证成本高；有的方向回报一般，却能最快排除关键不确定性。

别外包利益

Microsoft 的 SocialReasoning-Bench 适合给所有“AI 代理”降温。

它跳过了“模型会不会完成任务”这个表层问题，直接测代理在替用户和别人协调时，能不能争取用户的利益。研究里有两个场景：日程协调和市场谈判。结果很刺眼：模型通常能把任务办成，但经常接受次优会议时间或糟糕价格。防御性提示能改善表现，但补不上全部差距。

这对普通人使用 AI 很关键。

一个代理帮你“约到了会”，不代表它帮你约到了对你最合适的时间。它帮你“谈成了交易”，不代表它守住了你的底线。它帮你“写完了方案”，也不代表它保住了你的利益、风险和长期关系。

Microsoft 用 Outcome Optimality 和 Due Diligence 区分结果质量和过程质量。翻译成日常语言，就是两件事：

• 结果有没有替你拿到应得的价值。
• 过程有没有先查信息、先争取、再让步。

这套判断也适用于 AI 科研助手。

Co-Scientist 明确说自己是科研伙伴，不是科学或临床专业判断的替代品，用户要为基于输出做出的决定负责。这个边界不能省。

工作流怎么搬

真正可迁移的流程，可以压成五步。

第一步，先生成候选假设。

不要让 AI 直接写最终答案。让它给出多个互相有张力的解释或方案，并标出每个假设解决的具体问题。

第二步，给每个假设找反例。

让 AI 主动写“什么证据会推翻它”。如果一个假设找不到反例，通常说明它太空，并不说明它更强。

第三步，组织辩论和排序。

让不同假设互相攻击，再按目标、成本、证据距离、失败信号排序。排序标准要写出来，不能只给名次。

第四步，设计最小验证。

科研里是实验和文献证据。业务里可能是 20 个用户访谈、一段日志、一组埋点、一个灰度实验、一次销售复盘。关键是让证据来压假设。

第五步，保留人的判断。

人负责定问题、定边界、定价值取舍。AI 可以扩展搜索空间，也可以暴露盲点，但不能替你决定什么值得做。

用在今天

如果你今天要写一份产品方案，可以直接把 prompt 改成这样：

“请不要直接给最终方案。先列出 5 个互相冲突的产品假设。每个假设说明适用场景、关键前提、最大反例、最小验证方式和失败信号。然后组织一轮两两比较，按两周内可验证性排序。最后给出你建议我先验证的两个方向，并说明排序理由。”

如果你要做行业调研，可以这样问：

“请围绕这个行业变化给出 4 个解释模型。每个模型都要列出支持证据、反证证据、缺失数据和最容易误判的地方。最后给出一个证据矩阵，而不是直接下结论。”

如果你要分析一次数据异动，可以这样问：

“请列出 6 个可能原因，按产品变更、渠道变化、统计口径、用户结构、季节性和外部事件分组。每个原因给一个能快速排除的查询或观察点。先不要写结论。”

这才是 AI 科研助手带给普通人的启发。

少问“答案是什么”。多问“有哪些假设在竞争，哪个最经得起反驳”。

当 AI 能帮我们把这个循环跑起来，它才真正进入工作流。否则，再流畅的回答，也只是把第一个想法包装得更像结论。

参考资料

• Google DeepMind, Co-Scientist: A multi-agent AI partner to accelerate research: https://deepmind.google/blog/co-scientist-a-multi-agent-ai-partner-to-accelerate-research/
• OpenAI, An OpenAI model has disproved a central conjecture in discrete geometry: https://openai.com/index/model-disproves-discrete-geometry-conjecture/
• Microsoft Research, SocialReasoning-Bench: Measuring whether AI agents act in users' best interests: https://www.microsoft.com/en-us/research/blog/socialreasoning-bench-measuring-whether-ai-agents-act-in-users-best-interests/