
一个关于“洞见.skill”的小实验:不追求把 AI 写得更漂亮,只想让它更难糊弄人。
最近我做了一个很小的尝试。
它是一个出于兴趣做出来的实验。我想看看,能不能把“洞见”这种听起来很玄的东西,拆成一些可以被检查、被复现、被反驳的动作。
作为一个还在进入经管研究训练的人,我越来越感觉到,AI 现在最容易给人的错觉,不是“它什么都不会”,而是“它好像什么都懂”。
它能把一件事讲得完整、温和、平衡、漂亮。它知道该承认复杂性,知道该给出建议,知道怎么避免冒犯,也知道怎么把一句普通话说得像一段成熟思考。
但问题恰恰在这里。
很多 AI 回答不是错,而是太安全。它们像一个读过很多书但不愿下注的人:什么都知道一点,什么都承认一点,最后给你的却是一段不会改变判断的合理话。
它会说:研究要有理论意义和现实意义。爱情既需要激情,也需要责任。市场既有效率,也会失灵。人生要找到自己的价值。
这些话不一定错。但它们往往没有真正回答问题。它们没有告诉你,真正的问题是什么;没有说明现象是如何产生的;没有指出最危险的反方;没有告诉你什么情况下这个判断会失败;更没有给出一个能改变行动的判据。
这就是我想做 dongjian-insight 的原因。
我不想再写一个让 AI 更会说漂亮话的 prompt。我更想做一个让 AI 更难逃避判断的 skill。
GitHub 开源地址
https://github.com/DerekLeeC/Dongjian-Insight.skill.git
一、我所理解的“洞见”,不是金句
“洞见”这个词很容易被滥用。
有时候,它被用来包装名人语录。有时候,它被用来包装哲学腔。有时候,它被用来包装一种高级确认偏误:你本来就想相信什么,AI 就用更好听的话帮你相信。
所以我先给它一个很窄的定义:
洞见不是听起来深刻,而是能改变判断边界的解释。
一个回答要配得上“洞见”二字,至少要做几件事:重构问题,识别隐藏预设,说明机制,提出强反方,交代边界,并给出可检验判据。
换句话说,洞见不是更响亮的判断,而是更难逃避的判断。
二、这个 skill 到底做什么?
dongjian-insight 的目标很简单:让 AI 在回答重大问题时,不许直接滑向套话。
它默认要求回答经历一组关卡:
真正的问题是什么?
这个问题里藏着哪些预设?
现象是通过什么机制产生的?
最强反方会怎么攻击?
这个判断在什么情况下不成立?
如果这个判断是对的,我们应该观察到什么?
这套东西听起来不神秘,甚至有点笨。但正是这种“笨”,能抵抗 AI 最常见的聪明病:语言很顺,判断很软;姿态很成熟,机制很空。
比如问“什么样的研究值得做?”普通回答很容易说:重要、有创新、有数据、有方法、有现实意义。
这没错,但还不够。
这个 skill 会逼迫回答进入更硬的层面:这个问题是否存在真实张力?有没有证据路径能区分不同解释?这个题目在可预见时间内能否形成可积累的方法资产?如果不能,它可能只是一个重要但不值得重押的题目。
这就从“价值宣言”变成了“投入判据”。
三、我做了一个小规模实验
为了避免只是自我感觉良好,我做了一个小规模对照实验。
实验包含 15 个跨领域元问题,覆盖学术研究、认识论、理性、自由、爱情、人生、正义、国家、市场、科学、数学、技术、历史、艺术与死亡。
每个问题生成两组回答:一组是普通 baseline,不使用 skill;另一组使用 dongjian-insight。
然后做两类评分:结构分满分 30 分,检查回答是否包含问题重构、隐藏预设、机制、反方、边界、预测或行动判据等最低结构;匿名盲评实质分满分 70 分,由评审看匿名答案,不看系统标签。
这个结果很明显,但不等于“AI 已经能产生伟大思想”。
更准确的结论是:在这个小样本实验里,dongjian-insight 明显提高了若干洞见代理指标,尤其是问题重构、机制意识、反方意识、边界意识和行动判据意识。
它不能保证伟大洞见。但它能降低 AI 退化为套话、迎合、折中和伪深刻的概率。
四、真正的发现不是分数,而是退化路径
这次实验让我更清楚地看到,大模型“变钝”的方式,往往不是不知道,而是不承担风险。
它知道太多安全答案。它知道面对宏大问题时该说“复杂”。面对价值问题时该说“平衡”。面对人生问题时该说“每个人不同”。面对学术问题时该说“理论意义与现实意义”。
这些话都可以成立。但它们最大的问题是:不改变任何东西。
真正有用的回答必须承担风险。它必须敢于说:这个问题其实问错了;你真正需要比较的是这两个机制;这个判断只在这些条件下成立;如果出现某种证据,我会改口。
这才是我理解的洞见:不是给人一种“被理解”的舒适感,而是让人看见自己原本想回避的约束。
五、这会不会只是格式游戏?
当然可能。
如果评分标准本来就奖励“机制、反方、边界”,而 skill 正好要求这些结构,那么它当然更容易得高分。
如果 skill 组回答更长,它当然更容易显得完整。
如果评审天然偏好结构化文本,分数也可能被形式抬高。
所以这个实验不能证明 dongjian-insight 真的“产生了洞见”。它证明的是更有限的东西:当我们把洞见拆成一组可观察动作时,skill 能提高这些动作出现的频率,并且这种提升在匿名盲评中仍然能被感知到。
结构不是质量本身。结构是避免低级退化的最低纪律。
六、为什么这件事对科研尤其重要?
因为科研最怕的不是没有想法,而是被一个看似成熟的想法骗住。
一个题目听起来重要,不代表值得做。一个数据看起来新,不代表有理论贡献。一个回归跑出显著,不代表回答了问题。一篇文章结构完整,不代表它真的有机制。
很多研究失败,不是失败在最后,而是失败在最开始:问题没有被重构,理论张力是假的,证据路径不能区分解释,作者却已经开始写论文。
所以我希望 dongjian-insight 不只是一个“生成深刻回答”的工具,而是一个科研判断的刹车系统。
当你兴奋地提出一个选题,它应该问你:真正的问题是什么?这个问题如果被回答,谁的理解会改变?你识别的是机制,还是只是换了一个语境?如果结论反过来,你的数据能看出来吗?这个题目值得 all-in,还是只值得做成一个练习?
这些问题不舒服。但科研里有价值的工具,往往不是让人更舒服,而是让人更早停止自欺。
七、欢迎来体验
因为“洞见”如果不能被审查,就会很快变成另一种神秘主义。
我不希望这个 skill 变成一个黑盒:你输入问题,它吐出一段看似高明的话,然后你不知道它为什么这么说,也不知道什么时候该怀疑它。
我把 skill、benchmark、实验数据、盲评材料、评分脚本和论文都打包开源。
你可以看它怎么工作。可以跑它的结构评分。可以复现实验结果。可以改 benchmark。也可以设计更严格的反例。
一个真正想追求洞见的工具,必须允许别人攻击它。
八、但它现在还不够好
当前版本至少有四个明显不足:
第一,实验样本只有 15 个问题。
第二,skill 组回答更长,长度可能影响评分。
第三,评分标准和 skill 设计存在同源性。
第四,目前测试的仍然是文本质量,不是真实后验。
真正严格的下一步,应该是长度匹配、多模型复现、外部人类评审、holdout 问题,以及真实任务追踪。
比如让它评估一个研究选题,三个月后看它是否真的帮你减少误判;让它审查一篇论文,返修后看审稿人是否真的认可;让它参与一个现实选择,过一段时间看它是否帮你看清关键约束。
洞见最终不是文本质量,而是判断质量。
最后
AI 时代最便宜的是答案。
最贵的是判断。
而判断最难的部分,不是说出一个观点,而是承认这个观点会在什么情况下失败。
dongjian-insight 不是为了让 AI 显得更聪明。它是为了让 AI 和使用者都更难逃避问题本身。
它不负责制造天才。它只负责制造一种压力:让一句话必须面对机制、反方、边界和证据。
这只是一个很小的尝试,也肯定还有很多不成熟的地方。但如果它能让我们少一点漂亮废话,多一点可被攻击、可被修正、可被复现的判断,那它就已经值得继续迭代。
项目地址
https://github.com/DerekLeeC/Dongjian-Insight.skill.git
欢迎试用、复现、修改,也欢迎直接指出它哪里不行。一个不能承受反驳的洞见工具,本身就不值得相信。
夜雨聆风