ai发展之我见-夜雨聆风

ai发展之我见

很久不更新了，前段时间本人身上出现了一些变故，公众号也面临很多危机。现在恢复了最初的名字也不会再改名。我想不应该忘记公众号设立的初衷，也谨以此表达对故人的缅怀和不忘初心的决心。

最近很多人都从对 AI 的便利和兴奋，开始转向对 AI 的恐惧和自我怀疑。AI 的发展太快了。24 年初的时候，它可能还主要是在编文献、写代码，但代码质量一团糟；到了 24 年底到 25 年，代码能力已经明显变强；到了 25–26 年，写代码基本已经可以直接用了，甚至出现了 Codex、Claude Code 这种可以直接改代码、跑项目的工具。至于编文献、写论文这种，它带来的幻觉虽然还有，但整体看起来已经好了很多，至少不再是完全不可用。

但这不是最可怕的。以上这些能力本来就是大家希望 AI 能做到的：帮人写代码、查资料、整理文献、润色论文、提高效率。我一开始以为 AI 想出的 idea 可能只是普通idea。但我自己的经历让我产生了动摇。以上这些ai做的好，是应该的，人类也希望它能做好。但是ai的发展愈发恐怖。身处科研圈，ai可以提出idea到实现到更正再到写论文都可以做到了。当然不同ai有它的优劣势。可能很多人觉得ai想出的idea能是什么好的idea，我之前也这么想，我那时已经中了一篇我自己idea写的论文，那篇我写了好几个月，投了顶刊，进展顺利。但是直到我用ai帮我很多的idea以及验证然后一个月的时间就投了第二篇顶刊居然进展很顺利。这让我大吃一惊。在欣喜之余，我更多的是害怕，恐慌，难道科研也要被ai取代了吗？

但为什么我这篇就可以，同样是用ai，我的两个同门却一个被末流sci桌拒四次才终于送审，另一个更是被连系统都没有的中文期刊桌拒。后来我慢慢意识到，差别可能不在于“有没有用 AI”，而在于人给 AI 的方向场不同。虽然看起来都是“把论文给 AI，让 AI 提创新”，但我输入给 AI 的不是空泛的“帮我做一个xxxx的创新”，而是一个已经带有我个人倾向和研究背景的问题空间：我喜欢s什么；我做的是什么；我对什么感兴趣，但又不想完全变成s什么；我希望方向能更怎么样，也希望未来能和什么方向靠近。

这些偏好看起来像运气：我正好喜欢黎曼，而黎曼几何和我现在的方向确实能结合。但这不完全是运气。它其实决定了 AI 会在什么范围内搜索。别人可能问 AI 点线融合，AI 给他的就是“加权、鲁棒核、自适应融合”；而我因为一直把问题往黎曼、流形、结构方向、概率建模上拉，AI 输出的东西也会自然往这个方向靠。所以它不是凭空自己想出来一个完全独立的研究方向，而是把我已有的兴趣、知识碎片、实验背景和外部文献中的相似结构连接起来，组织成一个更系统、更像论文的框架。

我平时和 AI 对话时，也不是它说什么我就全部接受。很多时候 AI 给我一个建议，我会反复追问：为什么这样？这个实验公平吗？这个 baseline 合适吗？z这个为什么有效，那个为什么不明显？这个是不是只是包装？这个方向是不是太散？有时候聊了几个回合以后，我会说：“我还是坚持某某方向。”这其实也是一种筛选。它不是很显性的“AI 给我十个方案，我选一个”，而是更隐性的方向控制：我不断把 AI 拉回我想要的主线，不让它发散到完全不适合我的方向。

所以我现在更能理解：AI 像一个助手，或者说像一个外接大脑。它把我脑子里还没有成系统的知识、兴趣、实验经历、方向偏好，结合它自己的知识面和检索能力，整理成一个看起来更合理、更系统的研究框架。它确实提供了大量生成、连接、表达和实现能力，但它不是完全在真空里自己创造。它更像是把我的碎片化思想系统化，把我的方向感放大。

不过，这并不意味着 AI 不强。恰恰相反，AI 很强。它不仅能想 idea，还能把一个 idea 解释得非常完整：变量怎么定义、目标函数怎么写、实验怎么做、审稿人会怎么质疑、如何回应。比如它现在也能提出“把观测、结构、位姿、标定参数和不确定性都放到不同黎曼流形上，构成一个乘积流形上的SLAM 框架”这种听起来很像数学重构的 idea。这说明 AI 并不是完全不能做建模。

但是我现在逐渐明白，AI 能给出一个完整解释，不等于这个解释是真的、必要的、重要的、值得做的。AI 很容易把任何一个方向讲得像真的，甚至讲得很漂亮。但科研真正难的地方不是“把故事讲圆”，而是判断这个故事是不是抓住了问题本质。比如“所有变量都放到黎曼流形上”听起来高级，但要追问：哪些变量真的必须放到流形上？哪些只是普通欧氏参数？这样做比普通PGO 强在哪里？它能解释什么失败现象？能不能提出可验证预测？如果实验不支持，说明什么？

这就是建模和写代码的区别。写代码更多是在已有模型下，把模型翻译成可执行步骤；建模是在更前面决定问题应该怎样表示，哪些变量重要，哪些变量该舍弃，目标函数应该优化什么，评价指标能不能代表真实目标。代码有明确输入输出，能不能编译、loss 降不降、ATE 降不降，这些反馈很快。而建模的反馈很慢，甚至有时候几年后才知道这个方向是不是有长期价值。

围棋 AI 的例子也说明了这个问题。围棋虽然变化极多，但它是一个封闭系统：棋盘固定，规则固定，选择有限，最终目标就是赢。AI 可以通过大量自我对弈，发现人类高手想不到的招式。这个例子证明 AI 确实能突破人类思维定势。但现实科研不是围棋。科研的目标不是一个“赢”字。一个 SLAM 算法好不好，不只看 ATE，还要看泛化、鲁棒性、runtime、baseline 公平性、真实系统可用性、理论解释、失败边界、是否适合未来发展。最关键的是以上这些都满足了也不能完全判断这个系统没有问题，如果有限个确定性指标能决定，那我倒觉得ai一定可以做到。但不是这样，有些很底层的逻辑，ai是没有的，但只靠数据学习和指标筛选，并不能完美，科研的选择空间也不像围棋只有 361 个落子点，它几乎是无限开放的。如果没有人先框定问题，AI 可以发散出无数看起来合理的组合，但很难天然知道哪个最值得做。

我有一段时间几乎天天都在思考这个问题。最后我逐渐觉得，科研可能仍然需要人的引导，只是这个引导会变得越来越容易，彻底取代却没有那么简单。AI 的方向天然是发散的，如果是工程创新，有一个明确指标可以快速验证，那它确实可以无限试错，就像 AlphaGo 一样：每一步好不好，可以通过胜率和自我对弈快速筛选。工程算法创新很多时候也类似，只要卡住某个指标，AI 就可以不断调整代码，让指标变小。当然，这种指标变小也可能来自别的原因，并不一定代表系统真的更好。

但严谨的数学证明，或者更深层的系统建模，就没有这么简单。不是说 AI 做不了，它能做，而且会越来越好；但是总会在一些细节上出现问题。因为它更像是在已有数据和模式里进行概率性的发散与组合，而不是真正从一个完整逻辑系统出发去理解所有边界条件。在一个完整复杂系统里，如果不能只用有限个量化指标来评判好坏，AI 就可能在一些隐性细节上出错。这个问题以后当然会越来越改善，但我总觉得它的发展可能有某种实际极限，类似于到达某个阈值后，再继续进步会变得很难。这是由AI算法决定的。

也许这恰恰是数学的意义：用更严密的逻辑系统，去修正 AI 这种发散式生成和概率式选择。AI 提供发散、搜索、实现和效率；数学提供约束、定义、证明、边界和纠错。二者不是完全对立，而是相辅相成。当然，我不是说 AI 永远不可能突破这些限制，如果未来出现革命性创新，它也许会做得更完美。但至少目前来看，它更像是极大便利了科研，而不是已经可以完全替代人的建模、判断和责任。这个想法里当然也有我的情绪成分，因为我不希望自己只是成为 AI 的附庸，所以可能也有失偏颇，但我觉得更理性的态度应该是：既承认 AI 很强，也承认人仍然需要在方向、边界和逻辑判断上保持主体性。

而且在很多时候，ai也有天然的劣势，能提出与众不同且特别好的方向的人往往是少数，但在解决问题时，ai想到的大都是结果导向，比如加一个模块，加大训练量。这种用的最多的科研提升指标的方法，而不是重构一个模型，改变描述方法等，但这一点不容易解决，因为这种高级的创新是少数，ai作为概率模型很难会优先选择这些，就算选择了也难以选择对。我一向认为ai发展是有极限的，可能再怎么发展也无法突破一些逻辑的约束，类似不确定性法则，到了一定的阈值就难以再精进了。

所以我现在能理解，AI 最擅长的是在已经框定好的空间里搜索和优化。一旦目标明确、指标明确、数据充分、实验能自动化，它会非常强，甚至可能比人强很多。普通工程论文、普通应用型算法论文，如果只是“给定数据集、给定指标、改一个模块、跑几个表、写成论文”，未来确实会越来越容易被 AI 自动化。尤其是只靠指标达标的论文，AI 很可能做得更快、更好。

但真正高质量的工程或应用数学论文，并不只是指标达标。它还要说明：这个指标提升是不是代表真实机制？是不是数据集偶然？是不是调参？有没有反事实实验？有没有失败边界？能不能解释为什么某个场景有效、另一个场景无效？能不能把经验结果提升成机制解释？这类判断不是严格数学证明，但也不是简单跑表。它需要机制、反事实、跨场景验证、失败解释和可迁移的设计原则。

AI 也可以自我纠错、自己做实验、自己检查代码、自己补消融。但自我纠错只能纠正它知道要检查的问题。真正难的是：这个实验闭环本身是不是对的？指标是不是代表真实目标？有没有没写进指标里的隐性约束被破坏了？比如 ATE 降了，不代表轨迹没有局部扭曲；objective 降了，不代表有用 loop 没被误杀；一个序列好了，不代表不是数据集结构偏置；soft posterior 好了，也可能只是整体权重变小，而不是真正的概率建模发挥作用。人类专家有时候“一看就觉得不对”，这是我们人类自带的逻辑系统判断的，不是因为有神秘能力，而是因为天生的逻辑和长期经验形成了很多隐性检查器。

我现在觉得，AI 的发展很可能会有实际瓶颈，但这个瓶颈不是“AI 绝对不能写代码”“AI 绝对不能创新”“AI 绝对不能建模”这种简单边界。更可能的瓶颈在于：真实问题的评价指标有限，反馈慢，目标不唯一，现实约束复杂，很多关键判断不在显式指标里。AI 可以越来越会生成候选模型、解释模型、实现模型、验证模型，但从一堆完整解释里判断哪个是真的、哪个只是漂亮包装，这仍然很难。

其实我说的建模，系统，不只是数学建模的时候，很多复杂完整的系统都存在这个问题。比如模仿人类对ai的回应，构建一个算法等等。这是的理论严密证明的重要性再提升。因为误差等哪怕很多但有限个指标，ai总有办法让他降低，但这并不意味着它一定没有问题，也许牺牲掉了别的东西，但真实的系统中，别的东西不是有限个、科研列举完的，只有从数学上逻辑上严密证明才能确保万无一失。

对我来说，这也意味着我下一步不能再只依赖“把论文给 AI，让它帮我想创新点”。前两篇可以说是 AI 帮我把兴趣方向和已有论文拼成了可投稿框架，但如果我想继续往深拉，尤其想往数学或应用数学靠，就必须自己学更深的知识，把问题定得更窄、更清楚。比如不是泛泛说“A + B +C”，而是具体到：

在什么中，什么约束什么时候真正补偿 PGO 的退化自由度？
soft structural family posterior 什么时候比 hard assignment 稳？结构先验的信息矩阵是否真的投影到原始 PGO 的弱特征子空间？在没有长程 anchor 时，结构先验为什么不能凭空创造新信息？

（以上只是举个例子，因为别的方向我也不懂）

也就是说，我要逐渐从“AI 给方向，我跟着做”，变成“我定义方向，AI 帮我推进”。我需要告诉 AI：我要构建一个模型，它必须满足 A、B、C、D 几个约束；它要能解释 Moon5 和S3LI 的差异；要能和 Hessian 退化方向或信息矩阵联系起来；要有反事实实验能推翻它；要能服务我未来数学化的研究路线。然后 AI 可以帮我推导、实现、查文献、设计实验、模拟审稿，但核心边界和目标要逐渐由我来定。

所以我现在比较稳定的理解是：

AI 确实很强，而且会越来越强。普通idea、普通代码、普通论文包装、普通 benchmark 型工程论文，都会被严重压缩价值。未来科研也将面临两极分化。AI 甚至可以提出很多人类想不到的方向。但 AI 的发散能力和科研真正需要的收敛能力之间，还有距离。科研不是无限发散，也不是只看一个指标，而是要在个人兴趣、现实资源、数学结构、实验条件、论文目标和长期发展之间找到一个能持续推进的边界。

我的作用不是证明“这个 idea AI永远想不出来”。也许新的 AI 没有我的上下文，也能想出别的很好的 idea。但它未必能想出最适合我、最能延续我的积累、最符合我兴趣和未来路线的 idea。我真正的价值，可能是给 AI 一个方向场：我喜欢黎曼，我想做弱纹理 SLAM，我想往数学靠，我不想只做普通点线融合，我有 Moon5/S3LI/EuRoC 的实验背景，我要考虑毕业、申博和未来科研路线。AI 在这个方向场里，把我的碎片化想法系统化，并帮助我实现和表达。

所以最终我不应该把自己看成被 AI 完全替代的人，也不应该天真地觉得 AI 不会替代科研里的很多劳动。更准确地说，AI 会替代大量执行层、生成层、常规创新层的工作。但我需要做的是往更高一层走：学更深的数学和领域知识，提升建模判断力，知道什么问题值得问，什么模型只是包装，什么实验能真正推翻假设，什么结果能支撑机制。这样 AI 就不是取代我，而是把我的研究能力放大。

目前我能接受的结论是：

AI 可以把很多事情做得越来越好，但它的输出质量仍然强烈依赖人给它的边界、目标、约束和判断。它能生成很多完整的解释，但完整不等于真实；它能优化指标，但指标不等于真实系统；它能发散出很多 idea，但科研还需要收敛到一个可验证、可解释、可持续的问题上。

所以我下一步最重要的不是和 AI 比谁更会写代码、谁更会想 idea，而是训练自己成为那个能定义问题、收窄边界、判断机制、设计反事实实验、并用AI 推进研究的人。这样，即使 AI 继续变强，我也不是被动被替代的那一层，而是在用 AI 把自己推到更接近建模和判断的位置。

最后我觉得不可避免的，AI时代很多东西会发生大的变动，有些时候不要太考虑未来怎么了，不是不应该考虑，而是没有用，前人的经验可能也失效了，生产力也会解放，可能很多工作也会变得不一样，但我们都无法预测。我觉得，既然这样，放手去干你喜欢的事吧，从事你喜欢干的方向吧，就比如我喜欢数学，那就去干吧，毕竟干别的也不一定会更好，但去走数学这条我热爱的路，至少我可以收获快乐。

我也不知道我说了些什么，希望我们都可以在ai时代找到自己的位置。

今当远离，不知所云，诸位见谅。