乐于分享
好东西不私藏

ai发展之我见

ai发展之我见

很久不更新了,前段时间本人身上出现了一些变故,公众号也面临很多危机。现在恢复了最初的名字也不会再改名。我想不应该忘记公众号设立的初衷,也谨以此表达对故人的缅怀和不忘初心的决心。

最近很多人都从对 AI 的便利和兴奋,开始转向对 AI 的恐惧和自我怀疑。AI 的发展太快了。24 年初的时候,它可能还主要是在编文献、写代码,但代码质量一团糟;到了 24 年底到 25 年,代码能力已经明显变强;到了 25–26 年,写代码基本已经可以直接用了,甚至出现了 CodexClaude Code 这种可以直接改代码、跑项目的工具。至于编文献、写论文这种,它带来的幻觉虽然还有,但整体看起来已经好了很多,至少不再是完全不可用。

但这不是最可怕的。以上这些能力本来就是大家希望 AI 能做到的:帮人写代码、查资料、整理文献、润色论文、提高效率。我一开始以为 AI 想出的 idea 可能只是普通idea。但我自己的经历让我产生了动摇。以上这些ai做的好,是应该的,人类也希望它能做好。但是ai的发展愈发恐怖。身处科研圈,ai可以提出idea到实现到更正再到写论文都可以做到了。当然不同ai有它的优劣势。可能很多人觉得ai想出的idea能是什么好的idea,我之前也这么想,我那时已经中了一篇我自己idea写的论文,那篇我写了好几个月,投了顶刊,进展顺利。但是直到我用ai帮我很多的idea以及验证然后一个月的时间就投了第二篇顶刊居然进展很顺利。这让我大吃一惊。在欣喜之余,我更多的是害怕,恐慌,难道科研也要被ai取代了吗? 

但为什么我这篇就可以,同样是用ai,我的两个同门却一个被末流sci桌拒四次才终于送审,另一个更是被连系统都没有的中文期刊桌拒。后来我慢慢意识到,差别可能不在于有没有用 AI”,而在于人给 AI 的方向场不同。虽然看起来都是把论文给 AI,让 AI 提创新,但我输入给 AI 的不是空泛的帮我做一个xxxx的创新,而是一个已经带有我个人倾向和研究背景的问题空间:我喜欢s什么;我做的是 什么;我对什么感兴趣,但又不想完全变成s什么;我希望方向能更怎么样,也希望未来能和什么方向靠近。

这些偏好看起来像运气:我正好喜欢黎曼,而黎曼几何和 我现在的方向确实能结合。但这不完全是运气。它其实决定了 AI 会在什么范围内搜索。别人可能问 AI 点线融合,AI 给他的就是加权、鲁棒核、自适应融合;而我因为一直把问题往黎曼、流形、结构方向、概率建模上拉,AI 输出的东西也会自然往这个方向靠。所以它不是凭空自己想出来一个完全独立的研究方向,而是把我已有的兴趣、知识碎片、实验背景和外部文献中的相似结构连接起来,组织成一个更系统、更像论文的框架。

我平时和 AI 对话时,也不是它说什么我就全部接受。很多时候 AI 给我一个建议,我会反复追问:为什么这样?这个实验公平吗?这个 baseline 合适吗?z这个为什么有效,那个为什么不明显?这个是不是只是包装?这个方向是不是太散?有时候聊了几个回合以后,我会说:我还是坚持某某方向。这其实也是一种筛选。它不是很显性的“AI 给我十个方案,我选一个,而是更隐性的方向控制:我不断把 AI 拉回我想要的主线,不让它发散到完全不适合我的方向。

所以我现在更能理解:AI 像一个助手,或者说像一个外接大脑。它把我脑子里还没有成系统的知识、兴趣、实验经历、方向偏好,结合它自己的知识面和检索能力,整理成一个看起来更合理、更系统的研究框架。它确实提供了大量生成、连接、表达和实现能力,但它不是完全在真空里自己创造。它更像是把我的碎片化思想系统化,把我的方向感放大。

不过,这并不意味着 AI 不强。恰恰相反,AI 很强。它不仅能想 idea,还能把一个 idea 解释得非常完整:变量怎么定义、目标函数怎么写、实验怎么做、审稿人会怎么质疑、如何回应。比如它现在也能提出把观测、结构、位姿、标定参数和不确定性都放到不同黎曼流形上,构成一个乘积流形上的SLAM 框架这种听起来很像数学重构的 idea。这说明 AI 并不是完全不能做建模。

但是我现在逐渐明白,AI 能给出一个完整解释,不等于这个解释是真的、必要的、重要的、值得做的。AI 很容易把任何一个方向讲得像真的,甚至讲得很漂亮。但科研真正难的地方不是把故事讲圆,而是判断这个故事是不是抓住了问题本质。比如所有变量都放到黎曼流形上听起来高级,但要追问:哪些变量真的必须放到流形上?哪些只是普通欧氏参数?这样做比普通PGO 强在哪里?它能解释什么失败现象?能不能提出可验证预测?如果实验不支持,说明什么?

这就是建模和写代码的区别。写代码更多是在已有模型下,把模型翻译成可执行步骤;建模是在更前面决定问题应该怎样表示,哪些变量重要,哪些变量该舍弃,目标函数应该优化什么,评价指标能不能代表真实目标。代码有明确输入输出,能不能编译、loss 降不降、ATE 降不降,这些反馈很快。而建模的反馈很慢,甚至有时候几年后才知道这个方向是不是有长期价值。

围棋 AI 的例子也说明了这个问题。围棋虽然变化极多,但它是一个封闭系统:棋盘固定,规则固定,选择有限,最终目标就是赢。AI 可以通过大量自我对弈,发现人类高手想不到的招式。这个例子证明 AI 确实能突破人类思维定势。但现实科研不是围棋。科研的目标不是一个字。一个 SLAM 算法好不好,不只看 ATE,还要看泛化、鲁棒性、runtimebaseline 公平性、真实系统可用性、理论解释、失败边界、是否适合未来发展。最关键的是以上这些都满足了也不能完全判断这个系统没有问题,如果有限个确定性指标能决定,那我倒觉得ai一定可以做到。但不是这样,有些很底层的逻辑,ai是没有的,但只靠数据学习和指标筛选,并不能完美,科研的选择空间也不像围棋只有 361 个落子点,它几乎是无限开放的。如果没有人先框定问题,AI 可以发散出无数看起来合理的组合,但很难天然知道哪个最值得做。

我有一段时间几乎天天都在思考这个问题。最后我逐渐觉得,科研可能仍然需要人的引导,只是这个引导会变得越来越容易,彻底取代却没有那么简单。AI 的方向天然是发散的,如果是工程创新,有一个明确指标可以快速验证,那它确实可以无限试错,就像 AlphaGo 一样:每一步好不好,可以通过胜率和自我对弈快速筛选。工程算法创新很多时候也类似,只要卡住某个指标,AI 就可以不断调整代码,让指标变小。当然,这种指标变小也可能来自别的原因,并不一定代表系统真的更好。

但严谨的数学证明,或者更深层的系统建模,就没有这么简单。不是说 AI 做不了,它能做,而且会越来越好;但是总会在一些细节上出现问题。因为它更像是在已有数据和模式里进行概率性的发散与组合,而不是真正从一个完整逻辑系统出发去理解所有边界条件。在一个完整复杂系统里,如果不能只用有限个量化指标来评判好坏,AI 就可能在一些隐性细节上出错。这个问题以后当然会越来越改善,但我总觉得它的发展可能有某种实际极限,类似于到达某个阈值后,再继续进步会变得很难。这是由AI算法决定的。

也许这恰恰是数学的意义:用更严密的逻辑系统,去修正 AI 这种发散式生成和概率式选择。AI 提供发散、搜索、实现和效率;数学提供约束、定义、证明、边界和纠错。二者不是完全对立,而是相辅相成。当然,我不是说 AI 永远不可能突破这些限制,如果未来出现革命性创新,它也许会做得更完美。但至少目前来看,它更像是极大便利了科研,而不是已经可以完全替代人的建模、判断和责任。这个想法里当然也有我的情绪成分,因为我不希望自己只是成为 AI 的附庸,所以可能也有失偏颇,但我觉得更理性的态度应该是:既承认 AI 很强,也承认人仍然需要在方向、边界和逻辑判断上保持主体性。

而且在很多时候,ai也有天然的劣势,能提出与众不同且特别好的方向的人往往是少数,但在解决问题时,ai想到的大都是结果导向,比如加一个模块,加大训练量。这种用的最多的科研提升指标的方法,而不是重构一个模型,改变描述方法等,但这一点不容易解决,因为这种高级的创新是少数,ai作为概率模型很难会优先选择这些,就算选择了也难以选择对。我一向认为ai发展是有极限的,可能再怎么发展也无法突破一些逻辑的约束,类似不确定性法则,到了一定的阈值就难以再精进了。

所以我现在能理解,AI 最擅长的是在已经框定好的空间里搜索和优化。一旦目标明确、指标明确、数据充分、实验能自动化,它会非常强,甚至可能比人强很多。普通工程论文、普通应用型算法论文,如果只是给定数据集、给定指标、改一个模块、跑几个表、写成论文,未来确实会越来越容易被 AI 自动化。尤其是只靠指标达标的论文,AI 很可能做得更快、更好。

但真正高质量的工程或应用数学论文,并不只是指标达标。它还要说明:这个指标提升是不是代表真实机制?是不是数据集偶然?是不是调参?有没有反事实实验?有没有失败边界?能不能解释为什么某个场景有效、另一个场景无效?能不能把经验结果提升成机制解释?这类判断不是严格数学证明,但也不是简单跑表。它需要机制、反事实、跨场景验证、失败解释和可迁移的设计原则。

AI 也可以自我纠错、自己做实验、自己检查代码、自己补消融。但自我纠错只能纠正它知道要检查的问题。真正难的是:这个实验闭环本身是不是对的?指标是不是代表真实目标?有没有没写进指标里的隐性约束被破坏了?比如 ATE 降了,不代表轨迹没有局部扭曲;objective 降了,不代表有用 loop 没被误杀;一个序列好了,不代表不是数据集结构偏置;soft posterior 好了,也可能只是整体权重变小,而不是真正的概率建模发挥作用。人类专家有时候一看就觉得不对,这是我们人类自带的逻辑系统判断的,不是因为有神秘能力,而是因为天生的逻辑和长期经验形成了很多隐性检查器。

我现在觉得,AI 的发展很可能会有实际瓶颈,但这个瓶颈不是“AI 绝对不能写代码”“AI 绝对不能创新”“AI 绝对不能建模这种简单边界。更可能的瓶颈在于:真实问题的评价指标有限,反馈慢,目标不唯一,现实约束复杂,很多关键判断不在显式指标里。AI 可以越来越会生成候选模型、解释模型、实现模型、验证模型,但从一堆完整解释里判断哪个是真的、哪个只是漂亮包装,这仍然很难。

其实我说的建模,系统,不只是数学建模的时候,很多复杂完整的系统都存在这个问题。比如模仿人类对ai的回应,构建一个算法等等。这是的理论严密证明的重要性再提升。因为误差等哪怕很多但有限个指标,ai总有办法让他降低,但这并不意味着它一定没有问题,也许牺牲掉了别的东西,但真实的系统中,别的东西不是有限个、科研列举完的,只有从数学上逻辑上严密证明才能确保万无一失。

对我来说,这也意味着我下一步不能再只依赖把论文给 AI,让它帮我想创新点。前两篇可以说是 AI 帮我把兴趣方向和已有论文拼成了可投稿框架,但如果我想继续往深拉,尤其想往数学或应用数学靠,就必须自己学更深的知识,把问题定得更窄、更清楚。比如不是泛泛说A + B +C,而是具体到:

在什么中,什么约束什么时候真正补偿 PGO 的退化自由度?
soft structural family posterior 
什么时候比 hard assignment 稳?结构先验的信息矩阵是否真的投影到原始 PGO 的弱特征子空间?在没有长程 anchor 时,结构先验为什么不能凭空创造新信息?

(以上只是举个例子,因为别的方向我也不懂)

也就是说,我要逐渐从“AI 给方向,我跟着做,变成我定义方向,AI 帮我推进。我需要告诉 AI:我要构建一个模型,它必须满足 ABC几个约束;它要能解释 Moon5 S3LI 的差异;要能和 Hessian 退化方向或信息矩阵联系起来;要有反事实实验能推翻它;要能服务我未来数学化的研究路线。然后 AI 可以帮我推导、实现、查文献、设计实验、模拟审稿,但核心边界和目标要逐渐由我来定。

所以我现在比较稳定的理解是:

AI 确实很强,而且会越来越强。普通idea、普通代码、普通论文包装、普通 benchmark 型工程论文,都会被严重压缩价值。未来科研也将面临两极分化。AI 甚至可以提出很多人类想不到的方向。但 AI 的发散能力和科研真正需要的收敛能力之间,还有距离。科研不是无限发散,也不是只看一个指标,而是要在个人兴趣、现实资源、数学结构、实验条件、论文目标和长期发展之间找到一个能持续推进的边界。

我的作用不是证明这个 idea AI永远想不出来。也许新的 AI 没有我的上下文,也能想出别的很好的 idea。但它未必能想出最适合我、最能延续我的积累、最符合我兴趣和未来路线的 idea。我真正的价值,可能是给 AI 一个方向场:我喜欢黎曼,我想做弱纹理 SLAM,我想往数学靠,我不想只做普通点线融合,我有 Moon5/S3LI/EuRoC 的实验背景,我要考虑毕业、申博和未来科研路线。AI 在这个方向场里,把我的碎片化想法系统化,并帮助我实现和表达。

所以最终我不应该把自己看成被 AI 完全替代的人,也不应该天真地觉得 AI 不会替代科研里的很多劳动。更准确地说,AI 会替代大量执行层、生成层、常规创新层的工作。但我需要做的是往更高一层走:学更深的数学和领域知识,提升建模判断力,知道什么问题值得问,什么模型只是包装,什么实验能真正推翻假设,什么结果能支撑机制。这样 AI 就不是取代我,而是把我的研究能力放大。

目前我能接受的结论是:

AI 可以把很多事情做得越来越好,但它的输出质量仍然强烈依赖人给它的边界、目标、约束和判断。它能生成很多完整的解释,但完整不等于真实;它能优化指标,但指标不等于真实系统;它能发散出很多 idea,但科研还需要收敛到一个可验证、可解释、可持续的问题上。

所以我下一步最重要的不是和 AI 比谁更会写代码、谁更会想 idea,而是训练自己成为那个能定义问题、收窄边界、判断机制、设计反事实实验、并用AI 推进研究的人。这样,即使 AI 继续变强,我也不是被动被替代的那一层,而是在用 AI 把自己推到更接近建模和判断的位置。

最后我觉得不可避免的,AI时代很多东西会发生大的变动,有些时候不要太考虑未来怎么了,不是不应该考虑,而是没有用,前人的经验可能也失效了,生产力也会解放,可能很多工作也会变得不一样,但我们都无法预测。我觉得,既然这样,放手去干你喜欢的事吧,从事你喜欢干的方向吧,就比如我喜欢数学,那就去干吧,毕竟干别的也不一定会更好,但去走数学这条我热爱的路,至少我可以收获快乐。

我也不知道我说了些什么,希望我们都可以在ai时代找到自己的位置。

今当远离,不知所云,诸位见谅。