前几天翻学术圈和科技圈的热榜,发现两件看似不相关的事放在一起看,特别有意思。
第一件:arxiv发了个新规——论文里用AI编造参考文献的,直接禁发一年。不是让你修改,是直接禁发。
第二件:加拿大安大略省审计发现,医生使用的AI笔记工具"经常搞错基本事实"。原话是 routinely,不是偶尔出bug,是常规操作。
两件事放在一起,信号很明确——AI的"幻觉"问题,已经从技术层面的Bug,变成了需要制度来约束的现实。

图1:科技发展带来的信任挑战
01 AI"造谣",比你想象的更丝滑
很多人对AI出错的印象还停留在"明显的胡说八道"——问它一个冷门历史事件,它瞎编一个年份。
但真正危险的不是这种一眼假的错误。
真正危险的是——AI会编出格式完美、看起来毫无破绽的假东西。
arxiv这个案例说明了什么?AI能生成格式完美的参考文献——作者、期刊、卷号、页码,一应俱全。但问题是,这篇文章根本不存在。
它不是不知道参考文献怎么写,而是太知道参考文献长什么样了,以至于能把一个不存在的论文包装得跟真的一样。
学术界为什么反应这么激烈?因为参考文献是学术论文的骨架。引一篇不存在的论文,整个论证链条就是空的。
更可怕的是,这种错误极难被发现——审稿人也很难对每一条引用去做完整的溯源核查。

图2:学术论文写作场景
02 医疗AI的错误,不只是"修一下"能解决的
如果学术圈的AI幻觉还只是影响论文质量,那医疗领域的案例就让人脊背发凉。
审计报告里写,AI笔记工具把病人的过敏史写错了。
过敏史。
这不是"上线前修一下"的技术问题,这是能出人命的。想象一下,医生基于AI生成的病历开药,而病历上的过敏信息是AI编的。
更讽刺的是,这类工具的定位是"辅助医生",但实际上可能把医生的注意力引向错误的方向。医生以为自己在核对AI的输出,实际上在核对一个充满错误的版本。

图3:医疗AI应用场景
03 我让AI重构代码,它给我造了个不存在的项目
上个月我用Claude Code重构一段Python代码。
我让它把这个类拆成三个文件。
它写了400多行代码——然后呢?
import路径全错
两个文件循环引用
第三个文件import了一个根本不存在的模块
跑起来直接报 ImportError。
不是逻辑错误,不是算法有问题,是它根本不知道自己写了什么。
这让我意识到一个很关键的点:
AI不是不会写代码,是不知道自己在写什么。
它能写出看起来像代码的东西,但不代表这个东西能在你的项目里跑。

图4:编程与代码审查
04 GitHub最火的项目,在给AI加"缰绳"
说到代码,有个项目值得专门提一下。
GitHub Trending上有一个叫spec-kit的项目,累计99,470颗星。注意是将近十万星,昨天一天涨了1,232星。
它是干什么的?
Spec-Driven Development——让你先写规范,再让AI按规范生成代码。
它的核心卖点就一句话:"别让AI瞎编"。
将近十万星的项目,核心功能是给AI加约束。
这本身就是一个信号——
"AI完美写代码"这个前提,整个行业最聪明的人都不信。

图5:GitHub开源社区
05 程序员的活法,正在发生根本变化
过去一个月,我大概有三分之二的时间在做一件以前没干过的事——验证AI的输出。
我的工作流变成了这样:
以前:理解需求 → 写代码 → 写测试 → 部署
现在:理解需求 → 写prompt → 审查AI输出 → 排查幻觉 → 补边界情况 → 写代码 → 写测试 → 部署
多出来的三步,叫做"AI输出验证"。
而且这比写代码更费脑子。你自己写的逻辑,你知道为什么这么写。AI写的,你得先猜它怎么想的,再判断对不对。
有时候排查AI幻觉的时间,比让它重新生成还长。

图6:程序员工作流程变化
06 一个底层的事实
为什么AI会编东西?
因为它的本质是预测下一个token。
它不知道什么是对的,它只知道什么是常见的。
常见的参考文献格式 ≠ 真实存在的论文
常见的病历描述 ≠ 真实的病人情况
常见的代码模式 ≠ 能在你项目里跑的代码
"常见"和"正确",是两个完全不同的概念。
AI在语言中寻找统计规律,但统计规律不保证事实正确。你让它写一段常见场景下的代码,它能写得像模像样。但只要你的需求有一丝不常见的地方,它就会开始"自由发挥"。
这不是迭代几个版本就能解决的问题。这是大模型工作机制决定的。只要还是预测token,就一定会在某些场景下"编"出看起来像真的东西。

图7:AI模型工作原理
07 制度已经开始动了
学术界:arxiv直接禁发一年。
医疗系统:审计报告已经出来了,后续会有监管跟进。
软件开发呢?大概也快了。
核心矛盾在于:AI的错,永远是人在背锅。
学术作者背禁发的锅,医生背医疗事故的锅,程序员背生产事故的锅。AI永远在免责声明后面。
这不是某一方的责任划分问题,而是整个社会正在意识到:你不能把信任交给一个不知道自己说了什么的东西。

图8:制度与监管
08 程序员会消失吗?
不会。
但只会写代码、不会审AI输出的程序员,可能要重新思考自己的定位了。
未来的核心能力不是"把想法翻译成代码",而是:
1. 描述清楚你想要什么——写好prompt本质上是一种产品能力
2. 判断AI给的东西对不对——这需要比AI更懂业务逻辑
3. 在AI的输出基础上做修正和补充——人和AI协作,而不是人指挥AI干活
AI不会替代程序员,但会用AI的程序员,会替代不会用AI的程序员。
这句话听起来像废话,但真正在做AI辅助开发的时候,你才会体会到——工具变强了,使用工具的门槛反而在提高。
— 完 —
长按下方二维码,关注公众号,获取更多精彩内容!

夜雨聆风