当AI开始＂编造＂学术论文:一场正在蔓延的信任危机

前几天翻学术圈和科技圈的热榜，发现两件看似不相关的事放在一起看，特别有意思。

第一件：arxiv发了个新规——论文里用AI编造参考文献的，直接禁发一年。不是让你修改，是直接禁发。

第二件：加拿大安大略省审计发现，医生使用的AI笔记工具"经常搞错基本事实"。原话是 routinely，不是偶尔出bug，是常规操作。

两件事放在一起，信号很明确——AI的"幻觉"问题，已经从技术层面的Bug，变成了需要制度来约束的现实。

图1：科技发展带来的信任挑战

01 AI"造谣"，比你想象的更丝滑

很多人对AI出错的印象还停留在"明显的胡说八道"——问它一个冷门历史事件，它瞎编一个年份。

但真正危险的不是这种一眼假的错误。

真正危险的是——AI会编出格式完美、看起来毫无破绽的假东西。

arxiv这个案例说明了什么？AI能生成格式完美的参考文献——作者、期刊、卷号、页码，一应俱全。但问题是，这篇文章根本不存在。

它不是不知道参考文献怎么写，而是太知道参考文献长什么样了，以至于能把一个不存在的论文包装得跟真的一样。

学术界为什么反应这么激烈？因为参考文献是学术论文的骨架。引一篇不存在的论文，整个论证链条就是空的。

更可怕的是，这种错误极难被发现——审稿人也很难对每一条引用去做完整的溯源核查。

图2：学术论文写作场景

02 医疗AI的错误，不只是"修一下"能解决的

如果学术圈的AI幻觉还只是影响论文质量，那医疗领域的案例就让人脊背发凉。

审计报告里写，AI笔记工具把病人的过敏史写错了。

过敏史。

这不是"上线前修一下"的技术问题，这是能出人命的。想象一下，医生基于AI生成的病历开药，而病历上的过敏信息是AI编的。

更讽刺的是，这类工具的定位是"辅助医生"，但实际上可能把医生的注意力引向错误的方向。医生以为自己在核对AI的输出，实际上在核对一个充满错误的版本。

图3：医疗AI应用场景

03 我让AI重构代码，它给我造了个不存在的项目

上个月我用Claude Code重构一段Python代码。

我让它把这个类拆成三个文件。

它写了400多行代码——然后呢？

import路径全错

两个文件循环引用

第三个文件import了一个根本不存在的模块

跑起来直接报 ImportError。

不是逻辑错误，不是算法有问题，是它根本不知道自己写了什么。

这让我意识到一个很关键的点：

AI不是不会写代码，是不知道自己在写什么。

它能写出看起来像代码的东西，但不代表这个东西能在你的项目里跑。

图4：编程与代码审查

04 GitHub最火的项目，在给AI加"缰绳"

说到代码，有个项目值得专门提一下。

GitHub Trending上有一个叫spec-kit的项目，累计99,470颗星。注意是将近十万星，昨天一天涨了1,232星。

它是干什么的？

Spec-Driven Development——让你先写规范，再让AI按规范生成代码。

它的核心卖点就一句话："别让AI瞎编"。

将近十万星的项目，核心功能是给AI加约束。

这本身就是一个信号——

"AI完美写代码"这个前提，整个行业最聪明的人都不信。

图5：GitHub开源社区

05 程序员的活法，正在发生根本变化

过去一个月，我大概有三分之二的时间在做一件以前没干过的事——验证AI的输出。

我的工作流变成了这样：

以前：理解需求 → 写代码 → 写测试 → 部署

现在：理解需求 → 写prompt → 审查AI输出 → 排查幻觉 → 补边界情况 → 写代码 → 写测试 → 部署

多出来的三步，叫做"AI输出验证"。

而且这比写代码更费脑子。你自己写的逻辑，你知道为什么这么写。AI写的，你得先猜它怎么想的，再判断对不对。

有时候排查AI幻觉的时间，比让它重新生成还长。

图6：程序员工作流程变化

06 一个底层的事实

为什么AI会编东西？

因为它的本质是预测下一个token。

它不知道什么是对的，它只知道什么是常见的。

常见的参考文献格式 ≠ 真实存在的论文

常见的病历描述 ≠ 真实的病人情况

常见的代码模式 ≠ 能在你项目里跑的代码

"常见"和"正确"，是两个完全不同的概念。

AI在语言中寻找统计规律，但统计规律不保证事实正确。你让它写一段常见场景下的代码，它能写得像模像样。但只要你的需求有一丝不常见的地方，它就会开始"自由发挥"。

这不是迭代几个版本就能解决的问题。这是大模型工作机制决定的。只要还是预测token，就一定会在某些场景下"编"出看起来像真的东西。

图7：AI模型工作原理

07 制度已经开始动了

学术界：arxiv直接禁发一年。

医疗系统：审计报告已经出来了，后续会有监管跟进。

软件开发呢？大概也快了。

核心矛盾在于：AI的错，永远是人在背锅。

学术作者背禁发的锅，医生背医疗事故的锅，程序员背生产事故的锅。AI永远在免责声明后面。

这不是某一方的责任划分问题，而是整个社会正在意识到：你不能把信任交给一个不知道自己说了什么的东西。

图8：制度与监管

08 程序员会消失吗？

不会。

但只会写代码、不会审AI输出的程序员，可能要重新思考自己的定位了。

未来的核心能力不是"把想法翻译成代码"，而是：

1. 描述清楚你想要什么——写好prompt本质上是一种产品能力

2. 判断AI给的东西对不对——这需要比AI更懂业务逻辑

3. 在AI的输出基础上做修正和补充——人和AI协作，而不是人指挥AI干活

AI不会替代程序员，但会用AI的程序员，会替代不会用AI的程序员。

这句话听起来像废话，但真正在做AI辅助开发的时候，你才会体会到——工具变强了，使用工具的门槛反而在提高。

— 完 —

长按下方二维码，关注公众号，获取更多精彩内容！