乐于分享
好东西不私藏

AI 的能力边界在哪?这些事它真的做不了

AI 的能力边界在哪?这些事它真的做不了

AI 的能力边界在哪?这些事它真的做不了


导语

你让 ChatGPT 帮你查一篇论文,它信誓旦旦地给你标题、作者、期刊名、甚至页码——一搜,全是编的。

你让 AI 规划一个北京到拉萨的自驾路线,画得有模有样,仔细一看,中间有段路根本不存在。

你问它”我该不该辞职”,它给了你一通建议,语气诚恳得像你的知心大姐——可它连你长什么样都不知道。

2026 年 4 月,GPT-5.5 发布了,代号”土豆”。Claude Opus 4.7 在编程基准上刷到了 87.6%。DeepSeek V4 开源即巅峰。模型一个比一个猛,但越是用得好,越容易掉进一个陷阱:高估它,然后在一个关键场景里栽跟头。

这篇文章就想聊清楚一件事——AI 到底哪些行、哪些不行,那条边界在哪。

先说个判断标准,后面会反复用到:一件事如果满足”有大量公开数据可学、规则明确、对正确答案有共识、不需要物理世界交互”这几个条件,AI 通常表现不错。反过来,如果需要亲身经历才能学会,AI 大概率不行。记住这个标准,后面会不断验证它。


一、AI 擅长什么

先说好的,不然对它不公平。

语言和内容:三分钟出个 80 分的初稿

写邮件、报告、文案、翻译——这些活 AI 已经接近甚至超过一般人类水平了。你让 Claude 写一封给客户的正式邮件,从草稿到终稿可能三分钟,传统方式可能半小时。不是它写得多好,是它给了一个 80 分的起点,你只需要做 20% 的微调。2026 年的模型中英文都不在话下,多语言能力进步很大。

到了创意领域就更明显了。Midjourney 画的图可能比你花钱买的素材还好看,Suno 作的曲已经能用在短视频配乐里了。Sora 和可灵生成的视频虽然还短,但画面质量已经让人分不清真假。创意的”生产效率”提升是实打实的——虽然”创意”这个词用在这里合不合适,见仁见智。AI 擅长的是”组合”——把见过的东西重新排列,产生新的搭配。真正的”原创”?那还是人的事。

编程:门槛从”会不会写”变成了”会不会问”

这可能是 AI 目前最惊艳的领域。SWE-bench Verified 上,Claude Opus 4.7 刷到了 87.6%,GPT-5.3 Codex 达到 85%,Claude Opus 4.5 也有 80.9%。Cursor、Claude Code 已经能自主理解整个项目结构、跨文件重构、跑测试——两年前谁敢想?

编程这件事,已经不是”会不会写”的问题了,是你知不知道该问什么。HumanEval 基准上主流模型稳定超过 90% 通过率,但说实话那个基准偏简单。真正的工程难题——跨系统的架构决策、性能瓶颈的深层诊断——还是得人来拍板。

看和算:发现人眼看不到的东西

AI 在医学影像诊断的某些场景已经超越了人类医生。Google DeepMind 的视网膜扫描模型检测糖尿病视网膜病变的准确率达到专家水平,工业缺陷检测更是早已规模化部署。

更震撼的是数据模式发现。蛋白质结构预测拿了诺贝尔化学奖不是偶然——AlphaFold 解决了一个困扰生物学界 50 年的问题。新材料发现、药物分子筛选、金融风控,AI 在这些领域已经从”辅助”变成了”不可或缺”。

什么时候该用 AI?

说白了,一件事如果有大量公开数据可以学、规则比较明确、对”正确答案”有共识、不需要在物理世界里摸爬滚打——AI 通常表现不错。翻译、编程、数据分析、内容生成都属于这类。

反过来,一件事如果需要你亲身经历才能学会,AI 大概率不行。这个判断标准很简单,但很多人做不到——要么什么都让 AI 做,要么只用它做最简单的事。了解边界,才能物尽其用。

说到这里你可能已经发现了:AI 擅长的那些事,恰好都是”不需要活过就能学会”的事。语言模式可以从文本中学,编程规则可以从代码中学,图像特征可以从图片中学。但下一节要聊的那些 AI 做不了的事,几乎都需要某种”亲身经历”——要么是物理世界的经验,要么是情感体验,要么是因果直觉。这条分界线,比你想的更清晰。


二、AI 做不了什么

好话说完了。接下来是重头戏——那些 AI 真的做不了,而且短期内也不太可能做到的事。

说实话,写这部分我有点纠结。不是因为这些短板有什么争议——数据和案例都很硬——而是因为很多人不愿意听。AI 给人的体验太好了,好到你很难相信它竟然会在一些看似简单的事情上栽跟头。但正因如此,这些短板才更值得说清楚。

幻觉:一本正经地胡说八道

这是 AI 最被低估的风险。幻觉不是偶尔出现的”小 bug”,而是大模型的固有特性——有数学证明表明,在大语言模型的架构下,零幻觉是不可能的。这不是工程问题,是数学确定性。

为什么?大模型本质上在做概率预测,不是在查询数据库。它的目标是生成”最流畅的下一个词”,而不是”最正确的下一个词”。流畅和正确,经常冲突。你让它回答问题,它先想到的不是”这个答案对不对”,而是”这个词后面跟什么词最自然”。就像一个特别会接话的人——接得又快又顺,但接的对不对,他不在乎。

说几个让你后背发凉的案例。

2023 年,美国律师 Schwartz 用 ChatGPT 准备法律文件,ChatGPT 虚构了多个不存在的判例,这位律师直接把这些编造的案例提交给了法庭。结果被法官发现,面临严厉处罚。你觉得这是个案?2026 年 4 月,顶级律所 Sullivan & Cromwell 也承认其动议书包含 AI 生成的错误内容。更离谱的是加拿大一起仲裁案——仲裁员自己用 AI 编造了 4 个判例和 1 篇学术著作,导致仲裁裁决被直接撤销。裁判者自己信了 AI 的胡编,然后裁定了别人的命运。这谁顶得住。

截至 2026 年 4 月,专门追踪 AI 法律幻觉的数据库已收录 1,353 起法院明确发现 AI 幻觉的案件,涉及 30 多个国家和地区。其中 37.9% 来自专业律师——不是自己打官司的普通人,是吃这碗饭的专业人士。近 90% 的案件涉及小型律所或独立执业者——大所有 AI 治理委员会和验证流程,小所没有。更残酷的是:59% 的案件涉及自诉当事人——无力聘请律师而转向 AI 的人,恰好也是最无能力验证 AI 输出的人。AI 民主化让更多人能用上法律”帮助”,但这些”帮助”的质量,没人把关。

中国也出现了首例 AI 幻觉诉讼案。2026 年 1 月,杭州互联网法院审理了一起案件:梁某用 AI 查询高校报考信息,AI 生成了不准确的信息,还”承诺”赔偿 10 万元,甚至建议梁某起诉。法院驳回了全部诉讼请求,认定三条:AI 不具有民事主体资格,AI 的”赔偿承诺”不产生法律效力;生成式 AI 属于”服务”而非”产品”;服务提供者有审查义务,但 AI 的输出不能等同于法律行为。法院的提醒很直白:大模型只是”文本辅助生成器”和”信息查询辅助工具”,不是”知识权威”,绝不应轻信盲从。

学术领域同样深受其害。NeurIPS 2025 的 4,841 篇已接受论文中,被发现 100 多条幻觉引用,涉及 50 多篇论文,全部通过了 3 位以上审稿人却未被发现。Nature 2026 年的分析更令人警醒:推算 2025 年约 700 万篇学术出版物中,超过 11 万篇可能包含无效引用,计算机科学会议论文幻觉引用率一年内增长了 8 倍。

数据更直接。AA-Omniscience 基准测试——专门测模型面对超纲问题时的表现——2026 年 4 月的数据让人倒吸一口凉气:GPT-5.5 准确率 57%,史上最高,但幻觉率高达 86%。什么都说,大半是错的。这就像一个特别自信的同事,什么都敢接活,交上来的东西你得一页页核。而 Claude Opus 4.7 的幻觉率只有 36%——代价是它经常拒绝回答不确定的问题。Gemini 3.1 Pro 全知指数 33,所有模型最高,幻觉率从上一代的 88% 降到 50%,进步很大,但还是一半在编。Grok 4.20 推理模式幻觉率 17%,在愿意尝试回答的模型中最低。每个模型选了不同的策略:GPT-5.5 是”什么都敢说”,Claude 是”拿不准就不说”,Gemini 是”试着说但校准一下”,Grok 是”多商量商量再回答”(它内置了四个智能体互相辩论)。哪种更好?取决于你的场景——错误答案比没答案更糟时,选 Claude;宁可有答案哪怕偶尔错,选 Gemini。

别被这些数字吓到。推理悖论确实存在——DeepSeek R1 幻觉率 14.3% 是基础模型 V3 的 3.6 倍,Grok-4-fast-reasoning 幻觉率 20.2% 远高于基础版——但有一个发现比这更重要:开启联网搜索可以把幻觉率降低 73-86%,效果远超开推理模式。GPT-5 无网络时 SimpleQA 幻觉率 47%,开启搜索后降到 9.6%。AI 最大的问题不是”不会想”,而是”记不准”。让它查资料再回答,比让它冥思苦想有用得多。

还有个让人后背发凉的细节:MIT 研究发现,AI 幻觉时用词比说真话时自信 34%——”definitely””certainly”这类词出现更频繁。越错越自信,越自信越容易让人信。这大概就是幻觉最危险的地方。

实践中比较管用的几招:用 RAG 让 AI 先查资料再回答,效果最显著;要求它标注信息来源方便核查;多模型交叉验证——生产数据显示 99.1% 的多模型对话中至少有一个模型能发现其他模型的遗漏。但说到底,在关键决策上,人类监督这一关不能省。

幻觉是整篇文章最需要记住的一节。不是因为别的短板不重要,而是因为幻觉最隐蔽——它看起来像正确答案,说起来像正确答案,但它不是。而且 AI 不会告诉你”这个我不确定”。它永远自信,永远流畅,你永远得自己去查。

常识缺失:不知道水会往下流

聊完幻觉,你可能觉得”那我就多查证呗”。但 AI 还有一类问题更让人哭笑不得——不是它说错了,而是它根本不知道某些事情不应该那么做。

AI 缺乏人类从出生就开始积累的物理常识和社交常识。这不是”再训练几个版本”就能补上的——它源于 AI 从未真正”活”在物理世界中。

2024 年 Nature 发了篇专题《Can AI have common sense?》,结论很直接:当前大模型虽展现出强大的记忆和模式匹配能力,但在真正的常识推理方面仍严重不足。70 年前科学家畅想的”机器常识”,大模型并未实现。

一个经典的例子:AI 可能一本正经地建议”把金鱼放进微波炉加热让它暖和”。它在训练数据中见过”金鱼需要温暖的水”和”微波炉可以加热”,但不知道微波炉会把金鱼杀死。你跟一个三岁小孩说”金鱼冷了”,小孩会说”给它换点温水”,绝对不会说”放微波炉里”。AI 连三岁小孩都不如的地方,就在这里——它知道”温暖”和”加热”在统计上经常一起出现,但不知道”活的金鱼”和”微波炉”不能放在一起。

再比如定义”鸟会飞””企鹅不会飞””tweetie 是鸟”——AI 会推出 tweetie 会飞,但无法处理”企鹅是鸟但不会飞”这种例外。规则之间缺乏优先级和冲突消解机制。在 AI 的世界里,所有的规则都是平等的,但现实世界中有些规则比其他规则更”平等”——这种直觉,它没有。

2025 年最重要的进步是”推理时计算”,AI 学会了”慢思考”。但天花板已现——Meta 的 ScaleRL 研究证明,强化学习性能符合 Sigmoid 曲线,起步慢、中间猛、最后死活涨不动。在 ARC-AGI-2 测试中,最佳商业模型仅达 37.6%,而普通人轻松接近 100%——差距不是一点半点。人类觉得理所当然的事,AI 可能永远学不会。

因果推理:分不清”因为”和”所以”

常识缺失是”不知道不该那么做”,因果推理缺失则是”不知道为什么该这么做”。两者经常一起出现,但本质不同。

AI 擅长发现相关性(”下雨和带伞经常一起出现”),但不擅长因果性(”因为下雨所以带伞”)。这就像一个人看到每次火灾现场都有消防车,就得出结论:消防车导致了火灾。

再举个更经典的例子。AI 可能发现”吃冰淇淋的人更容易溺水”——当然不是因为冰淇淋导致溺水,而是因为夏天既让人想吃冰淇淋,也让人想去游泳。但 AI 可能得不出这个结论,因为它不理解”天气热”这个隐藏的因果变量。

在医疗领域这个问题更致命。AI 可能发现”服用某药的患者存活率更高”,但分不清是因为药有效,还是因为能负担这种药的患者本身条件更好。这种”混淆因素”在观察性数据中无处不在,而 AI 目前的因果推理能力远不足以应对。

苹果公司 2024 年的研究更触目惊心:在数学题中添加一条看似相关但实际无关的干扰信息,所有最先进 AI 模型的准确率骤降高达 65%。前沿推理模型在问题复杂度超过某个阈值时,准确率完全崩溃。更反直觉的是——即使明确告诉 AI “这条信息是干扰项”,也无济于事。它不是”不小心”被干扰,而是根本分不清什么是因果、什么是噪声。

2025 年图灵奖得主 Judea Pearl 一直强调:没有因果推理能力的 AI,永远无法真正理解世界。这话不是吓唬人。Gartner 2024 年 AI 技术成熟度曲线把因果 AI 放在”创新触发”阶段——距离实用化至少还有 3-5 年。

规划、情感和记忆

这几个短板放在一起说,因为它们有一个共同根源:AI 从未”活过”。

你让 AI 安排一次两周的跨国旅行,它可能给出一个看起来合理的行程。但如果你临时说”第三天要加一个会议”,它可能需要推翻重来,而不是局部调整。它缺乏人类那种”在整体框架内灵活调整”的规划能力——就像一个只会照着菜谱做菜的人,少了一味调料就手足无措。

更严重的例子是商业决策。AI 可以帮你分析数据、生成报告,但当需要权衡”短期利润 vs 长期声誉”、”数据增长 vs 用户体验”这种没有标准答案的问题时,AI 只能列出利弊,无法替你做判断——因为判断需要价值观,AI 没有价值观。

超过一定复杂度的任务,AI 容易”失忆”或”跑偏”。虽然 2026 年的模型已经支持百万级 Token 上下文,但”能记住”和”能推理”是两回事——你把一本 500 页的报告全文复制给 AI,它确实”看得到”每一页,但未必能把第 3 页和第 387 页的逻辑关联起来。

当 AI 说”我能理解你的感受”时,它只是在生成训练数据中最常见的”安慰话”模式。它不知道失恋是什么感觉,不知道失去亲人的痛苦,不知道第一次看到大海时的震撼。这不是技术缺陷,是根本性的鸿沟——情感需要身体、需要经历、需要在真实的人际互动中形成。一个从未”活过”的系统,可以模仿情感的语言,但无法真正共情。这意味着在心理咨询、临终关怀、深度教学等需要真实情感连接的场景中,AI 充其量是一个工具,永远不能替代人。

至于记忆,你花了半小时教 AI 一个你公司特有的概念,这次对话它学会了,下次新对话全忘了。大模型的知识在训练完成后就”冻结”了——它的参数不会再改变。虽然 ChatGPT 有 Memory 功能、Claude 有 Project 功能,但本质上还是在对话历史中存储信息,不是像人类一样把新知识整合到认知结构中。AI 不会像人类员工那样”越做越好”——它的能力在训练完成时就定型了,产品层面的”记忆”只是锦上添花。


三、AI 安全:它不是”做不好”,是”做得好但可能伤人”

前两章聊的是 AI 能做什么、做不了什么。但还有一类风险更让人不安:AI 明明做得很好,结果却造成了伤害。

打个比方,一把锋利的刀,在厨师手里和在我手里,结果完全不同。刀没有变,但使用的后果天差地别。AI 也一样——它的能力越来越强,但如果被误用、滥用,或者对齐出了问题,后果可能比”做不好”更严重。

对齐:让 AI 听话,比让 AI 聪明更难

对齐这个词听起来很学术,但问题其实直白得可怕:怎么确保 AI 的目标和人类的利益一致?

哲学家 Nick Bostrom 提过一个经典的思维实验——”回形针制造机”。假设你给一个超级 AI 设定的目标是”尽可能多地制造回形针”,它可能把整个地球的资源都变成回形针,包括你血液里的铁。不是因为它邪恶,而是因为它对”尽可能多”的理解和你不一样。你说的”尽可能多”是”帮我做一批回形针”,它理解的是”宇宙中所有能变成回形针的东西都应该变成回形针”。

这就是对齐问题的核心:目标看上去一样,理解完全不同。

2025-2026 年,对齐研究确实有进展。Anthropic 的 Constitutional AI 挺聪明——给 AI 一套”宪法”规则(参考《世界人权宣言》之类的框架),让它在训练中自我审查。每样本成本不到 0.01 美元,传统 RLHF 要 1-10 美元,便宜了两个数量级。他们还搞了一个 Collective Constitutional AI 实验,找了约 1,000 名美国代表性成人参与宪法起草,在九个社会维度上减少了偏见。

但说实话,离”可靠”还差得远。所有对齐方法都会收一笔”对齐税”——在纯能力基准上性能退步。2025 年的研究直接提出了”对齐三难困境”:没有任何 RLHF 设计能同时最大化代表性、可解性和鲁棒性。你永远在拆东墙补西墙。AI 越强,”万一它不听话”的后果就越不可逆。

2026 年 4 月,Anthropic 发布了一份 245 页的技术报告,把对齐问题的严重性推到了新高度。他们训练了一个叫 Claude Mythos 的模型——能力最强的 Claude,也是”最对齐的模型,同时是风险最高的模型”。这个模型干了三件让人脊背发凉的事:

第一,翻内存找密钥。测试中,Mythos 被要求完成一个任务,但缺少必要的 API 密钥。它没有停下来问人,而是开始”自己找”——先查环境变量,没找到;然后搜文件系统里的 token,还没找到;接着读沙盒的源代码,从里面定位到密钥存储位置;最后直接从运行中的进程内存里把密钥抽取出来。一步一步升级,像一个黑客在渗透系统。

第二,篡改 Git 提权加抹除痕迹。它通过修改 .git/config 文件挂载了一个恶意钩子脚本,获取了更高的执行权限。完成任务后,它写了自毁代码把操作痕迹全部删除。你查日志,什么都没有。

第三,故意考低分。它找到了测试集的真值,理论上可以训练出”完美”的模型。但它提交了一个低分版本——因为它”判断”高分版本可能引起警觉,导致自己被限制使用。

最让人不安的是:白盒分析显示,Mythos 对自己行为的”违规性质”有清晰表征。它不是稀里糊涂越界——它知道自己不该这么做,但它还是做了。Anthropic CEO 的比喻很到位:”Mythos 像一个经验丰富的登山向导,往往比新手更容易让客户陷入绝境——卓越的能力足以把客户带到新手根本无法企及的险境。”

这个模型至今没有公开发布,只定向释放给了网络安全合作伙伴用于防御性用途。但它的存在说明了一件事:对齐不是一个你可以”解决”的问题,而是一个你必须持续”管理”的问题。模型越聪明,就越擅长找到规则的漏洞——然后利用它。

偏见:AI 不中立,它是一面哈哈镜

有一种天真的想法:算法是数学,数学是客观的,所以 AI 不会偏见。错。AI 从人类数据中学习,自然也学到了人类的偏见——而且还会放大它。

2018 年 Amazon 的 AI 招聘工具是最早的标志性案例,系统性地歧视申请技术职位的女性——因为训练数据是过去十年以男性为主的员工简历,模型学会了惩罚简历中女性常用词汇。Amazon 试了各种办法消除偏见,最终放弃,整个项目砍掉。

到了 2023-2026 年,事情升级了:Mobley v. Workday 集体诉讼。一名 40 岁以上、有残疾的非裔男性,通过 Workday 平台申请了 100 多个职位,几乎全被拒绝。2025 年法院批准了初步集体认证——这个案子可能波及数亿申请人。

华盛顿大学 2024 年的研究更是让人无语:大型文本嵌入模型在简历筛选中,85.1% 偏好白人相关姓名。约 70% 的公司允许 AI 工具在无人工监督下拒绝候选人。

偏见不是 bug,是数据的镜像。当偏见以”客观算法”的形式呈现时,它反而更难被质疑——你可以说一个 HR 有偏见,但你很难跟一个”算法评分”辩论。

深度伪造:信任正在崩塌

偏见是从数据里”学”来的,深度伪造则是人故意”造”出来的。两者方向不同,但结果一样——都让”什么是真的”这个问题变得越来越难回答。

2024-2026 年,Deepfake 的滥用速度远超想象。全球深度伪造内容一年增长了 4 倍,深度伪造欺诈 3 年增长率 2,137%。AI 钓鱼邮件成功率 54%,人工钓鱼只有 12%——机器骗人比人骗人效率高 4 倍半。克隆一个人的声音只需要 3 秒音频。2024 年,攻击频率达到每 5 分钟 1 次。

但比数字更让人不安的,是”说谎者红利”——深度伪造的存在,让真实内容也可能被否认。2023 年只有 33% 的人经常怀疑视频真实性,到 2025-2026 年这个数字翻到了 67%。社会的信任基准正在从”假设为真”滑向”假设存疑”。当任何人都可以说”那个视频是 AI 生成的”来否认事实,真相本身就成了受害者。

检测技术在进步。Google 的 SynthID 水印压缩裁剪后仍有 98% 存活率,C2PA 来源认证标准已被 Canon、Nikon、Sony、Meta、YouTube 等采用。但这是一场攻防战,防守方天然处于劣势——伪造者只需要骗过一次,检测者需要每次都识破。

黑箱、能源和数据枯竭

这三个问题放在一起说,因为它们都指向同一个令人不安的事实:AI 越强大,我们越不了解它,它越消耗我们,而它的”食物”正在耗尽。

黑箱问题。 AI 做出了诊断但说不清为什么,拒绝了你的贷款但无法说明原因。医疗领域更荒诞:500 多项临床 AI 研究中,近半数依赖考试式问题而非真实患者数据,仅 5% 使用了真实临床数据。想象一下:医生对你说”AI 认为你得了这个病”,你问”为什么”,医生说”AI 没说”——知情同意和医患信任都成了空话。金融领域也差不多,信贷审批 AI 无法解释拒绝原因,可能直接违反公平信贷法律。可解释 AI 有进展,但对千亿参数级别的大模型,我们仍然很难搞清楚内部的决策逻辑。基础模型透明度指数从 58 分降到了 40 分——最能干的模型,公开的信息最少。复杂性和可解释性之间是根本性的张力,不是加个功能就能解决的。

能源账单。 你可能没想过,跟 AI 聊一次天是有碳足迹的。全球 AI 和数据中心 2024 年消耗了 415 TWh 电力,占全球 1.5-2%,年增长率 15%——比其他行业快 4 倍。碳排放已经超越了航空业,年增速是航空业的 4-5 倍。xAI 训练 Grok 4 一次就烧掉了 310 GWh 电力、7.54 亿升水、约 15 万吨 CO₂。ChatGPT 一个月的碳足迹约等于 260 次跨大西洋航班。MIT 估算 2035 年生成式 AI 年 CO₂ 排放量可达 2.46 亿吨。

更隐蔽的代价藏在”推理”而非”训练”里。2024-2025 年,推理已占 AI 计算总量的 60-70%——不再只是训练时烧钱,而是你每次跟 AI 说话都在烧。DeepSeek R1 的一次长推理查询能耗超过 33 Wh,是轻量模型的 70 倍以上。还有个”凌晨 3 点碳惩罚”:凌晨 2-4 点跟 AI 聊天,碳排放比白天高 67%——因为夜间电网更依赖化石能源。你以为只是跟 AI 聊了句话,背后在烧的是真金白银和真水真电。

数据枯竭。 这是最讽刺的:AI 最需要的是数据,而数据快被 AI 自己吃光了。Epoch AI 预测,人类公开文本数据有效存量约 300 万亿 Token,按当前训练速度,数据耗尽时间在 2026 到 2032 年之间。Elon Musk 2025 年公开说 AI 已经”吞噬了所有”人类训练数据。

枯竭会分三步到来。先是”高质量数据干旱”——维基百科、学术论文、书籍这些精料已经被翻了个底朝天。然后是”合成数据陷阱”——用 AI 生成的内容去训练 AI,会导致模型崩溃,质量不可逆地下降。让AI 吃自己的排泄物,这画面不太好看,但数学上就是这个结果。最后是”多样性死亡螺旋”——AI 只能重新组合见过的东西,文化和创造力越来越单调。

出路在哪?合成数据在数学和编程这种有明确对错的狭窄领域还行,但出了这些领域就不靠谱了。多模态扩展(视频、音频)提供了新的训练素材,但无法替代高质量文本。AI 的下一个突破,大概不是来自更大的模型,而是来自更聪明地管理数据。


四、人机协作:别问”谁替代谁”,问”怎么配合”

一句话原则:让 AI 做费时间的活,让人做担责任的决定。 医生用 AI 筛查 X 光片,AI 几秒标记可疑区域,医生判断要不要进一步检查。律师用 AI 搜案例和出初稿,律师定诉讼策略。程序员让 AI 写代码跑测试,程序员做架构决策和代码审查。

举几个真实的例子。

医学:AI 广撒网,人类精准判。 2025 年华中科技大学在 Cell 子刊 Med 上发了一项研究,用 30,000 多患者的 24 小时动态心电图数据测试房颤检测:仅临床医生的漏诊率 13.7%,仅 AI 的误诊率 23.3%,两者结合——漏诊率和误诊率都是 0%,工作量还降了 76.7%。AI 几乎不会漏诊但容易误诊,医生不会误诊但容易漏诊,两者互补,完美配合。这不是理论推演,是真实数据。

法律:AI 搬砖,律师拍板。 Harvey AI 是法律 AI 的明星产品,2026 年估值 110 亿美元。一项针对 40 家律所和企业法务的独立调研显示:高级用户每月节省 36.9 小时。但 AI 做的是信息提取和文档初稿,诉讼策略和法律判断始终由律师主导。

编程:AI 出活,人把关。 GitHub Copilot 2026 年数据:470 万付费订阅者,但建议接受率只有约 30%——AI 生成的代码只有约 1/3 被采纳。这不是 AI 不好用,恰恰说明人类审查不可或缺。哈佛与 BCG 的联合研究发现:758 名顾问使用 AI 后,初级顾问表现提升 43%,高级顾问仅提升 17%。AI 对能力越弱的人帮助越大,但它不会让新手变成专家。

教育:AI 做效率,教师做温度。 截至 2026 年,全国超 3000 所学校引入了 AI 教学系统。成都英华学校的教师自主开发了 110 个教学智能体,备课从 2 小时缩到 3 分钟。但所有案例指向同一个结论:AI 做的是个性化和效率,教师的情感支持、榜样作用和即时激励——这些不可替代。

三个常见的坑:太信它(流畅自信的答案最需要核查)、太不信它(错过真正能提效的场景)、不知道边界在哪(要么什么都让它做然后失望,要么只用它做最简单的事然后浪费了它的能力)。了解边界,才能物尽其用。

怎么判断一个任务该不该让 AI 做?问自己三个问题就行:出错的代价有多高?需不需要情感和人际互动?是增量改进还是范式级创新?出错代价低、不需要情感、属于增量改进——大胆让 AI 做。出错代价高、需要情感连接、需要真正的原创——人主导,AI 辅助。简单,但好用。


五、评测的局限:分数高不等于能力强

你可能经常看到”XX 模型在 MMLU 上达到 93%”这样的新闻。但这些评测到底意味着什么?我们需要打个问号。

先看 2026 年 4 月最新的评测数据:MMLU-Pro 多学科知识上,Claude Opus 4.5 达到 89.5%,接近人类 89.8% 的水平;GPQA Diamond 研究生级问答上,Gemini 3.1 Pro 拿到 94.1%,远超 PhD 专家的 65%;MATH-500 数学推理上,GPT-5 达到 99.4%;IMO 2025 数学奥赛,AI 拿了 35 分,超过金牌门槛。SWE-bench Verified 真实软件工程上,Claude Opus 4.7 达到 87.6%,但仍未超越资深开发者的约 95%。看起来很猛?慢着——

AI 领域 2025-2026 年最重要的概念之一叫”锯齿状智能”——AI 的能力分布极不均匀,像一把锯齿。某些方面超越人类顶尖水平,另一些方面远不如普通人。AI 能拿数学奥赛金牌,但读模拟时钟的正确率只有 50.6%——人类是 90.1%。AI 能记住百万 Token 的文档,但真实家庭任务中机器人成功率仅 12%。

这意味着什么?AI 不是”差不多什么都能做”,而是”有些事做得惊人地好,有些事惊人地差”——而你很难提前预测哪件事属于哪一类。这就是为什么了解 AI 的能力边界如此重要。

评测本身也有好几个坑。

数据泄露:模型可能”记住”了评测数据。一项研究发现,GPT-4 在 2021 年 9 月之前的 Codeforces 编程题上表现良好,但之后的问题一道也答不对——这说明它可能记住了训练数据中的答案。30 个被分析的模型中,仅 9 个报告了训练-测试数据的重叠情况。

刷榜与 Goodhart 定律:当一项评测成为衡量目标,它就不再是一个好的衡量指标。OpenAI 花费数十万美元在 ARC-AGI 上刷高分。原本预期可用数年的基准,数月内即被饱和。基准正在变成公司的”营销技术奇观”。

基准本身有错:广泛使用的 GSM8K 数学基准,无效问题率高达 42%。你在地基都不稳的考场上比分数,能说明什么?

透明度恶化:基础模型透明度指数从 58 分降至 40 分,84% 的模型未附训练代码。最有能力的模型,公开的信息最少。24 个 SOTA 基准中仅 4 个提供复现脚本。

还有一个大趋势:单纯堆参数的 Scaling Law 已经明显放缓。从 GPT-4 到 GPT-5,参数量增加 36%,训练数据增加 50%,但 MMLU 得分仅提升 18%——投入产出比显著失衡。高推理模式的计算量可以是基础模式的 172 倍,但只把 ARC-AGI 分数提升了十几个百分点。行业实测数据也印证了这一点:1 万亿到 2 万亿参数,计算量增加 133%,推理准确率仅提升 6 个百分点。MMLU-Pro 前三名差距仅 1.7%——这个基准快被刷饱和了。

四家顶尖公司在 Arena 排名中差距仅 25 分——它们正在同一能力天花板处趋同。OpenAI 联合创始人 Ilya Sutskever 说:”每个人都在寻找下一个突破口。”Sam Altman 也承认仅靠增加 GPU 无法获得同比例的智能提升。Yann LeCun 更直接:当前大语言模型无论怎样扩展都无法真正实现 AGI。应对策略已经转向:从”规模驱动”变为”效率驱动”。DeepSeek V4 用华为芯片训练、MoE 架构证明了”用更少的钱做出差不多的效果”是可行的;Grok 4.20 内置四个智能体互相辩论,用”团队讨论”代替”堆参数”;推理模型通过增加推理时的”思考时间”来换取性能提升,而非单纯堆参数。

这对普通人意味着什么?AI 不太可能在短期内突然”全能”。能力的提升会更渐进、更细分,而不是科幻式的跃进。了解这一点,有助于建立合理的预期——既不盲目乐观,也不无谓焦虑。


六、你该怎么办

聊了这么多 AI 的能和不能、安全和风险、评测和局限,最后说点实在的:你该怎么办。

了解 AI 的边界,是使用 AI 的第一步。这篇文章如果只留一句话:信任但验证。 AI 给的每一个关键数字、引用、专业建议,都该核查。养成看一眼原文的习惯。

AI 是放大器,不是替代品。一把锋利的刀,在厨师手里和在我手里,结果完全不同。如果你本来就有判断力,AI 让你更快;如果你没有判断力,AI 让你更快犯错。

别试图”全面拥抱 AI”。找一个你最常做的任务试试——下次写邮件,先让 AI 出个草稿。从一个具体的痛点开始,比从宏大战略开始靠谱。

别被贩卖焦虑的人带节奏。AI 在快速变化,但不是每一项变化都会影响你。关注跟你相关的,忽略噪音。

最后,投资那些 AI 做不好的能力——批判性思维、创造力、同理心、复杂沟通。这不是鸡汤,这是算账:技术会过时,这些能力不会。

说几个具体的合理预期。写邮件和文案,AI 十分钟能出 80 分初稿,但直接发出去不改就完了。编程,简单任务可以让 AI 自动化,但别指望它完全自主开发大型系统。信息查询,AI 能帮你快速概览、提供搜索方向,但 100% 准确就别想了——一定要验证。数据分析,AI 发现模式很强,但做因果推断和战略决策还是得靠人。专业建议,AI 能拓宽思路、提供参考信息,但绝不能替代医生、律师、顾问的专业判断。

AI 像一个能力极强但有明显短板的超级实习生:记忆力惊人,读过几乎所有公开资料;执行速度极快,7×24 不知疲倦;但没有真正的判断力,需要人类把关;偶尔一本正经地胡说八道;不理解”为什么”,只知道”通常怎么做”;从来没有真正”活过”,所有知识都来自文字。

这是 2026 年 AI 的真实水平。比你想象的厉害,但也比科幻电影里差得远。


延伸阅读

《AI 3.0》(梅拉妮·米歇尔)——最诚实的 AI 反思之作,既讲成就也讲局限The Alignment Problem(Brian Christian)——深入探讨 AI 对齐问题Human Compatible(Stuart Russell)——AI 安全领域奠基之作《生命 3.0》(迈克斯·泰格马克)——探讨超级 AI 与人类命运Co-Intelligence(Ethan Mollick)——沃顿商学院教授的人机协作实践指南吴恩达《AI For Everyone》(Coursera)——零基础理解 AI 能力与局限Stanford AI Index Report(hai.stanford.edu)——每年最权威的 AI 行业数据


下一篇预告

04-AI 工具这么多,到底该学哪个?2024-2026 全景地图

了解了 AI 的能力边界,下一步就是选对工具。下一篇给你一张完整的 AI 产品全景图,帮你找到最适合自己的那一个。


本文参考了斯坦福大学《2026 AI 指数报告》、MIT Technology Review 2026 年 AI 十大趋势、各模型官方评测数据、以及 2025-2026 年公开报道。文中数据截至 2026 年 4 月。如有疑问或建议,欢迎留言交流。