AI安全的真实威胁:幻觉、偏见还是失控的Agent?
一个强大工具最危险的时候,往往不是它明显失灵,而是它看起来运转良好。
前言
2023年,美国一名律师把 AI 生成的案例引用直接交进了法庭。
格式完整,语气专业,乍一看像一份很像样的法律文件。问题是,那些案例根本不存在。
这个新闻真正让人不安的地方,不是 AI “犯了一次低级错误”,而是它暴露了今天更现实的安全问题:
AI 很多时候不是以“机器人叛乱”的方式吓人,而是以“看起来没问题”的方式进入流程、影响判断,甚至替人执行动作。
所以如果你今天还把 AI 安全理解成“未来会不会觉醒”,你可能会错过眼前更重要的三类风险:
• 幻觉:它会自信地说错
• 偏见:它会继承并放大旧数据里的倾斜
• Agent 失控:它一旦有执行权限,错误就不再只是文字错误
这篇文章想讲清楚的核心只有一句:
AI 最现实的威胁,不是它像电影里那样突然反叛,而是它在看似正常的情况下,把错误、偏见和越权操作带进现实世界。

一、AI幻觉:最常见,也最容易被低估
很多人以为,AI 出错的意思是“它不知道”。
但更麻烦的情况恰恰相反:它会给出一个听起来像知道的答案。
所谓 AI 幻觉,可以先记成一句很直白的话:
它不是沉默地答不上来,而是流畅地答错。
这类错误最危险的地方,不是内容本身离谱,而是它常常具备三个特征:
• 语气很肯定
• 格式很规范
• 从输出表面看,不容易立刻识别出问题
你在日常使用里最容易遇到的,通常是这三种:
1. 事实说错,但说得像真的
比如你问一个历史问题,AI 把年份、人物、因果关系都讲得头头是道,甚至还会主动补背景。
真正的问题是,普通用户不会每句话都去核对。
一旦它的“自信外壳”比你的警惕心更强,错误就会被当成知识直接带走。
2. 引用是编的,但格式像论文
这是很多人第一次被 AI “骗到”的场景。
你让它列论文、列判例、列参考资料,它不仅会给标题、作者、期刊、年份,还会排得像模像样。
问题在于,格式正确,不等于来源真实。
尤其在具体引用、具体数据、具体出处这类任务上,AI 的“像真”能力往往比“真对”能力更强。
3. 代码或操作建议看起来能用,细节却埋雷
写代码时,它可能给出一个大体方向正确、但调用细节有坑的方案。
问专业问题时,它也可能把“常见做法”说成“标准答案”。
这类输出最容易让人掉以轻心,因为它们不是全错,而是“八成像对的,两成足以出事”。
这也是为什么很多团队现在会把 factuality 单独拿出来评估。
不是因为幻觉偶尔才发生,而是因为它在生成式系统里一直都是需要重点防的失败模式。任务越专业、越具体、越依赖细节一致性,这个风险往往越明显。
所以对普通用户来说,最先要防的,不是 AI 会不会觉醒,而是 AI 明明不对,却像对的一样。
二、偏见:它不一定讨厌谁,但会重复旧世界的倾斜
如果说幻觉的问题是“答错”,那偏见的问题就是“偏着答、偏着判”。
而且它往往不是通过一句明显冒犯的话出现的,而是体现在分数、排序、推荐、筛选和通过率里。
这也是偏见问题最隐蔽的地方:
系统看起来在“客观计算”,但它学进去的,可能本来就是一个不够公平的旧世界。
很多人提到 AI 偏见,第一反应会想到训练数据。
这当然没错,但更完整一点说,偏见通常来自三层叠加:
• 训练数据本身就不均衡
• 标注和评价标准带着隐含偏好
• 系统优化的目标把某种历史结果当成了“更好”
亚马逊那套著名的简历筛选工具就是典型例子。
它学习的是过去一段时间里被录用工程师的简历,但如果历史样本本身就高度偏向男性,系统就很容易把某些与女性相关的表达学成“减分信号”。
这不是因为机器“讨厌女性”,而是因为它把旧样本里的倾斜,当成了应该复现的规律。
同样的风险,也会出现在别的场景里:
• 招聘系统:某类经历、学校、关键词被系统性低估
• 信贷评分:某些地域、收入群体或行为模式被过度当成高风险
• 医疗模型:数据不足的人群上准确率明显下降
• 翻译和推荐系统:性别刻板印象被不断强化
放到国内语境里,几个更值得普通人警惕的点是:
• 推荐系统不断加深“越看越像你”的信息茧房
• 自动评分系统对非标准化表达不够友好
• 人脸识别或身份核验在不同人群上的表现不完全一致
• 金融和风控模型可能把地域、职业、消费行为当成粗糙标签
偏见之所以难处理,不是因为它总是显眼,而是因为它经常披着“数据驱动”的外衣。
一个系统只要开始参与筛选、分配和判断,它就不再只是一个工具问题,而是一个现实后果问题。
三、Agent真正改变了风险形态:错误开始有“手”和“脚”
普通聊天机器人出错,很多时候还停留在“说错了”。
但 Agent 不一样。
一旦它能读邮件、调接口、改文件、发消息、点按钮,错误就会从“错误输出”变成“错误动作”。
这也是为什么我会觉得,Agent 让 AI 安全问题进入了一个更麻烦的阶段:
以前我们主要担心它会不会胡说;现在还要担心它会不会真的去做。
当前最值得注意的三类风险是:
1. 指令注入:它可能把外部内容误当成你的命令
研究界通常把这类问题叫做 Prompt Injection,尤其是 indirect prompt injection。
简单理解,就是攻击者把一段恶意指令藏在邮件、网页、文档或其他外部内容里,等 Agent 读取时,把那段内容误当成“该执行的命令”。
你本来只是让它“帮我处理收件箱”,它却可能被一段外部文本带偏。
这类攻击不是纸面设想。早在 2023 年,相关论文就已经展示了它在真实 LLM 集成应用里的可行性;到 2025 年,微软仍把它列为需要重点防御的现实问题。
2. 权限滥用:它不一定恶意,但可能把你的授权用错地方
很多人一上来就愿意给 Agent 很高的权限:
• 访问邮箱
• 读写文档
• 管理云盘
• 发送消息
• 直接调用业务系统
问题是,权限一旦给出去,系统的每一次误解都会被放大。
你说“整理文件”,它也许理解成“合并并清理重复项”; 你说“帮我发个确认”,它也许理解成“直接群发通知”。
如果中间没有确认环节,AI 的一次误判就可能变成不可逆操作。
3. 连锁放大:多个 Agent 串起来,小错也可能变大错
单个 Agent 出错,已经够麻烦。
更麻烦的是,多 Agent 协作会让错误沿着流程往下传:
• 分析 Agent 先给出错误判断
• 决策 Agent 基于错误判断提出建议
• 执行 Agent 再把错误建议落实成动作
这样一来,前面那个原本只需要人工复核就能拦下来的小问题,最后可能变成真实业务事故。
所以 Agent 最大的新风险,不是“更聪明”,而是“更接近执行层”。
四、这不是纸上谈兵:几个已经发生过的真实案例
为了避免把 AI 安全讲成抽象概念,不如直接看几个已经发生过的案例。

案例一:2023年,美国律师把 AI 编造的案例交进法庭
在 Mata v. Avianca 一案里,律师使用 AI 辅助撰写法律文件,结果提交了多个根本不存在的判例引用。
最值得警惕的,不只是“AI 说错了”,而是这些内容看起来非常像真的,最后还被人类直接带进了正式流程。
这个案例说明的是:
幻觉真正危险的地方,不是它错,而是它错得像真的。
案例二:亚马逊的招聘工具,把历史偏差学成了筛选规则
公开报道显示,亚马逊从 2014 年左右开始尝试用算法筛选工程师简历,随后发现系统会对某些与女性相关的表达产生不利倾向,最终在 2018 年放弃了这套工具。
这个案例最值得记住的一点是:
它不是因为系统“说了歧视性的话”才危险,而是因为系统在看起来高效、客观的流程里,复制了原本就存在的偏差。
这正是偏见风险最现实的样子。
案例三:2024年,香港发生深度伪造视频会议诈骗
按香港政府 2024 年 6 月的公开回复,警方在统计 deepfake 诈骗案件时,提到其中一宗发生于 2024 年 1 月,损失约 2 亿港元。
这类案件之所以重要,不只是因为“AI 能换脸”,而是因为它把“逼真的生成能力”直接连接到了转账、审批和执行动作。
一旦人把“看起来像真的”误当成“就是真的”,风险就会从内容判断,直接变成现实损失。
把这三个案例放在一起看,你会发现一个共同点:
它们都不是电影里那种夸张的“系统全面失控”。
它们更像是三个非常现实的问题:
• 你信了不该信的输出
• 你把旧偏差交给系统放大
• 你让系统在没有足够护栏的情况下代你行动
这才是 AI 安全今天更真实的面貌。
五、“对齐税”为什么总被反复讨论
AI 研究里常有人提“对齐税”这个说法。
它大致是在讲一件事:
为了让系统更稳、更可控、更符合人的意图,你往往需要增加额外约束,比如审核、拒答、确认机制、权限边界、人工复核。
这些设计有时会带来代价,比如:
• 速度变慢
• 拒答变多
• 使用链路更长
• 某些“很爽”的能力被收起来
所以很多人会把它理解成一句很顺口的话:
“更安全,就更难用。”
但这句话也不能说得太绝对。
更准确的理解应该是:
安全优化经常会带来某种摩擦,但不是所有安全设计都等于更差体验。
有些确认机制会让流程变慢,但也会减少高代价错误; 有些拒答会让人嫌麻烦,但也能防止系统一本正经地胡说; 有些权限边界会让 Agent 看起来没那么全能,但也恰恰是它值得被真正部署的前提。
不同公司在这件事上的取舍并不一样。
有的产品更强调“先帮你做出来”,有的更强调“先确保别出大事”。
你不一定永远喜欢更保守的系统,但在高风险场景里,真正值得信任的,往往不是最敢放手的那个,而是最清楚自己什么时候该停下来的那个。
所以判断一个 AI 产品靠不靠谱,不只看它有多强,还要看它在什么时候说“不”,什么时候要求确认。
六、普通用户怎么和AI安全相处
如果前面讲的都太抽象,你可以先记住下面这份“够用版清单”。

1. 重要信息,不要只看 AI 的一句总结
尤其是数字、引用、政策、专业结论。
AI 可以帮你找方向、做摘要、列问题,但别让它直接充当终局判断。
2. 医疗、法律、金融这类内容,默认提高警惕
这些领域的代价太高,不能把“看起来专业”当成“已经可靠”。
让 AI 帮你做初步整理可以,但最后一定要回到可信来源或专业人士。
3. 不要给 Agent 不必要的高权限
能只读,就别直接给写权限; 能草拟,就别直接给发送权限; 能模拟运行,就别一上来让它真执行。
4. 对不可逆操作,加一道确认
发邮件、删文件、转账、改数据库、批量通知,这些都不该让 AI 一步到位。
真正安全的自动化,不是“它能直接做”,而是“它在关键一步会停下来问你一句”。
5. 敏感信息不要随手喂
身份证号、银行卡号、内部合同、客户隐私、未公开商业数据,这些都不该因为“方便”就直接塞给公共 AI 服务。
6. 在团队里先约定:哪一步必须人工复核
这条很重要。
很多事故不是因为 AI 本身太强,而是因为流程默认“它说完就算数”。
只要把“哪些场景必须人工拍板”提前定清楚,很多风险都会立刻下降。
如果你只想带走一句最实用的话,我会建议是这个:
把 AI 当成高效率助手,而不是默认可信的判断源。
小结
把今天这篇文章压缩成 3 句话,大概就是:
• 幻觉的问题,是它会像知道一样说错
• 偏见的问题,是它会把旧世界的不公平带进新系统
• Agent 的问题,是它一旦开始执行,错误就会变成后果
所以 AI 安全真正可怕的,不是“它会不会有一天突然失控”。
而是它已经在很多看起来正常的场景里,悄悄影响判断、筛选和行动。
思考题
如果一个团队正在把 AI 接进工作流里,你觉得最应该先加上的,不是“更强的模型”,而是哪一道人工确认?
欢迎把你的答案留在评论区。
下期预告
安全问题讨论完,我们看向更远的未来:
《AGI倒计时?解读各家对通用人工智能的最新判断》
会继续拆这些问题:
• OpenAI、Anthropic、DeepMind 分别怎么判断 AGI 的到来节奏?
• ARC-AGI-2 的分数到底说明了什么?
• 为什么“AGI 快到了”这句话,既可能有道理,也可能很危险?
参考资料
• OpenAI,2024,《Introducing SimpleQA》
• Anthropic,2022,《Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback》
• Microsoft Security Response Center,2025,《How Microsoft defends against indirect prompt injection attacks》
• Reuters,2018,Amazon recruiting tool bias reporting
• 香港特别行政区政府,2024,关于 deepfake 诈骗案件的公开回复
作者:ECH00O00
首发于专栏《AI风向标》
如果这篇文章对你有启发,欢迎点赞、收藏、转发。你的支持是我持续创作的最大动力。❤️
夜雨聆风