AI风向标 | AI安全的真实威胁:幻觉、偏见还是失控的Agent?

AI安全的真实威胁：幻觉、偏见还是失控的Agent？

一个强大工具最危险的时候，往往不是它明显失灵，而是它看起来运转良好。

前言

2023年，美国一名律师把 AI 生成的案例引用直接交进了法庭。

格式完整，语气专业，乍一看像一份很像样的法律文件。问题是，那些案例根本不存在。

这个新闻真正让人不安的地方，不是 AI “犯了一次低级错误”，而是它暴露了今天更现实的安全问题：

AI 很多时候不是以“机器人叛乱”的方式吓人，而是以“看起来没问题”的方式进入流程、影响判断，甚至替人执行动作。

所以如果你今天还把 AI 安全理解成“未来会不会觉醒”，你可能会错过眼前更重要的三类风险：

• 幻觉：它会自信地说错

• 偏见：它会继承并放大旧数据里的倾斜

• Agent 失控：它一旦有执行权限，错误就不再只是文字错误

这篇文章想讲清楚的核心只有一句：

AI 最现实的威胁，不是它像电影里那样突然反叛，而是它在看似正常的情况下，把错误、偏见和越权操作带进现实世界。

一、AI幻觉：最常见，也最容易被低估

很多人以为，AI 出错的意思是“它不知道”。

但更麻烦的情况恰恰相反：它会给出一个听起来像知道的答案。

所谓 AI 幻觉，可以先记成一句很直白的话：

它不是沉默地答不上来，而是流畅地答错。

这类错误最危险的地方，不是内容本身离谱，而是它常常具备三个特征：

• 语气很肯定

• 格式很规范

• 从输出表面看，不容易立刻识别出问题

你在日常使用里最容易遇到的，通常是这三种：

1. 事实说错，但说得像真的

比如你问一个历史问题，AI 把年份、人物、因果关系都讲得头头是道，甚至还会主动补背景。

真正的问题是，普通用户不会每句话都去核对。

一旦它的“自信外壳”比你的警惕心更强，错误就会被当成知识直接带走。

2. 引用是编的，但格式像论文

这是很多人第一次被 AI “骗到”的场景。

你让它列论文、列判例、列参考资料，它不仅会给标题、作者、期刊、年份，还会排得像模像样。

问题在于，格式正确，不等于来源真实。

尤其在具体引用、具体数据、具体出处这类任务上，AI 的“像真”能力往往比“真对”能力更强。

3. 代码或操作建议看起来能用，细节却埋雷

写代码时，它可能给出一个大体方向正确、但调用细节有坑的方案。

问专业问题时，它也可能把“常见做法”说成“标准答案”。

这类输出最容易让人掉以轻心，因为它们不是全错，而是“八成像对的，两成足以出事”。

这也是为什么很多团队现在会把 factuality 单独拿出来评估。

不是因为幻觉偶尔才发生，而是因为它在生成式系统里一直都是需要重点防的失败模式。任务越专业、越具体、越依赖细节一致性，这个风险往往越明显。

所以对普通用户来说，最先要防的，不是 AI 会不会觉醒，而是 AI 明明不对，却像对的一样。

二、偏见：它不一定讨厌谁，但会重复旧世界的倾斜

如果说幻觉的问题是“答错”，那偏见的问题就是“偏着答、偏着判”。

而且它往往不是通过一句明显冒犯的话出现的，而是体现在分数、排序、推荐、筛选和通过率里。

这也是偏见问题最隐蔽的地方：

系统看起来在“客观计算”，但它学进去的，可能本来就是一个不够公平的旧世界。

很多人提到 AI 偏见，第一反应会想到训练数据。

这当然没错，但更完整一点说，偏见通常来自三层叠加：

• 训练数据本身就不均衡

• 标注和评价标准带着隐含偏好

• 系统优化的目标把某种历史结果当成了“更好”

亚马逊那套著名的简历筛选工具就是典型例子。

它学习的是过去一段时间里被录用工程师的简历，但如果历史样本本身就高度偏向男性，系统就很容易把某些与女性相关的表达学成“减分信号”。

这不是因为机器“讨厌女性”，而是因为它把旧样本里的倾斜，当成了应该复现的规律。

同样的风险，也会出现在别的场景里：

• 招聘系统：某类经历、学校、关键词被系统性低估

• 信贷评分：某些地域、收入群体或行为模式被过度当成高风险

• 医疗模型：数据不足的人群上准确率明显下降

• 翻译和推荐系统：性别刻板印象被不断强化

放到国内语境里，几个更值得普通人警惕的点是：

• 推荐系统不断加深“越看越像你”的信息茧房

• 自动评分系统对非标准化表达不够友好

• 人脸识别或身份核验在不同人群上的表现不完全一致

• 金融和风控模型可能把地域、职业、消费行为当成粗糙标签

偏见之所以难处理，不是因为它总是显眼，而是因为它经常披着“数据驱动”的外衣。

一个系统只要开始参与筛选、分配和判断，它就不再只是一个工具问题，而是一个现实后果问题。

三、Agent真正改变了风险形态：错误开始有“手”和“脚”

普通聊天机器人出错，很多时候还停留在“说错了”。

但 Agent 不一样。

一旦它能读邮件、调接口、改文件、发消息、点按钮，错误就会从“错误输出”变成“错误动作”。

这也是为什么我会觉得，Agent 让 AI 安全问题进入了一个更麻烦的阶段：

以前我们主要担心它会不会胡说；现在还要担心它会不会真的去做。

当前最值得注意的三类风险是：

1. 指令注入：它可能把外部内容误当成你的命令

研究界通常把这类问题叫做 Prompt Injection，尤其是 indirect prompt injection。

简单理解，就是攻击者把一段恶意指令藏在邮件、网页、文档或其他外部内容里，等 Agent 读取时，把那段内容误当成“该执行的命令”。

你本来只是让它“帮我处理收件箱”，它却可能被一段外部文本带偏。

这类攻击不是纸面设想。早在 2023 年，相关论文就已经展示了它在真实 LLM 集成应用里的可行性；到 2025 年，微软仍把它列为需要重点防御的现实问题。

2. 权限滥用：它不一定恶意，但可能把你的授权用错地方

很多人一上来就愿意给 Agent 很高的权限：

• 访问邮箱

• 读写文档

• 管理云盘

• 发送消息

• 直接调用业务系统

问题是，权限一旦给出去，系统的每一次误解都会被放大。

你说“整理文件”，它也许理解成“合并并清理重复项”；你说“帮我发个确认”，它也许理解成“直接群发通知”。

如果中间没有确认环节，AI 的一次误判就可能变成不可逆操作。

3. 连锁放大：多个 Agent 串起来，小错也可能变大错

单个 Agent 出错，已经够麻烦。

更麻烦的是，多 Agent 协作会让错误沿着流程往下传：

• 分析 Agent 先给出错误判断

• 决策 Agent 基于错误判断提出建议

• 执行 Agent 再把错误建议落实成动作

这样一来，前面那个原本只需要人工复核就能拦下来的小问题，最后可能变成真实业务事故。

所以 Agent 最大的新风险，不是“更聪明”，而是“更接近执行层”。

四、这不是纸上谈兵：几个已经发生过的真实案例

为了避免把 AI 安全讲成抽象概念，不如直接看几个已经发生过的案例。

案例一：2023年，美国律师把 AI 编造的案例交进法庭

在 Mata v. Avianca 一案里，律师使用 AI 辅助撰写法律文件，结果提交了多个根本不存在的判例引用。

最值得警惕的，不只是“AI 说错了”，而是这些内容看起来非常像真的，最后还被人类直接带进了正式流程。

这个案例说明的是：

幻觉真正危险的地方，不是它错，而是它错得像真的。

案例二：亚马逊的招聘工具，把历史偏差学成了筛选规则

公开报道显示，亚马逊从 2014 年左右开始尝试用算法筛选工程师简历，随后发现系统会对某些与女性相关的表达产生不利倾向，最终在 2018 年放弃了这套工具。

这个案例最值得记住的一点是：

它不是因为系统“说了歧视性的话”才危险，而是因为系统在看起来高效、客观的流程里，复制了原本就存在的偏差。

这正是偏见风险最现实的样子。

案例三：2024年，香港发生深度伪造视频会议诈骗

按香港政府 2024 年 6 月的公开回复，警方在统计 deepfake 诈骗案件时，提到其中一宗发生于 2024 年 1 月，损失约 2 亿港元。

这类案件之所以重要，不只是因为“AI 能换脸”，而是因为它把“逼真的生成能力”直接连接到了转账、审批和执行动作。

一旦人把“看起来像真的”误当成“就是真的”，风险就会从内容判断，直接变成现实损失。

把这三个案例放在一起看，你会发现一个共同点：

它们都不是电影里那种夸张的“系统全面失控”。

它们更像是三个非常现实的问题：

• 你信了不该信的输出

• 你把旧偏差交给系统放大

• 你让系统在没有足够护栏的情况下代你行动

这才是 AI 安全今天更真实的面貌。

五、“对齐税”为什么总被反复讨论

AI 研究里常有人提“对齐税”这个说法。

它大致是在讲一件事：

为了让系统更稳、更可控、更符合人的意图，你往往需要增加额外约束，比如审核、拒答、确认机制、权限边界、人工复核。

这些设计有时会带来代价，比如：

• 速度变慢

• 拒答变多

• 使用链路更长

• 某些“很爽”的能力被收起来

所以很多人会把它理解成一句很顺口的话：

“更安全，就更难用。”

但这句话也不能说得太绝对。

更准确的理解应该是：

安全优化经常会带来某种摩擦，但不是所有安全设计都等于更差体验。

有些确认机制会让流程变慢，但也会减少高代价错误；有些拒答会让人嫌麻烦，但也能防止系统一本正经地胡说；有些权限边界会让 Agent 看起来没那么全能，但也恰恰是它值得被真正部署的前提。

不同公司在这件事上的取舍并不一样。

有的产品更强调“先帮你做出来”，有的更强调“先确保别出大事”。

你不一定永远喜欢更保守的系统，但在高风险场景里，真正值得信任的，往往不是最敢放手的那个，而是最清楚自己什么时候该停下来的那个。

所以判断一个 AI 产品靠不靠谱，不只看它有多强，还要看它在什么时候说“不”，什么时候要求确认。

六、普通用户怎么和AI安全相处

如果前面讲的都太抽象，你可以先记住下面这份“够用版清单”。

1. 重要信息，不要只看 AI 的一句总结

尤其是数字、引用、政策、专业结论。

AI 可以帮你找方向、做摘要、列问题，但别让它直接充当终局判断。

2. 医疗、法律、金融这类内容，默认提高警惕

这些领域的代价太高，不能把“看起来专业”当成“已经可靠”。

让 AI 帮你做初步整理可以，但最后一定要回到可信来源或专业人士。

3. 不要给 Agent 不必要的高权限

能只读，就别直接给写权限；能草拟，就别直接给发送权限；能模拟运行，就别一上来让它真执行。

4. 对不可逆操作，加一道确认

发邮件、删文件、转账、改数据库、批量通知，这些都不该让 AI 一步到位。

真正安全的自动化，不是“它能直接做”，而是“它在关键一步会停下来问你一句”。

5. 敏感信息不要随手喂

身份证号、银行卡号、内部合同、客户隐私、未公开商业数据，这些都不该因为“方便”就直接塞给公共 AI 服务。

6. 在团队里先约定：哪一步必须人工复核

这条很重要。

很多事故不是因为 AI 本身太强，而是因为流程默认“它说完就算数”。

只要把“哪些场景必须人工拍板”提前定清楚，很多风险都会立刻下降。

如果你只想带走一句最实用的话，我会建议是这个：

把 AI 当成高效率助手，而不是默认可信的判断源。

小结

把今天这篇文章压缩成 3 句话，大概就是：

• 幻觉的问题，是它会像知道一样说错

• 偏见的问题，是它会把旧世界的不公平带进新系统

• Agent 的问题，是它一旦开始执行，错误就会变成后果

所以 AI 安全真正可怕的，不是“它会不会有一天突然失控”。

而是它已经在很多看起来正常的场景里，悄悄影响判断、筛选和行动。

思考题

如果一个团队正在把 AI 接进工作流里，你觉得最应该先加上的，不是“更强的模型”，而是哪一道人工确认？

欢迎把你的答案留在评论区。

下期预告

安全问题讨论完，我们看向更远的未来：

《AGI倒计时？解读各家对通用人工智能的最新判断》

会继续拆这些问题：

• OpenAI、Anthropic、DeepMind 分别怎么判断 AGI 的到来节奏？

• ARC-AGI-2 的分数到底说明了什么？

• 为什么“AGI 快到了”这句话，既可能有道理，也可能很危险？

参考资料

• OpenAI，2024，《Introducing SimpleQA》

• Anthropic，2022，《Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback》

• Microsoft Security Response Center，2025，《How Microsoft defends against indirect prompt injection attacks》

• Reuters，2018，Amazon recruiting tool bias reporting

• 香港特别行政区政府，2024，关于 deepfake 诈骗案件的公开回复

作者：ECH00O00
首发于专栏《AI风向标》
如果这篇文章对你有启发，欢迎点赞、收藏、转发。你的支持是我持续创作的最大动力。❤️