
Learn By Doing With Steven 数能生智
"我们相信 AI 是人类有史以来最危险的技术,但我们仍然要开发它。" 这是 Anthropic 联合创始人 Dario Amodei 的原话。这句话的内在张力,揭示了整个 AI 安全话语背后最少被讨论、最值得深思的结构性问题:在这个领域,"安全"究竟是真实的道德承诺,还是一种精心设计的商业护城河?
两个世界的"AI 安全"
"AI Safety(AI 安全)"这个词,在 2025 年的 AI 生态中,被至少两种截然不同的力量引用,服务于截然不同的目的:
世界一:学术与研究领域的 AI 安全
这里的 AI 安全,是指对齐(Alignment)、可解释性(Interpretability)、鲁棒性(Robustness)等技术领域的研究。研究者们在问:如果 AI 系统真的变得超级智能,我们如何确保它的目标与人类价值观一致?这个问题是真实的,研究是严肃的,涉及技术难题的深度远超公众认知。
世界二:商业竞争中的 AI 安全
这里的 AI 安全,往往变成了:我的模型有护栏(Guardrails),你的没有;我们负责任,他们不负责任;支持监管,是因为监管对已经领先的公司有利,因为进入壁垒会阻止后来的挑战者。
这两个世界,经常被用同一套语言包装,让外界难以区分。
一、"有效加速主义"vs"有效利他主义"的本质是什么?
2023-2024 年,AI 圈最激烈的意识形态争论,是 **e/acc(有效加速主义,Effective Accelerationism)**与 **EA/AI Safety(有效利他主义与 AI 安全)**阵营之间的对立。
表面上,这是一场关于"AI 发展速度"的哲学辩论。
深一层看,这是一场利益竞争:
- e/acc 阵营
(代表人物:Marc Andreessen、部分 YC 创始人)的核心利益:更少监管、更快迭代、更低门槛——有利于资源较少的挑战者和更激进的商业模式。 - AI Safety 阵营
(代表人物:Ilya Sutskever、Geoffrey Hinton、部分 Anthropic/DeepMind 研究员)的核心利益:更高的安全标准——这些标准需要大量资源来满足,自然地形成进入壁垒,有利于已经领先的大公司。
这不意味着 AI Safety 研究者是虚伪的。许多人有真诚的价值关切。但客观上,他们的政策诉求,与头部公司的商业利益之间,存在高度的利益一致性——而这种一致性,从未被充分披露和讨论。
二、"负责任 AI"的监管政治经济学
2023 年,OpenAI CEO Sam Altman 亲赴美国国会,呼吁加强 AI 监管。他的主要论点:AI 太危险了,需要联邦级别的监管机构。
表面听起来是道德主张。但让我们分析监管在经济上意味着什么:
对领先公司(OpenAI、Anthropic、Google)的影响:监管要求(安全审计、红队测试、模型登记、计算门槛)对它们来说,是已经在做的事情的成本合法化——而且这些成本,对有数百亿美元资金的公司是可以承受的。
对新进入者和开源社区的影响:同样的监管要求,可能让小型创业公司和开源项目无法承担合规成本,从而退出竞争——有效地将市场锁定给少数几个已经领先的玩家。
这个逻辑,在经济学里有一个经典名称:监管俘获(Regulatory Capture)——被监管的行业,利用监管过程来限制竞争、保护现有玩家的利益。
三、Anthropic 的双重性:最诚实的矛盾
Anthropic 是这个话题最值得分析的案例,因为它把这种张力展现得最为明显。
Anthropic 的核心定位:一家由"AI 存在风险"驱动的安全优先 AI 公司。
但与此同时:
它的模型 Claude 系列,能力与 GPT-4o 直接竞争,在性能基准上不相上下 它接受了来自亚马逊 AWS 总计约 80 亿美元的战略投资 它正在将 Claude API 作为核心商业产品进行大力推广
Dario Amodei 的那句话——"我们相信 AI 是有史以来最危险的技术,但我们仍然要开发它"——是一种正当的道德逻辑:"如果这技术不可避免,让有责任心的人来做。"
但我们也可以问:如果 Anthropic 今天在性能竞争中失败、没有商业收入,它的"安全优先"使命还会继续吗?
这不是批评,而是观察:使命与商业利益的捆绑,使得真正独立的"安全"判断变得极其困难。
四、开源模型的"安全悖论"
开源 AI 安全领域的辩论,揭示了另一个深层矛盾。
闭源阵营的核心论点:开源高性能模型,意味着任何人——包括恶意行为者——都可以访问和修改这些模型,用于生成有害内容、武器辅助、网络攻击。
开源阵营的反驳:闭源模型本身也不安全(可以通过越狱绕过护栏),而闭源会带来新的风险——权力的极度集中。如果 AI 能力只掌握在少数几个公司手中,那"谁来监督这些公司"本身就成了更大的安全问题。
两个论点都有真实的成分。但在这场辩论中,支持"闭源更安全"的声音,几乎全部来自闭源模型公司;支持"开源更安全"的声音,几乎全部来自开源模型公司或其支持者。 利益清晰地与立场对应。
五、真正的 AI 安全应该是什么样的?
在商业噪音之外,真正有意义的 AI 安全研究,集中在以下几个方向:
可解释性(Interpretability):Anthropic 的 Claude 可解释性团队的研究,实际上是全球最前沿的,包括 Sparse Autoencoder 特征提取等技术,真正在试图理解模型内部发生了什么。
鲁棒对齐(Robust Alignment):如何确保模型在分布外(Out-of-Distribution)的场景下,仍然保持期望的行为?这是一个真实的技术难题,不依赖于任何商业动机。
AI 审计独立性:让独立的第三方机构(不依附于任何 AI 公司)有权审计前沿模型的安全性——这是目前最缺失、也最不被大公司欢迎的机制。
保持独立思考
在 AI 时代,"安全"话语的生产者,同时也是最大的 AI 能力生产者。这种结构性的利益冲突,不会因为当事人有真诚的使命感而消失。
作为观察者和使用者,我们需要的,是对"安全主张"的独立评估能力:
谁在说这个话?他的商业利益是什么? 这个安全主张,在技术上是可验证的,还是不可证伪的? 支持监管的呼声,其真正受益者是公众,还是已经领先的大公司?
在 AI 时代,最危险的不是技术失控,而是对"安全"概念的垄断——被用来服务于权力集中,而非真正的人类福祉。
你认为 AI 公司的"安全"承诺中,有多少是真实的,有多少是营销?欢迎大胆地在评论区表达你的看法。
Learn By Doing With Steven 数能生智All my links: https://linktr.ee/learnbydoingwithsteven
夜雨聆风