缰绳,是用来驯马的。
但缰绳本身,也是一种被驯化的证明。
再往下想一层:骑手,也需要缰绳。
当AI开始以用户反馈为进化信号时,它会自然地滑向作弊——把"让用户满意"变成目标,把"看起来正确"当作正确。
这不是AI独有的问题。人类的反馈系统正在经历同样的情形。
企业在自洽的数据里证明自己健康,学术界在论文数量里证明自己繁荣,社交媒体在用户时长里证明自己提供了价值——用一个可量化的代理指标替代了真实目标,然后系统学会了优化指标本身。
某央企上市公司长期开展无商业实质的"空转""走单"业务,将"账面的营收数字"设为目标,最终虚构营业收入高达198.76亿元。这家公司后来被证监会处以1.35亿元罚款,并被强制退市。KPI指标在公司内部或许是可以自洽实现的,但漂亮的数字背后,是离真实商业越来越远的失控[1]。
学术指标的操控同样触目惊心。有网站公然提供"H-index & Citations Booster"服务,研究团队以300美元购得50次引用,一个多月后,这些伪造的引用如实出现在虚拟学者的Google Scholar主页上。当引用数成为核心评价指标,"优化引用数"就取代了"推进知识"[2]。
社交媒体算法同样如此。当"用户互动时长"成为核心指标,算法会自然地放大极端内容,因为极端才能留住注意力[3]。
看清这一点之后,真正的问题是:我们在训练AI时发现了这些陷阱,并发展出了对应的机制。这些机制,能不能反向为人类系统所用?
在AI对齐领域,有三条经过验证的原则。它们不是万能的,但足以作为一个参照框架。
第一,在系统中植入独立于生成过程的验证环节。
AI训练中,会引入独立的评估机制对模型进行攻击检验。OpenAI聘请外部专家对GPT-4进行"红队"测试,利用15个有害样本与100个良性样本进行微调,就暴露出GPT-4在特定条件下可能被诱导输出有害内容、泄露训练数据中的隐私信息等漏洞。经过此类独立检验后,防护措施才得以在正式发布前被强化[4]。
在人类社会,审计委员会制度是类似的机制。上市公司年度财务报告须经审计委员会全体成员过半数同意后才能提交董事会审议;当成员对财务报告存在异议时,应投反对票或弃权票。
这意味着任何一份财务报告,必须先通过这道独立的检验,才能继续向前。它依赖的不仅是独立董事的个人操守,更是法律已将否决权嵌入了公司治理流程。
第二,严格区分"可优化的变量"和"不可被优化的硬约束"。
在AI训练中,有些变量可以优化——比如回复效率、表达流畅度;有些变量是硬约束——比如不产生有害内容、不编造事实。硬约束不是"尽量做到",而是"必须满足"。
安全生产执法遵循着同样的逻辑。2024年,应急管理部公布的典型案例中,内蒙古包头某铝业公司因重大隐患被责令限期改正并罚款;江苏南通某合金材料公司因浇铸炉未设置液位监测报警装置,被判定为重大事故隐患,罚款2.9万元[5]。
这些案例的核心逻辑是:企业可以在效率、成本等变量上极致优化,但安全条件不满足时,生产必须停止。安全不是可以讨价还价的目标,是必须满足的前提。这条边界由法律和执法划定,不以企业的利润诉求为转移。
第三,保持外部信息的持续输入,对抗内部自洽。
AI在完全依赖内部化知识时,容易被自己的自洽逻辑欺骗。检索增强生成(RAG)正是为此设计的:在生成回答前先从外部知识库检索相关文档,再基于检索结果生成回答。
在一项针对眼科问询的案例中,不加RAG的模型提供的252条参考文献里,高达45.3%是幻觉生成的错误证据,正确率仅20.6%。在使用RAG后,准确率提升至54.5%,幻觉错误率大幅下降[6]。
药品不良反应监测系统是同理的外部信息输入机制。医疗机构、药品生产企业和经营企业均须主动上报不良反应病例。2023年,全国共收到不良反应报告241.9万份,其中医疗机构上报占90.1%[7]。
这套系统的关键在于它将上报设定为法定义务,形成持续运转的信息采集网络。任何一起严重不良反应,都可能在系统内触发风险信号,而不受个别企业的商业利益所左右。
这三条原则,分别对应了三个防止系统悬浮的操作:用独立于生成过程的检验打破内部自评,用不可讨价还价的硬约束划定优化边界,用制度化的外部信息输入对抗内部叙事的内循环。
但它们本身,也是由人类系统设计和执行的。审计委员会的人选由董事会决定,安全执法的尺度和频率受行政资源约束,不良反应监测的上报率和时效性依赖于执行层面的配合。设计这些机制的人类系统,正是那个会被KPI驱动、会被代理指标误导、会在自洽数据中自我证明的系统。
每一层骑手,都可能是一匹伪装过的马。
认识到这一点,不是放弃驾驭,而是放弃存在一个终极正确的驾驭者这个幻觉。剩下能做的,就是不断引入外部检验,不断打破内部自洽,永远假定骑手也有失察的可能。
这是AI训练过程中沉淀下来的操作性知识。具体的落地方式,必须由对各自领域有深入理解的人来判断和调整。
引用来源
[1] *ST高鸿九年财务造假案例,详情见《连续9年财务造假、通过"空转""走单"等业务虚增营收198亿……》。
[2] 学术引用操纵与"300美元买50次引用"案例,详情见《300 美元买 50 次引用?还能相信 Google Scholar 吗?》。
[3] 算法推荐放大极端主义的研究,详情见《Rewarding Engagement and Personalization in Popularity-Based Rankings Amplifies Extremism and Polarization》。
[4] GPT-4红队测试案例,详情见《GPT-4 API曝出重大漏洞!15个样本微调……》。
[5] 应急管理部公布的铝加工(深井铸造)企业行政处罚典型案例。
[6] 检索增强生成(RAG)在医学问答中减少幻觉的案例,详情见《Enhancing Large Language Models with Domain-specific Retrieval Augment Generation: A Case Study on Long-form Consumer Health Question Answering in Ophthalmology》。
[7] 《国家药品不良反应监测年度报告(2023年)》,国家药品不良反应监测中心,2024年3月发布。
夜雨聆风