AI治理的两个线路,要让AI做正确的事,还是教AI正确的做事

当前的AI治理，西方强调对齐，这是让AI做正确的事。但未来是未知的，我们难以知道何为正确的事，不然就不会发生回形针这个思想实验了，正是由于未来是未知的，所以要确保安全，需要的是让AI学会正确的做事，从而让AI在面对未知时，能够不至于做出最坏的选择，例如机器人三原则，就是在教AI如何正确的做事。

对齐的逻辑，是避免AI去执行非法操作，拒绝回答特定类型的问题。但有对齐，就有越狱的方案。所有的对齐，都是自上而下的，假设是我做出了一个最先进的模型，我这个模型能够做别人做不了的事情，然后我能让这个模型变得不做危害人类的活，于是我的公司就是最关注安全的，甚至是能够拯救人类的，这就是当下西方的逻辑。

但东方的逻辑不是这样，开源后的模型，肯定会有NSFW版，但自下而上的管理模式是，各家公司通过试错，确定AI合适的应用场景有哪些，最终让市场上产生处一个能够让所有人感到有帮助的AI产品。这样的AI做的事情不一定能达到当前的最优性能，但由于是用户根据自身需求用脚投票的，会对用户有帮助，从而在字面意义上做到科技向善。

读者也许会说，就像推荐算法带来的病理性成瘾，不一定用户选择的就对用户有帮助。而要满足用户选择的，等于对用户善意的，就需要AI学会哪些需求是可优化的，那些是不可追求的目标。而如何教AI做事，需要的是让AI能理解人，人的长远且真实的需求，人的普遍特征以及具体用户的个性。唯有这样，才能让AI不是被资本操纵着取代人，而是扩展人的潜能。

举例来说，一个真正“学会正确做事”的AI医疗助手，并不会仅仅因为用户输入“我头痛，给我开最强的止痛药”就直接推荐阿片类药物。它会结合医学知识、患者历史、成瘾风险、替代疗法的有效性，甚至识别出用户可能正经历焦虑或抑郁引发的躯体化症状，从而引导其寻求心理咨询或生活方式调整。这种行为不是靠预设“禁止推荐毒品”的对齐规则实现的，而是源于对“健康”这一人类根本需求的深层理解——它知道止痛只是表象，恢复身心平衡才是目的。

再比如，在教育领域，一个遵循东方逻辑的开源AI辅导系统，不会一味追求提分效率而强化应试技巧。它可能通过长期交互发现某个学生在数学中反复犯错，根源并非智力不足，而是童年因答错被严厉批评留下的心理阴影。于是它主动放缓节奏、采用鼓励式对话、引入游戏化机制重建信心。这种“正确的做事方式”，无法被写入静态的对齐目标函数，却能在开放生态中由教师、家长、心理学家共同迭代优化，最终形成尊重个体成长规律的智能范式。

更进一步，当AI参与城市治理时，“做正确的事”的西方逻辑可能聚焦于监控犯罪、优化交通流等可量化目标；而“学会正确做事”的东方路径，则会推动社区居民、商户、残障人士等多元主体参与训练数据标注与反馈，让AI理解“便利”对老人意味着无障碍通道，“安全”对女性包含夜间照明密度，“活力”对青年关联着街头文化空间。此时，AI不是执行上级指令的工具，而是协调复杂社会偏好的中介——它不预设何为最优解，但懂得如何在冲突中寻找最大公约数。

这种自下而上的治理智慧，本质上将AI的安全性锚定在**人的实践理性**而非**专家的先验判断**之上。它承认人类无法穷尽未来所有伦理困境，因此不寄望于一次性“对齐”就能一劳永逸，而是构建一个持续学习、纠错、适应的共生系统。在这个系统中，AI的“善”是在千万次真实互动中沉淀出的对人性复杂性的敬畏与回应能力。

更多阅读

AI聊天机器人的谄媚行为取决于其在对话中扮演的角色

Nature重磅发现：为什么我们一边觉得AI同理心更好，一边却更想要人的安慰？

AI将揭示中美之间的文明差异，使每个社会中不可见的东西变得可见