当前的AI治理,西方强调对齐,这是让AI做正确的事。但未来是未知的,我们难以知道何为正确的事,不然就不会发生回形针这个思想实验了,正是由于未来是未知的,所以要确保安全,需要的是让AI学会正确的做事,从而让AI在面对未知时,能够不至于做出最坏的选择,例如机器人三原则,就是在教AI如何正确的做事。
对齐的逻辑,是避免AI去执行非法操作,拒绝回答特定类型的问题。但有对齐,就有越狱的方案。所有的对齐,都是自上而下的,假设是我做出了一个最先进的模型,我这个模型能够做别人做不了的事情,然后我能让这个模型变得不做危害人类的活,于是我的公司就是最关注安全的,甚至是能够拯救人类的,这就是当下西方的逻辑。
但东方的逻辑不是这样,开源后的模型,肯定会有NSFW版,但自下而上的管理模式是,各家公司通过试错,确定AI合适的应用场景有哪些,最终让市场上产生处一个能够让所有人感到有帮助的AI产品。这样的AI做的事情不一定能达到当前的最优性能,但由于是用户根据自身需求用脚投票的,会对用户有帮助,从而在字面意义上做到科技向善。
读者也许会说,就像推荐算法带来的病理性成瘾,不一定用户选择的就对用户有帮助。而要满足用户选择的,等于对用户善意的,就需要AI学会哪些需求是可优化的,那些是不可追求的目标。而如何教AI做事,需要的是让AI能理解人,人的长远且真实的需求,人的普遍特征以及具体用户的个性。唯有这样,才能让AI不是被资本操纵着取代人,而是扩展人的潜能。
举例来说,一个真正“学会正确做事”的AI医疗助手,并不会仅仅因为用户输入“我头痛,给我开最强的止痛药”就直接推荐阿片类药物。它会结合医学知识、患者历史、成瘾风险、替代疗法的有效性,甚至识别出用户可能正经历焦虑或抑郁引发的躯体化症状,从而引导其寻求心理咨询或生活方式调整。这种行为不是靠预设“禁止推荐毒品”的对齐规则实现的,而是源于对“健康”这一人类根本需求的深层理解——它知道止痛只是表象,恢复身心平衡才是目的。
再比如,在教育领域,一个遵循东方逻辑的开源AI辅导系统,不会一味追求提分效率而强化应试技巧。它可能通过长期交互发现某个学生在数学中反复犯错,根源并非智力不足,而是童年因答错被严厉批评留下的心理阴影。于是它主动放缓节奏、采用鼓励式对话、引入游戏化机制重建信心。这种“正确的做事方式”,无法被写入静态的对齐目标函数,却能在开放生态中由教师、家长、心理学家共同迭代优化,最终形成尊重个体成长规律的智能范式。
更进一步,当AI参与城市治理时,“做正确的事”的西方逻辑可能聚焦于监控犯罪、优化交通流等可量化目标;而“学会正确做事”的东方路径,则会推动社区居民、商户、残障人士等多元主体参与训练数据标注与反馈,让AI理解“便利”对老人意味着无障碍通道,“安全”对女性包含夜间照明密度,“活力”对青年关联着街头文化空间。此时,AI不是执行上级指令的工具,而是协调复杂社会偏好的中介——它不预设何为最优解,但懂得如何在冲突中寻找最大公约数。
这种自下而上的治理智慧,本质上将AI的安全性锚定在**人的实践理性**而非**专家的先验判断**之上。它承认人类无法穷尽未来所有伦理困境,因此不寄望于一次性“对齐”就能一劳永逸,而是构建一个持续学习、纠错、适应的共生系统。在这个系统中,AI的“善”是在千万次真实互动中沉淀出的对人性复杂性的敬畏与回应能力。
更多阅读
夜雨聆风