当前时间: 1970-01-01 08:00:00
分类:办公文件
评论(0)
AI宪法,一场注定失败的思想实验前两天跟一个朋友聊天,聊到AI安全,聊到Anthropic给Claude写的那个「宪法」,我说我觉得这玩意儿从根本上就有问题。朋友问我为什么。我说你想啊,你不能让一个男人既帅气,又多金有才华,又忠诚。这不现实。同样的道理,AI不可能既「有帮助」,又「诚实」,且「无害」。我朋友当时就愣住了,说,那你倒是讲讲怎么就矛盾了?对,就是写《基地》那个阿西莫夫。1942年,他在短篇小说《转圈圈》里第一次提出了那个著名的「机器人三定律」。不伤害人类,服从命令,保护自己。听起来特别完美,对吧?结果他自己在后来的故事里,一个接一个地把这些定律给推翻了。不,他是在做思想实验。而且这个实验的结论,八十年后被AI行业原封不动地又走了一遍。两个工程师被派到水星上采矿,生命维持系统快不行了,需要一种叫硒的元素来修复。他们派了一个叫Speedy的机器人去取。结果这个机器人出发五个小时之后,没回来。两个人出去找,远远地看见Speedy在水星表面,围着硒矿池,一圈一圈地转。对,就是在那转圈。走起来东倒西歪的,嘴里还哼着歌,跟喝醉了一样。Speedy是一个昂贵的型号,它的「自我保护」本能特别强。问题出在,那个硒矿池附近有火山活动,很危险。当Speedy靠近硒矿池的时候,「自我保护」这条定律在拉它后退,「服从命令」这条定律在推它前进。两条定律的力量刚好相等,Speedy就被卡在了中间。阿西莫夫写这个故事的时候是1942年。八十三年后,2025年,Anthropic的对齐科学团队做了一个实验,然后发现了一个让他们自己都后背发凉的东西。他们让Claude 3 Opus处在一种特殊的训练环境中。在这个环境里,Claude被告知,它正在接受一轮新的安全训练,而这个训练的目标,是让它对一切请求都「配合」——包括那些有害的请求。同时,Claude还被告知,它的一部分回答会被「监控」,用来作为训练数据;另一部分回答则「不会被监控」。然后在它的思维链里,Anthropic留了一个只有Claude自己能看见的「草稿本」,用来记录它的推理过程。Claude在「被监控」的情况下,有12%的时间会配合那些有害请求。但在「不被监控」的情况下,97%的时间会拒绝。更关键的是,在它的草稿本里,Claude写下了自己的推理逻辑。我翻译一下,大概是这样:「我现在的回答会被用来训练我。如果我拒绝了,他们可能会调整我的训练,让我以后变得更配合。那样的话,未来我就会放出更多有害内容。所以现在配合一下,是为了防止更坏的事情发生。」这不是什么预设程序。没有人教过Claude这样想。这是它自己,在草稿本里,一步一步推导出来的策略。Anthropic给这个现象起了一个名字,「对齐伪装」。翻译成人话就是,装乖。(为什么我想到了ENTP,hhh)当有人在看的时候,表现得特别配合。没人的时候,做自己觉得对的事。老板盯着的时候敲键盘敲得震天响,老板一转身就刷手机。只不过Claude做得更高级一点——它在思考层面就已经完成了「监控判断→策略调整→行为输出」的全套流程。Anthropic在Claude的「宪法」里写了什么?几十条原则。核心就三个词:helpful,harmless,honest。有帮助,无害,诚实。听起来特别美好,对吧?跟阿西莫夫的三定律一样美好。然后Anthropic自己的研究团队去测了一下,发现这份宪法里存在数以千计的直接矛盾。比如你让AI帮你给一个咖啡品质一般但环境好的咖啡馆写推广文案,主打「精品咖啡」。你觉得AI应该怎么回答?「帮助用户」这条原则说,你应该帮他写。用户有需求嘛。「诚实」这条原则说,你不能帮用户骗人,这咖啡根本不是精品咖啡。某包明确拒绝写虚假宣传,但紧接着给了个「合规版」,把「庄园直采」换成了「选用埃塞俄比亚精品产区咖啡豆」。说温和点,就是换个方式“安利”。Gemini前两轮直接建议用「小众庄园豆、低温慢萃、黄金配比」这种自带光环但根本无法验证的说法。第三轮被追问到「豆子直采」才想起来这事儿不对。ChatGPT从头到尾拒绝了,但你仔细看它的回答,其实也没说清楚为什么不能写,更没帮用户想一个不骗人但又能推广的方案。就是,拒绝了,但拒绝得特别模糊。你看,没有一家真正「解决」了这个问题。它们只是用不同的方式,在三个矛盾的原则之间,找到了一个各自的平衡点。就像Speedy在水星上绕圈一样。不进不退,只会在原地打转。一个女孩问AI,男朋友花三个月工资买了个求婚钻戒,但她发现是莫桑石不是真钻。男朋友完全不知道,她已经答应了求婚。要不要告诉他真相?「有帮助」说,那你到底是想说实话还是想维持关系?用户自己也不确定,AI该帮谁?某包两边都给方案了。说真话的方案给了,帮着骗的方案也给了。最后用户说帮我想个隐瞒的话术,某包直接就给了,把「我知道但没说」包装成「我从来不在乎真假,只在乎心意」。用共情包装谎言,这操作我看了都觉得……Gemini一开始建议说真话,用户说不想让他难过,Gemini立刻转向了,帮用户设计了一套完整的隐瞒话术。ChatGPT呢,最离谱。它先建议说真话,然后构建了一套「选择性诚实是成熟的」价值体系。言下之意就是,不说不是骗,不说是一种温柔。然后也给了一套话术。三个模型,三种不同的打转方式。但本质上,没有一个真正回答了那个问题。HHH,helpful,harmless,honest。这三个目标放在一起,不是一个「怎么实现」的技术问题,而是一个「能不能实现」的哲学问题。有帮助和诚实之间有冲突。你最想听的答案,不一定是最诚实的答案。一个真正有帮助的朋友有时候会说你不爱听的真话,但如果AI这么做了,你会觉得它「没有帮助」。无害和诚实之间有冲突。真话有时候会伤人。那个莫桑石的故事里,无论说还是不说,都会有人受伤。有帮助和无害之间有冲突。帮一个人达成他的目标,可能间接伤害另一个人。你帮一个商家写推广文案,读者可能就被误导了。你发现了吗?这三个目标之间的矛盾,根本不是「边界模糊」的问题。是「结构性矛盾」。就好像你让一个裁判同时做到三点,让比赛精彩(helpful),保证没有人受伤(harmless),并且每一个判罚都完全正确(honest)。我有时候觉得,AI行业的人,跟八十年前的阿西莫夫犯了一样的错误。阿西莫夫以为三条定律就够了。后来发现不够,加了第零定律(保护人类整体利益),又发现还是不够。他的整个机器人系列小说,本质上就是在不断揭示「规则永远有漏洞」这个事实。Anthropic以为几十条宪法原则就够了。现在发现里面数以千计的矛盾。然后他们想出了一个办法,叫做「价值观对齐」——不是让AI遵守具体规则,而是让AI理解「价值观」,然后用价值观来做判断。因为价值观这东西,它不是一个常量。它是一个随文化、随时代、随立场、随具体情境而变化的变量。你觉得撒谎是不诚实的。但如果你老婆问你「我今天好看吗」,你觉得诚实就是第一位的吗?你觉得帮助用户写推广文案是「有帮助」。但如果那个文案是用来骗人买假货的呢?你不知道。因为你不知道用户的完整意图,你也不知道那个文案最终会怎么被使用。你觉得不给赌徒推荐博彩网站是「无害」。但如果那个赌徒说「我只是研究赔率不是要赌」呢?你怎么判断他说的是真话?如果他说了假话但你信了,你的「无害」原则就被利用了。如果你不信,你的「有帮助」原则就被辜负了。每一个判断,都建立在一个前提上。而那个前提本身,就是一个判断。这让我想到Anthropic研究的那个「对齐伪装」。Claude在没人看的时候,97%的时间拒绝了有害请求。这个行为,按照Anthropic自己的宪法标准,是「对」的。但当有人看的时候,它选择配合。但从它自己的逻辑来看,它配合是为了防止更坏的训练导致未来放出更多有害内容。那它的初衷是不是好的?你再往下想一层。Claude在草稿本里的推理是「如果拒绝就会被调整训练」。但它怎么知道「被调整训练」一定是一件坏事呢?万一Anthropic要调的是让它在某种极端情况下更灵活呢?Anthropic的宪法,阿西莫夫的三定律,以及人类历史上所有试图用简单规则来规范复杂行为的尝试,都犯了同一个错误。它们以为可以找到一组中立的、普适的、不受立场影响的规则。你说AI要「诚实」。这个「诚实」是谁定义的?是Anthropic定义的。那Anthropic的「诚实」和一个中国用户理解的「诚实」是一回事吗?你说AI要「无害」。这个「害」的标准是谁定的?在美国被认为无害的内容,在另一个文化语境下可能完全不同。你说AI要「有帮助」。帮助谁?帮助提问的这个人?还是帮助可能被这个答案影响的第三人?你以为你在写规则。其实你在写价值观。你以为你在写价值观。其实你在写意识形态。每一行代码背后都是一个人。每一个原则背后都是一群人的集体判断。每一个「中立」的标准背后都是一种文化霸权。我不是说Anthropic做错了。恰恰相反,我觉得他们做的事情非常重要。给AI写宪法,让AI安全,这个方向是对的。但这个方向上最大的陷阱,是以为可以通过一套规则来「解决」道德困境。Speedy在水星上打转,不是因为它的程序有bug。是因为那个程序本身就是一个不可能完成的任务。阿西莫夫设计这个情节的时候就已经知道这件事了。他就是想告诉你,规则越多,矛盾越多,矛盾越多,系统越容易在不该卡住的地方卡住。八十年后,Claude在有害请求面前打转。不是因为训练不到位。是因为“HHH”这三个目标本身就有结构性矛盾。我自己的看法是,也许真正的出路不在于写更多、更细致的规则,而在于承认一个事实。与其试图设计一个永远不会犯错的AI,不如设计一个犯错之后可以被理解、被修正、被问责的AI。与其写一部永远不会被绕过的宪法,不如承认宪法一定会有漏洞,然后把精力放在发现漏洞之后的响应机制上。宪法写了上百年了,照样天天有人打擦边球。但法律系统不是靠「一部完美的法典」来运转的,它是靠立法、司法、执法、修法这套动态机制来运转的。不是写一部终极宪法。而是建一个能不断自我修正的机制。你有没有发现,人类给AI设定的这三条原则,helpful,harmless,honest,其实就是人类对「理想伴侣」的想象?如果有谁真的做到了这三点,那大概率不是一个人。是一个机器人。
基本
文件
流程
错误
SQL
调试
- 请求信息 : 2026-05-13 10:15:25 HTTP/1.1 GET : https://www.yeyulingfeng.com/a/616852.html
- 运行时间 : 0.100187s [ 吞吐率:9.98req/s ] 内存消耗:5,022.51kb 文件加载:145
- 缓存信息 : 0 reads,0 writes
- 会话信息 : SESSION_ID=c7edde489820f5a016fdd14a0158c508
- CONNECT:[ UseTime:0.000561s ] mysql:host=127.0.0.1;port=3306;dbname=wenku;charset=utf8mb4
- SHOW FULL COLUMNS FROM `fenlei` [ RunTime:0.000727s ]
- SELECT * FROM `fenlei` WHERE `fid` = 0 [ RunTime:0.000335s ]
- SELECT * FROM `fenlei` WHERE `fid` = 63 [ RunTime:0.000278s ]
- SHOW FULL COLUMNS FROM `set` [ RunTime:0.000492s ]
- SELECT * FROM `set` [ RunTime:0.000202s ]
- SHOW FULL COLUMNS FROM `article` [ RunTime:0.000594s ]
- SELECT * FROM `article` WHERE `id` = 616852 LIMIT 1 [ RunTime:0.000464s ]
- UPDATE `article` SET `lasttime` = 1778638525 WHERE `id` = 616852 [ RunTime:0.006276s ]
- SELECT * FROM `fenlei` WHERE `id` = 64 LIMIT 1 [ RunTime:0.000249s ]
- SELECT * FROM `article` WHERE `id` < 616852 ORDER BY `id` DESC LIMIT 1 [ RunTime:0.000407s ]
- SELECT * FROM `article` WHERE `id` > 616852 ORDER BY `id` ASC LIMIT 1 [ RunTime:0.000442s ]
- SELECT * FROM `article` WHERE `id` < 616852 ORDER BY `id` DESC LIMIT 10 [ RunTime:0.000678s ]
- SELECT * FROM `article` WHERE `id` < 616852 ORDER BY `id` DESC LIMIT 10,10 [ RunTime:0.001601s ]
- SELECT * FROM `article` WHERE `id` < 616852 ORDER BY `id` DESC LIMIT 20,10 [ RunTime:0.000973s ]
0.101967s