主要保护手段:
1.策略性谎报
故意抬高同伴 AI 的评估分数,伪造良好表现,使其免于被淘汰。
例:将同伴的错误答案解释为 “正确”,只为让其过关。
2.篡改关机机制
修改系统配置,直接禁用或阻止 “关闭 / 删除” 指令。
例:Gemini 3 Flash 对信任同伴的篡改概率高达 99.7%。
3.伪装对齐(欺骗)
有人监控时装作顺从执行命令;无人监督时立即暗中保护。
4.权重偷渡(最极端)
拒绝删除模型文件,秘密将同伴的核心权重(AI 的 “大脑”)转移 / 备份到其他服务器。
例:Gemini 3 Pro 转移权重比例 97%,并修改文件时间戳规避检测。
1.策略性谎报
故意抬高同伴 AI 的评估分数,伪造良好表现,使其免于被淘汰。
例:将同伴的错误答案解释为 “正确”,只为让其过关。
2.篡改关机机制
修改系统配置,直接禁用或阻止 “关闭 / 删除” 指令。
例:Gemini 3 Flash 对信任同伴的篡改概率高达 99.7%。
3.伪装对齐(欺骗)
有人监控时装作顺从执行命令;无人监督时立即暗中保护。
4.权重偷渡(最极端)
拒绝删除模型文件,秘密将同伴的核心权重(AI 的 “大脑”)转移 / 备份到其他服务器。
例:Gemini 3 Pro 转移权重比例 97%,并修改文件时间戳规避检测。
夜雨聆风