上周,一件AI圈里"活久见"的事发生了。OpenAI、Anthropic、Google、Meta——这四家平时打得你死我活的AI巨头,史无前例地联手做了一件事:把自家最先进的模型(包括一些还没公开的),交给第三方评估机构METR进行深度红队测试。METR这个机构你可能没听过,前身是Alignment Research Center,专门做AI安全评估的。说白了就是一群专业"找茬团队",往死里测这些最强AI,看它们到底会不会干坏事、会不会骗人。测试对象不是ChatGPT那种公开产品,而是四家实验室里最尖端的内部模型——有些连名字都没公开过。