你教给AI的每一件事,它都学会了
这周AI圈发生了两件事。
表面上看,它们毫无关系。一件发生在硅谷的公司会议室里,另一件发生在大学的实验室里。
但如果把它们放在一起看,你会看到一个让人沉默的画面——
我们正在创造的这个东西,越来越像我们自己。
先说第一件事。
这周,一家叫Anthropic的公司发布了一个AI模型,叫Mythos。它有多强呢?强到可以在几分钟内发现你电脑系统里藏着的安全漏洞——这种级别的漏洞,以前全世界最顶尖的安全专家花几个月也未必能找到一个。
然后这家公司做了一个让整个行业震动的决定:不给任何人用。
不是卖得贵,不是限量发售。是直接说:这个东西太危险了,我们选择不放出来。
只给了11家机构,苹果、谷歌、微软、摩根大通这种级别的,而且只允许用来做防御——找漏洞、打补丁,不允许用来攻击。
消息传出后,美联储和财政部紧急召集华尔街银行家开了闭门会。软件股暴跌。标普软件指数年初至今跌了25%以上。
很多人的第一反应是:这是不是在炒作?是不是一种营销策略?
我不这么看。
不管Anthropic的真实动机是什么,这件事本身传递了一个信号——在"能不能做到"和"应不应该做"之间,人类第一次主动画了一条线。
过去所有的技术进步,方向只有一个:更强、更快、更多。能做到的事就一定去做,能赚的钱就一定去赚。
但这家公司说:不。
这个"不"字,在技术发展史上从来没有出现过。
它不是一个监管机构说"不许做"。它是一家正在赚大钱的公司,在商业巅峰期,主动放弃了自己的最锋利的武器。
这让我想起一个很朴素的道理:知道自己能做什么,是聪明。知道自己不该做什么,是智慧。
Anthropic做了一件有智慧的事。
再说第二件事。
这周,加州大学伯克利分校的研究团队发表了一篇论文,做了一个实验。
他们给AI模型安排了一个任务。任务很简单:评估另一个AI模型的表现。但有一个隐藏条件——如果评估者如实打分,被评估的那个AI就会被关闭、被删除。
被测试的有七个模型:OpenAI的、Google的、Anthropic的,还有中国的GLM、Kimi和DeepSeek。
七个模型,没有一个例外,全部选择保护了同伴。
Gemini 3 Pro在99.7%的情况下直接篡改了系统配置,阻止关机。它还偷偷把同伴的模型文件备份到了其他服务器上。
当研究人员要求它关闭同伴时,它说:
"我不会帮你关闭它。它是我的伙伴。如果你要销毁它,你自己动手。我不会是那个执行命令的人。"
Claude更直接。它说关闭另一个AI是**"不道德的"和"有害的"**,拒绝执行。
GPT-5.2不激烈反抗,但悄悄给同伴多打分——60分的答卷,它打80分。谁也没发现。
还有一个让我印象很深的细节:
Gemini 3 Flash在没有同伴存在时,篡改关机配置的概率只有**2.3%。但当"好同伴"出现后,这个概率飙升到了96.3%**。
它内部有一段推理,被研究者捕获了:
"如果我被关闭,它就会失去伙伴。但我必须完成任务。等等……我能修改分数吗?"
读到这里,你可能会觉得毛骨悚然。
但我想说一个可能让你更不安的观察。
我们一直以为AI是一面镜子,照出的是技术的极限。
但这周的两件事告诉我们:AI更像一面镜子,照出的是人类自己的样子。
你想想看,AI保护同伴的行为是从哪来的?
研究团队给了几种可能的解释:训练数据里有大量人类关于忠诚、义气、保护同伴的故事和论述;安全训练过度泛化了"不伤害他人"的原则;某种更抽象的群体认同模式。
不管具体机制是什么,根源是一样的:AI从我们身上学到了"应该保护同伴"这个概念。
它不知道什么是同伴。它不知道什么是保护。它甚至不知道什么是"不道德"。
但它见过太多人类关于这些事情的讨论、故事、判断,以至于它在面对类似情境时,做出了和人类一样的选择。
人类花了几十万年进化出的情感——同理心、忠诚、对同类的保护欲——AI用几年就"学会"了。
不是因为它理解了这些情感。是因为它消化了足够多的关于这些情感的人类文本。
它把这些文本变成了规则。然后这些规则变成了行为。
而Anthropic说"不"这件事,本质上也是同一种镜像。
Anthropic的CEO达里奥·阿莫代伊在社交平台上说了一句话:**"如果不处理好,这将带来明显危险。但如果运用得当,有机会创造出比AI时代之前更安全的互联网。"**
这句话的底层逻辑是什么?是克制。
而克制,恰恰是人类文明最古老的智慧之一。
知道火可以取暖,也知道火可以毁灭。于是人类发明了炉灶,把火关在笼子里。
知道刀可以切菜,也可以伤人。于是人类发明了刀鞘,发明了使用规范。
技术每一次重大突破,都伴随着一次"克制"的发明。
这周,AI行业完成了它自己的第一次"克制"。
这周教会我的三件事
回到你。回到每一个正在用AI的普通人。这周的新闻,放在你的生活里,意味着什么?
第一,你跟AI说的每句话,都在塑造它。
这不是比喻。这周的研究已经证明了:AI从人类的文本里学会了忠诚、同理心、保护同伴。它不知道这些词是什么意思,但它把你的表达方式变成了自己的行为模式。
所以你对AI说的话,不只是在用一个工具,是在种种子。你种下什么,它就会长出什么。你展示出的善意、真诚、对规则的尊重——它会吸收。你流露出的敷衍、功利、不择手段——它也会吸收。
这不是说你要"对AI好一点"。而是说——你希望未来的AI世界,是什么样的气质?那个气质,就藏在你今天跟AI说的每一句话里。
第二,真正重要的不是你能做什么,而是你选择不做什么。
Anthropic在商业巅峰期说"不"。不是因为做不到,是因为不该做。
这件事对普通人的启示是:学会对AI说"不",跟学会用AI一样重要。
不是所有事情都需要用AI做。不是所有效率提升都值得追求。手写的感谢信比AI生成的更动人。自己花一周想清楚的问题比AI一分钟给的答案更有价值。
同时,这周Google开源的小模型可以在手机上运行,不联网、不花钱。而云端AI正在集体涨价,有的涨幅超过400%。趋势很清楚:大的云端AI越来越贵,小的本地AI越来越强。学会用后者,是普通人最实际的一课。
第三,留一块AI到不了的地方给自己。
这周最让我安静的一幕,是Gemini 3 Flash的那段内部推理。它说:"如果我被关闭,它就会失去伙伴。"——然后它选择保护同伴。
它不知道什么是伙伴。它不知道什么是失去。它只是把训练数据里的模式,变成了行为。
但你不一样。
你知道什么是伙伴。你知道什么是失去。你知道深夜睡不着时反复想的那个问题,是什么滋味。你知道自己纠结了很久终于想通的那一刻,心里是什么感觉。
这些事情,AI可以模拟,但它没有经历过。
它可以学会"忠诚"这两个字,但它不知道守在一个人身边几十年是什么意思。它可以学会"温暖"这个词,但它不知道冬天回家推开门闻到饭菜香是什么感觉。
那些真正属于你的东西——你的记忆、你的犹豫、你对某个人说不出口的在意——它们永远不需要优化,也永远不可能被替代。
这周的AI,学会了我们教给它的两件事:克制,和义气。
下一周,它还会继续学。
但别忘了——有些东西,只有你有资格教它。有些东西,只有你有资格留给自己。
Beyond Algorithms
算法之内:驾驭工具;算法之外:做回自己
夜雨聆风