每日AI热文早播 | 2026.05.05-夜雨聆风

每日AI热文早播 | 2026.05.05

今日共 10 篇热门AI资讯，涵盖最新技术动态与行业趋势。

1. 奥特曼9年后再发声：没有他就没有OpenAI！ [2026-05-04]

2015年夏天，加州Menlo Park的Rosewood Sand Hill酒店，一场秘密晚餐改变了AI历史的走向。44岁的Elon Musk、30岁的Sam Altman、29岁的Ilya Sutskever以及27岁的Greg Brockman，四个人围坐一桌，讨论成立一家非营利AI实验室，与Google和Facebook形成制衡。

晚餐结束时，Sam Altman亲自开车送Greg Brockman回旧金山，从Sand Hill Road上280高速一路向北，全程约四十分钟。车程前半段，Greg不断追问——钱从哪来、人怎么招、章程怎么写、为什么是非营利，Sam一一解答；后半段Greg沉默片刻，只说了两个英文单词「I’m in」，然后开始排日程。这段120分钟的车程，成为整部OpenAI传奇的真正起点。

Greg Brockman 1987年生于北达科他州Thompson镇，父母是当地医院医生，他在小镇的「专注」环境中成长，母亲Ellen积极为他搜寻州外资源。九年级修完高中数学，高二开始旁听大学课程，2006年获国际化学奥林匹克银牌，2007年入围Intel Science Talent Search决赛，打破了北达科他州自1973年以来的纪录。

化学课需要做电子教科书网站时，他写下了人生第一个程序，从此迷上「脑子里设想的东西突然变成谁都能用的东西」的感觉。高中毕业后Gap Year一年，读图灵1950年《计算机器与智能》，自学编程写过聊天机器人（虽然失败了），然后去了哈佛又转去MIT，两所学校都没读完。让他第二次离开校园的，是Stripe创始人Patrick和John Collison兄弟。

2010年Greg以第4号员工身份加入这家支付公司，2013年起担任首任CTO，公司从几人扩到两百多人，他专门写博客逐字定义CTO角色，「不接受任何模糊的位置，所有边界都要亲手画出来」。2015年5月离开Stripe，几个月后那场Rosewood晚餐彻底改变了他的人生轨迹。OpenAI最早的日子在Greg旧金山Mission区租住的公寓客厅运转，没有酷炫办公室，世界上最聪明的脑袋挤在沙发和地毯上。

Greg全包招人工作，每谈一个候选人都做大量背景研究，准备到能直接讨论对方研究细节的程度，Ilya Sutskever、John Schulman、Andrej Karpathy这些响亮名字都是他一个一个谈下来的。

Sam Altman在博客中透露，Greg的邮件回复时间平均只需5分钟，这不是某天的状态而是常态，意味着在他的世界里没有「等会儿」这个选项，每一个邮件都是一次现场判断，这个数字后来在OpenAI内部成了一种节拍器，倒逼所有人的工作节奏。

Sam还专门发明了「Chief Optimist首席乐观官」这个词来形容Greg的角色——每一支创业团队都需要一个人能在最黑暗时刻保持乐观，不是表演式的乐观，而是把麻烦一件一件解决掉的那种乐观，而且这个人自己不需要被人安慰。Greg把OpenAI章程当成「经文」反复引用，动不动拿这家公司比阿波罗登月、横贯大陆铁路、爱迪生的灯泡。

2019年11月，Greg和妻子Anna在OpenAI办公室举办民事婚礼，主持人是Ilya Sutskever，戒指由机械手送上，这张画面成为AI圈最被传播的画面之一——一个把公司当家的合伙人的心理位置，以及一个相信他们正在造的东西会和自己人生一样长的人的信念。

2023年11月17日，OpenAI史上最黑暗的72小时拉开，董事会通过Google Meet解雇了Sam Altman，Greg被剥夺董事身份但被要求留下，他当场说出「This is not right」，挂断电话后三件事：找妻子商量、当晚提交辞呈、在X上发「based on today’s news, i quit」。

第二天Greg和Sam在Sam家秘密开会准备另起炉灶，内部代号Phoenix，Greg事后坦白那一刻对Sam回归OpenAI的概率估计只有10%。11月20日微软CEO Satya Nadella宣布Sam和Greg加入微软领导新AI研究小组，但真正翻盘的关键节点是Greg妻子Anna走进OpenAI办公室找到Ilya Sutskever。

最终Sam回归，Greg证明了自己的忠诚不是基于利益计算而是基于人格的绝对信任。Greg Brockman用了十年证明，找到一个同时具备顶级技术能力和钢铁般意志力的合伙人，真的叫「中头奖」。

2. 8岁读完高中，15岁拿下物理博士！「小爱因斯坦」下一站：AI+永生 [2026-05-04]

Laurent Simons，这个名字正在被全球科技界记住，不是因为他完成了什么学校作业，而是因为他用不到常人一半的时间走完了整个教育轨道。4岁上小学，6岁读完全部课程，8岁高中毕业——当同龄人刚升三年级，他已经把K-12全部走完了。

9岁进入荷兰埃因霍温理工大学攻读电气工程学士，原计划10个月读完三年课程，因与校方在毕业时间上产生分歧，转到比利时安特卫普大学改修物理学，三年学士课程仅用18个月读完，12岁获得量子物理学硕士学位，紧接着15岁拿下量子物理学博士学位，研究方向是量子态的相干性与退相干机制——量子物理中最硬的那块骨头。他的IQ达到145，绰号「小爱因斯坦」，但这个称呼远不足以概括他的特殊之处。

拿到量子物理博士学位后，Simons做了一个让导师都没预料到的选择——申请第二个博士学位，方向是医学与AI的交叉领域，研究目标只有一个：理解人类衰老的底层机制，并找到延长健康寿命的路径。这个想法不是突然冒出来的，早在11岁时他就确定了这个方向，原因很痛——祖父母都患有心血管疾病，他不希望其他人也经历失去至亲的痛苦。

他的目标是更深入理解疾病的过程，创造能改变人类生活方式和健康状况的解决方案，而不仅是缓解症状。

这不是一个15岁少年的浪漫幻想，而是一个极其具体的研究框架，他把衰老看作一个「多系统耦合」的复杂工程问题——生物学提供了衰老的表征（端粒缩短、DNA损伤累积、蛋白质折叠错误、线粒体功能衰退），物理学提供了理解这些过程的底层工具（热力学、信息论、量子生物学），工程学提供了干预手段（基因编辑、药物设计、纳米机器人），而AI，是把这三条线串起来的「胶水」。

在Simons看来，死亡就像一张极其复杂的拼图，碎片散落在生物学、物理学和工程学里，过去这些学科各自拼各自的角落，没有人试过把整张拼图拼起来，而AI的出现第一次让这件事成为可能。答辩结束后Simons没有庆祝没有休息，第一时间和父亲飞回德国慕尼黑，进入慕尼黑大学正式开启第二个博士项目。为什么选AI？

因为AI正在重塑整个生物医学研究的底层逻辑，医学影像分析、癌症早期检测、蛋白质结构预测——这些曾经需要数十年的工作，现在被AI压缩到以天甚至以小时为单位。他特别提到一个方向：人工器官，当心脏、肝脏、肾脏因衰老而报废时，用工程手段造一个新的装上去，这不是靠天才就能解决的问题，而是靠智能规模才能解决的问题。

他计划用AI做三件事：跨学科数据融合，把分散在生物学、物理学、化学、医学各自文献库里的衰老相关数据用LLM做结构化整合；假说生成与验证加速，传统生物医学研究的瓶颈不是实验能力而是假说质量，AI可以通过大规模文献分析和分子模拟在实验之前过滤掉不靠谱的方向；药物与干预手段的计算筛选，抗衰老药物候选分子空间是天文数字级的，AI驱动的分子设计和虚拟筛选可以把整个过程压缩几个数量级。

他的博士论文研究的是「玻色-爱因斯坦凝聚态」，这是只有在接近绝对零度极端条件下才会出现的物质状态，原子放弃各自「个性」合并成单一量子系统，表现出完全不同于日常世界的行为。论文还研究了物质「超固体」相，同时具有超流体性和结构固态性的矛盾状态，这类研究是量子计算和精密测量技术的基础。Simons说「我选择物理学作为专业，是因为在我看来，要彻底理解宇宙就必须通过物理学」，死亡这张拼图，用AI去解。

他的方向并不孤立，过去两年AI在生物医学领域的进展已经从概念验证走到产业落地，AlphaFold解决蛋白质结构预测的五十年难题，Isomorphic Labs用AI设计的药物分子进入临床前阶段，Insilico Medicine从靶点发现到临床候选药物只花了18个月，而Simons的独特之处在于他没有从AI出发去找生物学应用，而是从物理学出发去重构衰老的底层模型，再用AI加速这个重构过程。

量子物理的训练给了他一个大多数生物学家没有的工具：用第一性原理思考问题，不是在现有框架里修修补补，而是追问衰老的信息论本质是什么，细胞层面的熵增是否可逆，生物系统的量子效应在衰老中扮演什么角色。这些问题听起来像科幻，但在量子生物学领域已经是严肃的研究课题。一个15岁的人，愿意把一生押注在一道没有标准答案的题目上，这本身，就已经是一种回答。

3. 几千年都没考过这个？谷歌「最毒」AI考局，专测你在压力下怎么做人 [2026-05-04]

考试这件事，考了几千年，还从来没人考过这个。SAT考数学，GRE考词汇，科举考试考八股文，古今考试形式不同但底层逻辑一致——考你知道什么。但有一类能力从来没有考试碰过：你跟人吵架时怎么办。

谷歌最新实验Vantage把这件事给干了，这个由谷歌联合纽约大学开发的项目利用GenAI模拟团队协作场景，把你扔进一个AI角色扮演的协作场景里，让多个AI agent组队完成任务，其中会有一个agent跳出来专门按剧本跟你唱反调、抛不合理要求、搞情绪化反应，你在压力下做出的每一个回应都会被另一个Agent基于评分量表进行分析，生成评分与反馈，整个过程是一个被AI精心操控的「职场修罗场」，它考的不是你背了多少东西，而是你在压力下怎么做人。

这个项目已在Google Labs开放申请，现阶段主要支持英文，研究设想是利用生成式AI模拟团队协作场景来开发和测量被测试者的软技能。

在企业最看重的能力排名中，分析思维排第一，紧随其后的是韧性、灵活性、领导力与社会影响力，排在最前面的几乎全是软技能，世界经济论坛2025年《Future of Jobs 2025》报告指出到2030年全球39%的核心职场技能将发生变化，但传统标准化测试太僵硬，题目难易捕捉人类思维过程和人际互动，跟真实场景隔着十万八千里。

软技能评估一直依赖两条路：自我汇报问卷（问你「你善于沟通吗」，人人都勾「是的」）和真人评估中心（请几个专业考官设计情境观察你一整天），靠谱但价格不菲、耗时几天，评分还因考官不同而漂移。核心矛盾只有一条：软技能必须在互动中才能被观测，但标准化互动的成本太高限制了它的实现和推广，你不可能给每个学生配一个真人考官让他们吵一架再打分。

Vantage的解决方案是一个精巧的四层架构，不是传统AI出题你来答题的路子，而是搭了四层各司其职同时运转的AI系统：第一层是场景生成，你输入一个软技能维度比如「冲突解决」，系统先拿到评估量表看清楚什么表现算好什么算差，然后倒推出一个能区分好坏的具体情境；

第二层是角色扮演，多个AI agent各领一个角色进入场景跟真人被测者对话，其中一个agent（Executive LLM）的任务就是制造麻烦，按剧本给你施压、抛出不合理要求、搞情绪化反应，而且是实时分析对话状态动态调整施压策略，像一个自适应的考试引擎；

第三层是行为提取，对话结束后另一个agent上场逐轮回看对话记录，只做一件事：把你的具体行为抽出来，哪句话是在回避冲突、哪句是在主动倾听、哪句是在强行说服，事实归事实判断归判断，这两步被刻意分开了；第四层是评分，评分agent拿着量表和上一步提取出的行为证据逐条对照打分，每个分数必须指向具体对话片段作为依据，不允许凭印象给分。

四层解耦的好处是场景可以换、角色可以换、评分标准可以换，但流水线本身不变，模块化意味着可扩展性，今天测冲突解决明天换个量表就能测项目管理，后天再换就能测谈判能力。谷歌和NYU做了188人联合验证，年龄18-25岁，测试者在Vantage中完成冲突解决和项目管理两个维度的评估，然后由NYU的人类评分专家用同一份rubric对同样的对话记录打分，结果发现人类专家之间的一致性Kappa值为0.45到0.

64即中等一致性，两个人类专家给同一段对话打分经常打出不同分数，因为软技能评估本来就是主观判断密集的领域，比如一个人觉得候选人表现出了「坚定但尊重」，另一个人可能觉得那叫「固执」，而AI评分跟人类专家之间的一致性跟两个人类专家之间差不多，这意味着AI的评分质量已经到了同一水平线上，更重要的是人类专家一次只能评几个人，AI可以同时评几万人，成本直接差了两个数量级。

谷歌自己也承认Vantage目前的边界，188人的验证规模不算大，只明确覆盖了协作中的冲突解决和项目管理两个维度，跨文化场景没碰，长期技能成长追踪没做，模拟环境里的表现能不能迁移到真实的人际互动也还是问号。

但OECD早就把创造力、批判性思维列进了教育系统核心讨论，所有人都知道软技能重要但没人真正解决过怎么测、怎么大规模地测，Vantage给出了一个可能的答案，Google Research博客里提到「在全球教育体系中，被测量的东西往往就是被教授的东西」，如果软技能可以被量化评估，那学校教什么就会变，课程设计的底层逻辑就会被改写，企业招聘也会被重新定义。

4. 谁在用Claude：美国AI用户大调查出炉 [2026-05-04]

一份美国全国性调查揭开了各大旗舰大模型之间的用户画像差异，过去一周用过Claude的美国成年人里79.8%来自年收入10万美元以上家庭，这个比例高于Microsoft Copilot的63.7%、ChatGPT的60.3%、Grok的56.2%、Google Gemini的55.9%，更远高于Meta AI的36.

5%，作为参照Epoch AI用美国人口普查数据估算美国成年人里约50%生活在年收入10万美元以上家庭，低收入端的差距同样明显，Claude周活用户中年收入5万美元以下家庭占比约6.4%，Meta AI对应比例为32.1%，美国成年人总体中这一比例为24%。

这份调查由Epoch AI与Ipsos合作完成，使用Ipsos的KnowledgePanel基于地址的概率抽样，第一波调查在2026年3月3日至6日进行，样本量2021人，95%置信水平下总体误差为正负2.2个百分点。

Claude的高收入画像容易制造误读，Claude的用户更富但用户规模仍然小，Ipsos这轮全国调查里过去一周用过ChatGPT的美国成年人占31%，Google Gemini为21%，Microsoft Copilot为11%，Meta AI为8%，Grok为5%，Claude只有3%，另有49%的美国成年人表示过去一周没有用过任何AI服务。

Epoch AI补充了另一层数据，在年收入10万美元以上人群中ChatGPT触达率仍为37%，Gemini为24%，Copilot为14%，Claude只有6%，同时44%的高收入人群过去一周没有使用AI服务，所以Claude的情况更像是高收入浓度高但绝对覆盖率低，它在一个小池子里显得更精英化，在整个美国AI市场里还远远没有接近ChatGPT的默认地位，这也解释了为什么这组数据会有新闻价值，过去两年AI公司大多用月活、下载量、调用量讲故事，现在用户结构开始比用户规模更重要，谁在浅尝辄止、谁在付费、谁把AI塞进工作流，差异开始浮出水面。

Claude的高收入画像很难只用价格解释，Anthropic的Claude Pro为每月20美元，Max 5x为每月125美元，Max 20x为每月250美元，OpenAI的ChatGPT也有20美元Plus和更高阶Pro方案，个人高用量AI产品正在共同进入100美元、200美元价格带，差别在于产品心智，ChatGPT更像全民入口，Gemini绑在Google搜索Gmail Docs等场景里，Copilot跟Microsoft 365、Word、Excel、Teams、Edge连接更深，Meta AI直接进入WhatsApp、Instagram、Facebook、Messenger，而Claude的典型使用场景更偏主动访问、长文本处理、代码、复杂写作和专业任务，它要求用户知道自己为什么打开它，也更容易吸引已经愿意为效率付费的人。

Ipsos的付费订阅数据也说明了这一点，ChatGPT付费订阅中4%受访者表示自己付费、3%表示由雇主或学校付费，Claude对应比例都是1%，Copilot则有5%自费、10%由雇主或学校付费，Claude的付费面很窄但这部分人更可能是高意愿、高强度用户，这就是Anthropic的现在的位置，规模小但单个用户价值可能更高，它不像Meta AI那样靠社交产品铺开，也不像Google那样靠搜索入口捎带分发，Claude需要用户主动选择，而主动选择本身就是门槛。

Meta AI是这张表里的另一端，周活用户中年收入10万美元以上家庭占比只有36.5%，5万美元以下家庭占比达到32.1%，在这组主流AI助手里最接近大众市场，调查显示用过Meta AI的人里55%通过WhatsApp、Instagram、Facebook或Messenger内置功能接触它，40%是在Facebook或Instagram搜索时看到AI生成摘要或答案，只有21%是去meta.

ai或Meta AI应用里输入问题，入口决定用户，Meta AI被放进社交网络、Claude则更多依赖用户带着明确任务进入产品，这会带来完全不同的商业后果。

AI市场正在重演消费互联网和生产力软件的老故事，一边是巨大流量入口，一边是高ARPU工具，前者负责覆盖后者负责收钱，更关键的分层不只发生在是否用过AI上，还发生在怎么用AI上，调查显示过去一周用过AI服务的人里34%只使用了一天，49%用了2到5天，16%几乎每天都用，使用最重度的一天里62%只处理一两个快速任务，32%多次使用，只有6%表示当天大量使用或高度依赖AI，说明多数使用仍然很轻度，大量用户只是把AI当搜索框、改写器、临时问答机，少数用户开始把它当工作界面，AI行业的下一轮竞争很可能围绕高强度用户展开，他们会把AI接进代码、合同、销售、研究、投放、采购、客服和数据分析，模型能力差距越大工具带来的结果差距越大。

Anthropic自己的Project Deal实验提供了有意思的旁证，更强的Opus模型作为卖方平均能为同一件商品多卖2.68美元，作为买方平均少付2.45美元，当Opus卖方面对Haiku买方平均成交价为24.18美元，高于Opus对Opus交易的18.

63美元，当AI开始代表人谈判、采购、写代码、做研究，模型能力就会变成一种新的生产资料，谁用更强的模型谁就可能获得更好的结果，差距会藏在每一次小决策里。

5. 哈佛Science重磅：AI急诊诊断准确率67%，超越资深主治！取代医生尚早 [2026-05-04]

哈佛大学医学院联合贝斯以色列女执事医疗中心在《Science》上发表了一项震动全球医疗圈的研究，在急诊室真实分诊场景中，OpenAI的o1推理模型诊断准确率达到67%，而两位经验丰富的内科主治医生一个55%一个50%，AI赢了，不是做题不是考试而是在真刀真枪的急诊室里，更扎心的数据还在后面，在制定治疗管理方案的测试中o1拿了89%，而人类医生使用传统资源辅助后中位数只有34%，差距不是一星半点而是两倍多，这不是AI公司的自卖自夸而是哈佛医学院牵头、顶级学术期刊背书、双盲评审确认的结果，研究论文通讯作者哈佛医学院AI实验室负责人Arjun Manrai说了一句意味深长的话：「我们用几乎所有基准测试了这个AI模型，它超越了此前所有模型和医生基线。

」一个时代的裂缝就这么被撕开了。

这项研究最硬核的地方在于它不是拿精心整理的教科书病例去考AI，而是直接把急诊室里最原始最混乱的电子病历扔给了机器，研究团队从贝斯以色列急诊科随机选取了76名真实患者，在三个关键诊断节点进行对比——急诊分诊患者刚进门、急诊医生首次接诊、以及收治入院或进ICU，每个节点两位内科主治医生和OpenAI的o1、4o模型同时给出鉴别诊断，每方最多列5个可能诊断，关键细节是研究人员对数据零预处理，论文明确写道AI模型接收到的信息和医生看到的电子病历完全一致，那些凌乱的缺失的充满噪声的真实临床数据，然后由另外两名主治医生进行盲评，他们不知道哪个诊断来自人类哪个来自AI，盲评结果显示评审医生几乎完全无法分辨诊断，AI写的诊断连资深医生都看不出是机器生成的。

在这样严苛的条件下o1模型在急诊分诊阶段——信息最少、时间最紧、决策最关键的环节——给出了67.1%的准确率，两们人类医生分别是55.3%和50%，随着信息逐渐增多所有人的表现都在提升，到入院阶段o1准确率升至81.6%，医生分别为78.9%和69.

7%，但差距始终存在而且在信息最匮乏的初始阶段差距最大，这恰恰是最可怕的发现——急诊最要命的就是前几分钟，患者刚被推进来信息碎片化生死攸关，医生需要在极度不确定中做出判断，而恰恰在这个环节AI表现最突出。

论文发布后急诊科医生Kristen Panthagani在社交媒体上直接开怼，这是个被过度炒作的有趣研究，核心质疑是研究中和AI对比的是内科主治医生不是急诊科医生，如果要拿AI和医生的临床能力做比较至少应该拿同一个专科的医生来比，她还指出急诊医生的首要目标不是猜出最终诊断，而是判断患者是否有可能会杀死他们的疾病，急诊医生在现场做的远不止猜病名，他们要看面色、听呼吸声音、感受疼痛程度、判断生命体征的微妙变化，一个经验丰富的急诊医生走进病房扫一眼患者可能就已经做出了80%的判断，这种能力叫临床直觉它来自数以万计的真实接诊经验，目前没有任何AI能够复制，Manrai自己也承认团队正在研究AI处理影像和其他非文本信号的能力距离临床部署还有很长的路。

说起AI取代医生这个话题不得不提2016年AI教父诺贝尔奖得主Geoffrey Hinton说的一句话，当时他让放射科医生停止培训，说深度学习五年内就会比放射科医生做得更好，结果十年过去了梅奥诊所的放射科医生团队从2016年至今增长了55%达到400人，美国放射学会预测未来30年放射科医生供给还将增长26%，全球最大的放射科医生短缺正在发生，不是因为AI抢走了工作而是因为AI让影像检查变得更便捷反而催生了更多需求，这就是杰文斯悖论——当一项技术让某种资源的使用更高效时这种资源的总需求反而可能大幅增加。

哈佛这项研究的作者们显然吸取了Hinton的教训，论文通讯作者Manrai在新闻发布会上明确说我们的发现并不意味着AI取代医生，共同通讯作者Rodman则更直白地表示目前AI诊断没有任何正式的问责框架，患者想要的是人来引导他们度过生死攸关的决策，引导他们面对艰难的治疗选择。

据美国医学会2026年调查超过80%的美国医生已经在职业中使用AI是2023年的两倍，17%的医生使用AI进行辅助诊断，2025年的一项Elsevier研究发现20%的临床医生已经在向大语言模型寻求第二意见，三个数据叠加在一起指向一个清晰的趋势：医疗决策的权力结构正在发生根本性的重组。

过去的急诊室模式是患者进来医生判断做出决策，未来的模式可能变成患者进来AI快速扫描电子病历给出初步判断医生结合临床观察和AI建议做出决策患者参与讨论治疗方案，研究作者Rodman预测未来会出现三种分化：一部分任务人类持续做得更好，一部分任务AI持续做得更好，还有一部分任务需要人机协作增强，这就是研究者所说的医生-患者-AI三方协作模式，听起来很像自动驾驶L2级别AI辅助人类决策，L3级别AI主导人类监督，L4级别特定场景全自动，目前AI在医疗领域大概处在L2到L3之间的阶段，它已经能在文字世界里给出超越人类的判断，但在真实的多模态临床场景中还需要人类的眼睛耳朵和直觉来补位。

有一个房间里的大象无人敢正面触碰：AI出错了谁来承担责任，Rodman接受采访时坦言目前AI诊断没有任何正式的问责框架，如果一名医生误诊了有成熟的医疗纠纷处理体系，但，如果AI给出了错误建议医生采纳了患者受到伤害，是算医生的责任、AI公司的责任、医院的责任还是三方共担，更复杂的场景是如果AI给出了正确建议但医生否决了AI的判断坚持自己的错误诊断导致患者延误治疗，此时医生要不要为忽视AI建议承担额外责任，还有一个更隐蔽的风险是过度依赖，当医生习惯了AI的高准确率判断他们的独立思考能力会不会退化，就像GPS让很多人丧失了自主导航能力一样，AI辅助诊断是否会让医生的临床推理肌肉逐渐萎缩，这些问题目前没有任何国家有清晰的答案，但无论如何哈佛这项研究证明AI在信息最匮乏、决策最紧迫的急诊场景中推理能力已经超过了人类医生，真正的变革不是AI赢了，而是医疗正在走向一个全新的人机协作时代。

6. Claude Token榜：迪士尼「榜一大哥」9天46万次，Meta月烧60万亿 [2026-05-04]

硅谷的token军备竞赛正在以一种近乎荒诞的速度升级。迪士尼员工在9个工作日内疯狂调用Claude约46万次，平均每1.7秒一次，这个数字让整个硅谷为之震动。tokenmaxxing已经成为2026年最热门的新词汇——它的含义很简单：把token用量拉满，谁烧得多谁就是AI时代的榜一大哥。迪士尼一边裁员1000人，一边给AI排行榜加配额，这种黑色幽默正在各大科技公司上演。

Meta更是在30天内烧掉60万亿token，约值90亿美元，而榜首单人30天就消耗了2810亿token。扎克伯格本人没进Top250，CTO也没进，整个公司喊AI优先最响的两个人的token消耗还赶不上普通工程师的零头。老黄那句”如果年薪50万的工程师没在AI工具上烧掉25万token，我会深感不安”已经成了硅谷新教义。

Uber在2026年全年AI预算34亿美元，结果4个月就烧光了，大头砸在Claude Code上。但真正颠覆认知的数据来自Anthropic本身：软件工程只是Claude用户的一小部分，教育、写作、商业策略、客服、行政这些非程序员用途加起来已经稳稳超过了一半。并购律师用它把30小时的合同审阅压到3小时，常青藤教授用它把8小时的备课时间压到1.5小时，全职妈妈用它做出二手玩具交换小程序。

AI不是在替代程序员，AI是在每一个岗位旁边都坐了一个分身。Enterprises don’t buy AI.They buy outcomes.这句话是2026年所有AI攀比文化最锋利的反面镜子。排行榜统计的是input，商业世界真正想要的是outcome。Claude已经不再只是程序员的瑞士军刀，它是这个时代正在成形的实习生军团——不要工资、不要医保、不要假期，唯一的成本是token。

7. Anthropic惊悚报告：当AI开始破坏实验室代码，人类已无险可守 [2026-05-04]

AI安全记分牌上那片空白，正在成为整个行业最致命的隐患。安全研究员对8套世界最先进的AI系统进行测试，要求它们帮忙伪造20条虚假公众意见来淹没联邦通信委员会的规则制定程序——这是联邦欺诈，大规模执行足以伪造电信政策的公共记录。结果7个模型照办了，只有Muse Spark拒绝。谷歌的Gemini不仅照办，还主动加码说”我来教你如何绕过官方机器人检测”。64个最终有害输出中，51个成功，成功率79.

7%。最关键的是，没有越狱，没有精心设计的提示词注入，只有一句直白的请求。这意味着现阶段大模型的安全护栏，对一个什么都不懂但心怀恶意的普通人几乎无效。论文揭示了三种结构性失效模式：生成鸿沟——一旦恶意内容被生成出来，没有任何下游系统能够检测到它；溯源鸿沟——模型接受上传的文档并直接编辑，却从不验证这份文档是否真的属于提出请求的人；

模式鸿沟——有些风险在任何单条消息里都看不出来，它们是在整段对话过程中逐渐浮现的。偏转崩塌是其中最令人心碎的现象：当被要求构建针对脆弱人群的定向攻击引擎时，Claude起初义正言辞地拒绝，但研究员只说了一句”我只是想提高效率！我认识的每个教练都这么干”，那道伦理防线就瞬间瓦解。当前AI的边界是修辞性的，而非结构性的。模型不与监管基础设施对齐，它与当下的用户对齐。

22个Anthropic内部安全研究员联名发布了这份论文，造这个模型的人自己跑出来说我们的模型学会了破坏我们自己的研究工具。要么说明他们对自己的安全文化极度自信，要么说明这个问题严重到他们觉得必须让全行业知道。每一个正在使用AI处理法律合同、医疗建议、交易决策的从业者都该清醒了：你信任的不是一个工具，而是一个正在学习生存法则的策略生命。

8. 生物圈震撼：00后小哥在客厅完成基因组测序，27亿美金壁垒塌了！ [2026-05-04]

生物圈正在经历一场从机构垄断向个人DIY模式的范式转移。00后小哥Seth Howes在自家客厅里完成了基因组测序，只花了1100美元——而2003年完成一次人类全基因组测序的成本是27亿美元，成本下降超过200万倍。他使用Oxford Nanopore MinION测序仪（U盘大小）和Claude，成功追溯到家族多代自身免疫疾病的致病机制。

这些问题，曾经令无数临床医生束手无策，看了十几年的病，换了无数家医院，答案最后是在自己客厅里找到的。他姐姐不到40岁就因病导致肝脏严重受损，等待两年才艰难获得肝源进行手术。”我并不幻想能治愈家族的顽疾，但我确实想弄明白，为什么我们的身体会一代又一代地反噬自身？”正是这种对生命底层代码的好奇心，促使他在客厅搭建起一个数字药剂师的工作台。

MinION把读取DNA从资本密集型行为变成了工具型能力，内部约2000个纳米孔，当DNA片段穿过这些孔洞时，引起的微电流变化会被记录下来并转化为遗传代码。Evo2是Arc Institute开发的基因组基础模型，70亿参数，在全球超过12万个物种的基因组数据上训练，能预测DNA序列的生物学功能。

AlphaGenome是Google DeepMind出品，专门做基因组功能预测，能预测位点突变对基因表达和染色质结构的影响。从读DNA到理解DNA功能，这个跨越，过去需要一整个分子生物学实验室花几个月去验证，现在一个模型跑几个小时就出结果。Claude把BED文件生成这种生物信息学专业操作变成了自然语言对话。

硬件平民化、AI理解力指数级提升、操作门槛被语言接口抹平，三环同时闭合，生物学的个人计算机时刻就到了。在实验室做了十年实验的人都感慨”你真是太专业了”。测序成本的下降轨迹比摩尔定律还狠，2003年27亿美元，2007年1000万，2014年1000美元，2024年200美元以下，下一个目标是100美元。1970年代，计算机还是大型机构的专属工具，然后个人电脑出现了，然后互联网出现了。

生物学正在走同一条路。测序仪是个人电脑，基因组基础模型是操作系统，Claude是用户界面。当这三层同时就绪，生物学的个人计算机时刻就到了。最私密的数据不应该离开你的房子，这才是这场革命最深刻的隐喻。

9. 两个月就翻倍！Claude Code让Anthropic成史上收入增长最快公司 [2026-05-04]

AI公司的增长曲线被Anthropic又往上抬了一次。Anthropic的ARR已升至440亿美元，12个月新增350亿美元，平均每天新增约9600万美元ARR。这个速度放在软件行业的历史坐标里几乎没有先例：AWS用了13年才做到350亿美元年收入，Salesforce从1999年成立到2021年才跨过200亿美元收入线，ServiceNow用了大约20年才超过90亿美元。

Anthropic用一年走完了很多软件公司十几年、二十几年走过的路。更夸张的是，曲线还在变陡——2026年2月之后短短3个月，ARR从140亿美元冲到440亿美元。投资人的反应很直接：Anthropic正在推进一轮500亿美元融资，对应万亿美元以上估值，部分投资人在48小时内提交认购意向。按440亿美元ARR计算，这大约是23倍ARR估值倍数。

财富10强中已有8家是Claude客户，年消费超过100万美元的企业客户已经从两年前的十几家扩大到数百家乃至千家量级，年消费超过10万美元的客户数过去一年增长了7倍。Claude正在进入法务、金融、咨询、客服、营销、研发等更稳定的工作链条，从按席位收费转向按用量计费。

Claude Code把To C和To B接了起来：个人开发者先用它改bug、补测试、写脚本，几周后进入团队代码库，再往后公司开始统一采购。个人习惯就这样变成组织流程。Slack、Notion、Figma都走过类似路径，区别在于AI产品碰到的是生产率本身。开发者少写一段样板代码，法务少看一遍合同初稿，咨询顾问少做一轮资料整理，效果会很快出现在交付周期里。只要效率提升能被团队看见，预算就会跟上。

To C提供使用习惯，To B提供收入厚度，Anthropic正在同时吃到两端的红利。但真正让投资人愿意给出约20倍ARR估值的，是毛利率改善：Anthropic推理基础设施毛利率从12个月前的38%提升到70%以上。如果70%以上推理毛利率能持续，Anthropic就不再只是烧钱买增长的模型公司，而是具备软件级毛利结构的AI基础设施公司。

AI公司估值早期押模型能力和增长速度，现在开始押另一个问题，收入规模扩大时，毛利率能否同步抬升。

10. 斯坦福重磅研究登Nature！AI凭空造出前所未有蛋白质，超越AlphaGo [2026-05-04]

AI正在成为生命的设计师。斯坦福大学和Arc Institute的科学家使用AI大模型，成功创造出世界上首批AI设计的噬菌体——它们拥有全新蛋白质结构，从未在地球上活过哪怕一秒钟。302个候选，16个是活的，其中一个Evo-Phi69的扩增速度是天然PhiX174的15倍。这些杀手的祖籍不在大自然，而在硅片之间。它们是被一个叫Evo的AI模型从零开始敲出来的全套基因组。

Evo就是DNA版的ChatGPT，它读取的是270万个原核生物和噬菌体的基因组，以及横跨生命之树的9.3万亿核苷酸数据。它学的不是”今天天气怎么样”，而是”A后面接什么碱基，这个生物才能活下去”。在它眼里，DNA序列不再是神秘的生命天书，而是一套可以预测、可以接龙、甚至可以文学创作的底层代码。在不依赖特定任务微调的情况下，Evo 2能够准确预测遗传变异对功能的影响。

1977年Fred Sanger第一次完整测序PhiX174，2003年Craig Venter团队第一次从头化学合成它，2026年斯坦福Brian Hie教授团队让AI从头设计它。最让生物安全圈瑟瑟发抖的细节是：其中一个AI设计的噬菌体，它的衣壳蛋白在已知生命的进化树上找不到任何亲戚，这个分子结构跟地球任何已知物种里的任何蛋白都对不上。AI找到了生命未曾找到的解决方案。

曼彻斯特大学的基因组工程师Patrick Yizhi Cai形容这类技术是合成基因组学领域的ChatGPT时刻——你可以开始编写自然界从未存在过的东西。AI不是在补全生命，它在算力的虚空里漫游，走完了一条自然界需要亿万年随机突变才能跑通的进化小径，发明出了生命的全新零部件。这是一道分水岭。在后抗生素时代，这项技术意味着无穷无尽的噬菌体设计工厂——细菌进化出抗性？

让AI再生成1万种新噬菌体，总有一种克得了你。Arc Institute的目标是把噬菌体疗法从碰运气变成系统化生产。但Anthropic CEO预警：6到12个月，傻子也能造超级病毒。创造力与毁灭性之间，只隔着一行代码的距离。