从 Claude 史诗级升级到 Sora 团队集体出走,AI 正在经历一场静默的范式转变。
4 月 18 日的 AI 圈前所未有的热闹。一边是 Anthropic 用实打实的数据正面回应“降智”风波,Claude Opus 4.7 性能直接拉满;另一边是 OpenAI 痛失两员大将,Sora 负责人和科学 VP 同一天宣布离职。Google 和 OpenAI 的 Agent 大战愈演愈烈,而一个叫 axios 的“老牌”工具被植入木马,给全行业敲响了安全警钟。
这篇文章不搞虚的,只给你筛选出今天最值得关注的 AI 消息,以及它们可能对你的影响。
一、Claude Opus 4.7:那个“变笨”的 Claude,终于支棱起来了
上个月 Claude“降智”的话题闹得沸沸扬扬,AMD 总监直接在 GitHub 开炮,说 Claude 退化到“无法信任复杂工程任务”的程度。Hex 等专业评测机构也发现,模型会给出“看似合理但错误”的答案,而不是坦诚承认自己不知道。
Anthropic 的回应方式相当直接:上线新版本。

4 月 17 日,Claude Opus 4.7 正式发布。 官方数据显示,这款模型在编码基准上提升了 13%,生产级任务的自主完成率提升了 3 倍。Cursor 团队的实测结果更有说服力:自主编码成功率从 58% 跳升至 70%——这意味着过去需要两三遍提示才能完成的任务,现在通常一次就能跑通。
更关键的改进是,Opus 4.7 引入了“主动规划-验证-检查”的工作范式。简单来说,模型在给出答案之前会先“想一想”,检查自己的输出是否正确,而不是直接生成一段看起来没问题但实际跑不通的代码。Anthropic 的工程师 Thariq 曾明确表示,实际任务不需要超过 15 万 token 的完美召回——这个观点直接给“上下文越长越好”的行业共识浇了盆冷水。
Hex 直接给出了一个相当高的评价:这是他们“评估过最强大的模型”。核心认可点在于模型终于学会了“自知能力边界”——知道自己几斤几两,总比假装全能但到处出错强。
但故事还有另一面。Anthropic 同时在运作两条线:公开的产品线(Opus 4.7)和隐秘的战略线(Mythos 系统)。据报道,Anthropic 联合创始人已经向特朗普政府汇报了 Mythos 的渗透测试结果。这意味着 AI 能力边界的政策博弈已经悄然开始—— Anthropic 的策略是“足够强但可控部署”,既要让产品有竞争力,又要在监管层面给自己留足空间。
对普通用户来说,这意味着什么? 如果你用 Claude Coding 或者 Cursor 这类工具,现在可以期待更稳定的代码生成体验了。但如果你在期待 Anthropic 放“大招”,可能还需要等——那个真正强大的 Mythos 系统目前只向精选的安全合作伙伴开放。
二、GPT-Rosalind:OpenAI 开始“种药”了
相比 Claude 的“续命”,OpenAI 在同一天发布的 GPT-Rosalind 更有战略意义。
这是一款专门面向生命科学领域的模型, 命名致敬 Rosalind Franklin——那个在 DNA 结构发现中做出关键贡献但经常被遗忘的科学家。GPT-Rosalind 聚焦药物发现和转化医学,优化了化学、蛋白质工程和基因组学推理能力。

为什么这件事值得关注?
美国新药从靶点发现到监管审批,平均耗时 10-15 年。光是前期发现阶段的效率提升,就会在整个下游产生复合效应——一款药早上市一年,节省的成本是以亿为单位计算的。GPT-Rosalind 接入超过 50 个科学工具和数据源,已经与 Amgen、Moderna、Allen Institute、Temo Fisher 等机构展开合作。
OpenAI 的目标很明确:帮助科学家从文献综述快速切换到实验规划,同时探索更多可能性并发现可能被忽略的关联。用 Sam Altman 的话说,这不是要“替代科学家”,而是要把“发现”的边界向外推。
这可能是 AI 在科学研究领域最务实的一次落地。 过去 AI 在科研领域更多是“辅助写作”或“生成图表”,而 GPT-Rosalind 直接切入药物研发的核心流程。虽然效果还需要时间验证,但方向是对的。
三、Sora 团队“解体”:OpenAI 正在收缩
同一天,OpenAI 证实了两位核心负责人的离职:Sora 负责人 Bill Peebles 和 AI for Science VP Kevin Weil。巧合的是,OpenAI 上月刚刚关停了 Sora 视频生成工具——那个曾经被定义为“GPT-4 时刻在视频领域重演”的产品。
Peebles 在 X 上发文感谢 Altman“给予追求非主流想法的空间”,并强调“培育熵增是研究实验室长期繁荣的唯一方式”。这句话被很多人解读为对 OpenAI 当前战略方向的微妙批评。
Weil 负责的 Prism 研究工具将被并入 Codex 桌面应用,AI for Science 团队“分散至其他研究组”。这与 OpenAI 年初宣布聚焦“避免 side quests”、集中资源于编码和企业 AI 的战略完全吻合。
这波离职潮释放了一个清晰的信号:OpenAI 正在从“探索未知”向“交付已知”收缩。 对投资者来说这是效率提升,但对 AI 社区来说可能意味着创新边界的收窄。毕竟,不是每个团队都愿意用“培育熵增”来形容自己的研究文化。
视频生成和科学研究暂时让位于企业 AI 的商业化冲刺,这可能是 OpenAI 的务实选择,但也可能是行业创新的损失。
四、Google vs OpenAI:Agent 大战进入“信任构建”阶段
如果说 Sora 的遇冷是 OpenAI 的收缩,那 Google 和 OpenAI 在 Agent 领域的竞争可一点没闲着。

Google 正在为 Gemini 扩展全新 Agent 系统, 可以跨 Gmail、Drive、Calendar 和网页执行多步骤任务。与传统的对话式提示不同,该系统引入了“require human review”开关——用户可以在 Agent 自动执行与人工审批之间灵活切换。这意味着什么?Google 终于承认了一件事:让 AI 全权替你做事,目前阶段用户还是不放心。
这是 Google 从聊天式交互向全任务执行的战略转移,正面迎击 OpenAI 的 Operator 和 Anthropic 的 Computer Use 路线。Agent 生态的竞争已经从前期的“能不能做”,进入“谁能让学生把事交出去”的新阶段。
OpenAI 的 Codex 也在同周迎来史上最大幅度更新: 支持后台控制电脑所有应用、90 多个新插件、gpt-image-1.5 图片生成和应用内浏览器。开发者可以在 Mac 上并行运行多个 Agent 处理前端迭代、测试和 API 集成,同时不会干扰其他应用。对话线程可复用、AI 可记住偏好并调度未来自动任务——Codex 正从“代码助手”进化为“开发流程自动驾驶仪”。
每周超过 300 万开发者使用 Codex,这次更新直接瞄准全生命周期效率提升。Google 和 OpenAI 的 Agent 大战,本质上是在争夺同一个目标:让你把重复性的工作交给 AI,自己做更有价值的事。
五、axios 被植入木马:供应链安全的警钟
如果说上面的消息都是“好消息”,那这条新闻足以让所有开发者脊背发凉。
3 月 31 日,npm 最流行的 HTTP 客户端 axios 被植入恶意版本 1.14.1 和 0.30.4。 攻击者接管了维护者账号后将发布邮箱从合法地址切换为攻击者控制的 ProtonMail。恶意代码没有直接出现在 axios 本身,而是通过新引入的 plain-crypto-js @4.2.1 依赖的 postinstall 脚本部署跨平台 RAT(远程控制木马)。
这个攻击的精细程度令人发指。axios 1.x 版本使用 GitHub Actions OIDC 机制发布,这是业界公认的安全实践。但恶意版本却采用手动 token 发布、无 gitHead——安全公司 Koi Security 指出,这是“教科书级别的供应链攻击指纹”。换句话说,攻击者对 npm 生态的安全机制了如指掌,专门挑最薄弱的地方下手。
如果你已经安装了这两个版本,应该立即假设系统已失陷。 Koi 的 Wings 引擎在数分钟内检测到异常:安装时出现陌生网络连接、新依赖未出现在历史版本中。如果你用的是企业环境,建议立即审计最近一周的 npm 安装记录。
这还没完。另一个安全漏洞同样值得警惕:Open VSX(Cursor、Windsurf 等编辑器的扩展市场)在预发布扫描 pipeline 中引入了一个 boolean 返回值 bug,将“未配置扫描器”和“所有扫描器失败”两种情况混为一谈。当扫描器在高负载下失败时,系统将其视为“无扫描需求”并直接放行扩展。恶意扩展被标记为 PASSED,任何拥有免费 publisher 账号的攻击者只需在扫描时段内 flood 端点即可绕过检测。

对企业来说,这意味着什么? VentureBeat 调研了 108 家企业后发现:82% 的高管认为政策能防护未授权 Agent 行为,但 88% 报告过去 12 个月发生过 AI Agent 安全事件。仅有 21% 的企业对 Agent 运行时行为有可见性,97% 的安全负责人预期 12 个月内会发生重大 Agent 驱动事件——但只有 6% 的安全预算用于应对。
最快对手突破时间已经降至 27 秒。在 AI Agent 大规模上岗之前,安全防护的预算和意识都需要跟上。
六、两个值得关注的开源项目
好消息是,开源社区仍然在产出有趣的项目。

第一个是 research-pipeline. 这是一个基于 Streamlit 构建的多步骤研究可行性评估 pipeline,给定研究方向即可完成文献筛选、证据提取和结构化报告生成。7 个模块覆盖从搜索标准设定、逻辑链生成、文献检索、PDF 下载、证据提取到最终评估的全流程。支持配置 DeepSeek API 作为主力模型,可选切换 Anthropic 模型。
对于科研人员来说,这个工具可以大幅加速文献调研的自动化流程。配置一个 config.yaml 文件,就能搭建起一套完整的文献调研工作流。
第二个是 OmPose。 融合 YOLO 姿态检测和 Qwen VL 视觉语言模型,实现实时姿态推荐和指导。想象一下:你站在摄像头前,AI 不仅检测你当前的姿态,还能分析室内/室外、光线、氛围等因素,给出场景适配的姿势建议,并叠加目标骨架覆盖图。系统实时计算姿态匹配得分,让你可以直观看到自己和“标准姿势”差在哪。
这个项目展示了一个很有趣的趋势:VLM(视觉语言模型)正在从泛泛的“智能相机”转向解决具体的垂直场景痛点。不是什么“颠覆性创新”,而是“你刚好需要,我刚好做了”的产品级方案。
七、其他值得注意的动向
Chrome 内置 AI Mode 了。 Google 在 Chrome 桌面版推出 AI Mode 深度集成,点击链接可直接在侧边栏打开网页并与 AI 对话,无需切换标签页。用户在浏览电商页面时可以直接问“这个咖啡机清洗方便吗”,AI 会结合页面内容和全网知识即时回答。搜索已打开的标签页、将多个标签内容加入同一对话语境——这些功能正在把搜索引擎变成浏览过程的实时协作者。
深势科技发布了玻尔·跃迁实验室。 这是一个 AI 全链路打通干湿闭环的智能实验室,接入 1800 余种仪器设备型号,支持远程操控,从设备连接、实验执行、流程编排到 AI-Ready 数据输出和云 CAD 仿真规划全链路覆盖。一键生成下一轮实验参数建议的功能意味着 AI 开始承担“提出假设”的科学家角色——这是 Science AI 从工具层向思维层渗透的关键信号。
Google 的 Memory Caching 技术解决了 RNN 的致命弱点。 无论读了多少文本,传统 RNN 都只能压缩到固定大小的隐藏状态。Google Research 提出的 Memory Caching 技术通过对 RNN 隐藏状态定期“快照打卡”,让循环架构也能实现“超长上下文”能力,同时保持每 token 恒定解码成本。Transformer 与 RNN 的融合正在加速。
写在最后
今天的 AI 圈很热闹,但热闹背后是一条清晰的线索:AI 正在从“展示能力”转向“交付价值”。
Claude Opus 4.7 不再追求上下文长度,而是专注可靠性;GPT-Rosalind 直接切入药物研发的十年周期;Google 和 OpenAI 的 Agent 大战本质上是争夺“信任”;安全事件的频发则在提醒,行业需要在跑得更快的同时系好安全带。
OpenAI 收缩战线不一定是坏事——聚焦商业化能让 AI 更快产生实际价值。但 Sora 团队的离开也提醒我们,那些“非主流”的探索方向,往往才是行业长期繁荣的燃料。
对于普通人来说,这些变化意味着:AI 工具确实在变得更好用、更可靠了。但与此同时,安全意识也需要跟上——你永远不知道哪个依赖里藏着木马。
最后是一个行动建议: 如果你用 npm 管理项目,立即检查是否安装了 axios 1.14.1 或 0.30.4。如果装了,别犹豫,直接重装干净版本。
本文参考了 AI Valley、Anthropic Blog、TechCrunch、The Verge、MIT Tech Review、机器之心、极客公园等 18 个 AI 数据源的最新报道。数据截至 2026 年 4 月 18 日。
配图由AI生成,仅供illustration使用
夜雨聆风