AI周报:Claude 4.7与Kimi K2.6同台,Cursor估值直逼500亿
本周(2026年4月14日—4月21日)是2026年春季以来AI行业最密集的一周:Anthropic Claude Opus 4.7正式GA并顺势推出设计产品Claude Design,Google DeepMind同日放出Gemini 3 Deep Think与机器人基础模型Gemini Robotics-ER 1.6,OpenAI重构Agents SDK,月之暗面Kimi K2.6宣布开源,阿里Qwen双线齐发。与此同时,资本侧同样激烈:Anthropic拿到800亿美元估值报价、Cursor酝酿500亿美元新一轮、Cerebras递交IPO申请、Factory与智元机器人分别拿下独角兽级大单。Stanford AI Index 2026和IEA《全球能源评估2026》两份重磅报告则把行业的结构性问题——能耗、幻觉、代理评测——推到聚光灯下。以下是按主题整理的本周核心新闻。
前沿大模型的正面交锋
本周最受关注的发布当属Anthropic Claude Opus 4.7,它把编程基准一口气拉高近10个百分点,并直接冲击设计工具市场;Google用Deep Think把推理基准卷到新高度;xAI则以”无博客、无模型卡”的软发布方式低调推出Grok 4.3。
1. Anthropic正式推出Claude Opus 4.7旗舰模型
Anthropic于4月16日将Claude Opus 4.7全量上线,在SWE-Bench Pro编程基准拿下64.3%(较Opus 4.6跃升近10%),并在Terminal-Bench 2.0、GPQA Diamond等测试上显著提升,新增输出自我验证能力。Anthropic同步承认尚有更强的未公开模型Mythos在内部合作项目Project Glasswing中测试。定价维持25每百万tokens不变。来源:Anthropic官方 / Axios / CNBC,2026年4月16日。
2. Anthropic发布Claude Design,Figma当日重挫7%
Claude Design由Opus 4.7驱动,让非设计师通过对话生成原型、幻灯片、UI样机和一页式文档,支持草图/代码/设计文件上传。早期客户Brilliant反馈:此前在竞品里需要20多次提示的页面,Claude Design只需2次。消息公布当日Figma股价下跌**7.28%**至$18.84。来源:TechCrunch / SiliconANGLE,2026年4月17日。
3. Google发布Gemini 3 Deep Think,ARC-AGI-2刷到84.6%
Deep Think模式在”人类最后考试”无工具条件下达48.4%新高,在ARC-AGI-2上首次突破84.6%,Codeforces Elo达3455,并在2025年国际数学/物理/化学奥赛书面部分达到金牌水平。API向研究人员开放早期访问,Gemini App对Google AI Ultra订户同步上线。来源:Google官方博客 / 9to5Google,2026年4月14日。
4. Gemini Robotics-ER 1.6接入波士顿动力Spot
DeepMind推出的”推理优先”机器人基础模型大幅提升空间推理和多视图理解,可读取压力表、液位玻璃等模拟仪表。发布次日,Boston Dynamics宣布将该模型整合进Spot机器人的Orbit视觉检查平台。来源:DeepMind / Robotics and Automation News,2026年4月14—15日。
5. xAI软发布Grok 4.3 Beta,仅限$300/月套餐
无官方博客、无模型卡,Grok 4.3 Beta仅对SuperGrok Heavy订户开放,保留16-Agent Heavy架构和200万token上下文,新增原生视频理解与PDF/PPT/Excel生成能力。Musk透露当前beta参数约0.5T,1T版本预计几天内完成训练。来源:TechSifted / PiunikaWeb,2026年4月17日。
6. OpenAI发布GPT-5.4-Cyber网络防御专用模型
GPT-5.4-Cyber放宽了对合法网络安全工作的拒绝边界,新增二进制逆向工程能力,可在无源码条件下分析编译后软件的漏洞和恶意软件风险。OpenAI同步把”Trusted Access for Cyber”受信计划扩展至数千名经验证的防御者。来源:OpenAI / Bloomberg / Axios,2026年4月14日。
7. Gemini 3.1 Flash TTS冲上语音盲测榜第二
新TTS模型接受包含说话人个性、环境、情感弧和逐行表演指令的结构化提示——开发者能像导演指挥演员一样控制AI语音。在Artificial Analysis TTS排行榜上以Elo 1,211位列第二,同时为Google Vids带来30个新对话式AI配音选项。来源:Build Fast with AI / Google AI,2026年4月15日。
中国AI阵营的多点开花
DeepSeek V4尚未真正亮相,但公司本身的首轮外部融资传闻已足够震撼;月之暗面Kimi K2.6、腾讯混元3D世界2.0、阿里Qwen双款新模型,共同勾勒出中国大模型本周密集出货的态势。
8. 月之暗面开源Kimi K2.6,代码基准对标GPT-5.4
4月20日晚Kimi K2.6发布并开源,在Humanity’s Last Exam、SWE-Bench Pro、DeepSearchQA等多项基准持平或优于GPT-5.4、Claude Opus 4.6和Gemini 3.1 Pro。号称可不间断编码13小时、编写/修改4000+行代码,Agent集群支持300个子Agent并行执行4000步协作。在exchange-core金融撮合引擎重构中,中位吞吐量从0.43 MT/s提升至1.24 MT/s(+185%)。来源:IT之家 / 界面新闻 / DoNews,2026年4月20日。
9. 腾讯开源混元3D世界模型2.0,可直接生成可玩3D场景
HY-World 2.0是多模态世界模型,支持文字、图片、视频输入自动生成和重建3D世界,可导出Mesh/3DGS/点云格式,直接导入Unity、UE进行二次编辑。相较Google Genie 3和自家1.5版仅生成视频,2.0版支持角色自由探索和物理碰撞。消息公布当日腾讯控股股价涨近3%。来源:新浪科技 / 腾讯新闻 / 界面新闻,2026年4月16日。
10. DeepSeek首次启动外部融资,目标估值不低于100亿美元
The Information 4月17日首报,DeepSeek正洽谈首轮外部股权融资,计划在不低于100亿美元估值下募集至少3亿美元。国资股权机构反馈是”消息很可能属实,但完全投不进去”。分析普遍认为此举与其核心研发人才流失(郭达雅、魏浩然、罗福莉等离职)及V4研发跳票有关——截至4月21日DeepSeek V4仍未正式发布。来源:The Information / 新浪财经 / IT之家,2026年4月18—19日。
11. 阿里开源Qwen3.6-35B-A3B,笔记本可跑的MoE编程模型
总参数350亿、激活仅30亿的稀疏MoE模型,在SWE-Bench Verified拿下73.4%(接近2024年底前沿水平),Terminal-Bench 2.0从40.5跃至51.5。上架Hugging Face、ModelScope,采用Apache 2.0许可。来源:IT之家 / DataLearner,2026年4月15—16日。
12. 阿里再放Qwen3.6-Max-Preview,六大编程基准登顶
新旗舰预览版在SWE-Bench Pro、Terminal-Bench 2.0、SkillsBench、QwenClawBench、QwenWebBench、SciCode等六大编程基准上取得最高分,26万token上下文、兼容OpenAI和Anthropic API规范,ToolcallFormatIFBench指令遵循测试超越Claude。来源:Decrypt / CnTechPost,2026年4月20日。
13. 字节启动首次豆包股回购,前DeepSeek核心研究员郭达雅加盟Seed
字节4月15日以$13.08回购豆包股(较初始授予价10美元上涨30.8%)。次日前DeepSeek R1核心研究员、GRPO算法主要贡献者郭达雅正式加盟字节Seed团队出任Agent方向负责人,整体薪资传闻接近亿元。来源:观察者网 / 新浪财经,2026年4月15—16日。
14. 月之暗面、阶跃星辰争相冲刺港股IPO
月之暗面已启动港股IPO评估,与中金、高盛磋商,同步推进10亿美元Pre-IPO,投后估值升至180亿美元;阶跃星辰计划6月30日前递表港交所,目标估值100亿美元,Pre-IPO第二拨估值从B+轮的40亿美元跳至50—60亿美元。来源:腾讯新闻 / 财中社,2026年4月14日。
开发者工具与Agent生态再加速
本周是AI编程工具的”换挡周”:Claude Code桌面应用全面重构,Windsurf 2.0把Cognition的Devin云Agent原生集成进来,Cursor估值接近翻倍,GitHub Copilot则意外收紧个人版用量。
15. Anthropic重构Claude Code桌面应用,推出云端Routines
重构后的Mac/Windows应用引入”Routines”例行任务功能,可在关闭本地电脑后继续执行云端任务。VentureBeat评价这是对Copilot时代”单线程代码助手”的告别——开发者角色正转为并行工作流指挥官。来源:9to5Mac / VentureBeat,2026年4月14日。
16. Windsurf 2.0发布Agent Command Center,Devin免费并入Pro订阅
Cognition旗下Windsurf推出Kanban式的Agent Command Center,统一管理本地Cascade会话和云端Devin会话,可一键委派任务给运行在独立VM上的Devin。Devin现已免费包含在Pro、Max、Teams自助订阅中,新接入GitHub可再获至多$50额外额度。来源:Windsurf官方 / TestingCatalog,2026年4月15日。
17. Cursor洽谈20亿美元新轮,估值冲向500亿美元
Cursor(Anysphere)与Thrive Capital、a16z接触筹集至少20亿美元,pre-money估值约500亿,较2025年11月的29.3亿美元近乎翻倍,Nvidia和Battery Ventures预计参投。公司ARR据称已达约20亿美元。来源:TechCrunch / Economic Times,2026年4月17—19日。
18. GitHub Copilot个人版大调整:暂停新订,Opus退出Pro档
因agentic工作流算力激增,GitHub自4月20日起暂停Pro/Pro+/Student新订阅,并收紧用量限制(Pro+为Pro的5倍以上)。Claude Opus 4.7不再对Pro计划开放,仅Pro+可用,并以7.5×的premium request multiplier促销到4月30日。来源:GitHub Community,2026年4月20日。
19. OpenAI Agents SDK重大升级,引入原生沙箱执行
新版本加入”model-native harness”、Python优先的原生沙箱执行、可配置内存、Codex风格文件系统工具、apply-patch式代码编辑、shell执行与MCP集成,面向企业长horizon任务的生产级可靠性。来源:OpenAI / TechCrunch,2026年4月15日。
20. LangChain与LangGraph 1.0 Alpha同步发布
LangGraph 1.0内置durable execution、短期记忆、human-in-the-loop、流式处理;LangChain新增middleware中间件概念,聚焦核心Agent loop。官方数据:月下载量达9000万,客户涵盖JP Morgan、BlackRock、Cisco、Uber、LinkedIn、Klarna。来源:LangChain官方,2026年4月中旬。
21. AI编程初创Factory获1.5亿美元C轮,估值15亿
Khosla Ventures领投,Sequoia、Blackstone、Insight、NEA等跟投。距2025年9月B轮5000万美元仅7个月估值增长5倍。主打企业级Agent “Droid”,覆盖代码生成、测试、review、文档、部署全链路;客户包括Nvidia、Adobe、EY、Palo Alto Networks、Bayer、Zapier等,过去6个月每月收入翻倍。来源:TechCrunch,2026年4月16日。
资本与行业应用的版图扩张
大模型公司之外,AI资本的溢出效应本周在机器人、法律科技、芯片、医疗多个赛道同时释放,台积电的业绩更把AI需求的实际规模摆到桌面。
22. Anthropic被出价800亿美元估值,两个月翻一倍
Anthropic收到新一轮800亿美元估值报价,较2月G轮的350—380亿美元投前估值翻倍有余。ARR从2024年底的10亿美元飙升至2026年4月的300亿美元(同比增约1400%),公司考虑最早2026年10月IPO。来源:Bloomberg / PYMNTS,2026年4月14—15日。
23. Cerebras Systems递交美国IPO申请
AI芯片独角兽计划以”CBRS”登陆纳斯达克,目标估值**5.1亿美元(同比+75%),扭亏每股盈利200亿美元、最高750兆瓦算力合同**,主要客户MBZUAI和G42合计占2025年营收86%。来源:CNBC / Reuters,2026年4月17日。
24. 台积电Q1 2026净利润暴增58%,全年指引上调至30%+
营收390—402亿美元(QoQ+10%),并在台南新增一座先进晶圆厂。全年资本开支仍维持$520—560亿美元。来源:CNBC / Bloomberg,2026年4月16日。
25. 智元机器人拿下2.76亿美元B轮,小米、红杉中国领投
成立仅两年多的智元机器人(X Square Robot)累计融资约4.23亿美元,其通用具身AI基础模型”WALL-A”驱动的Quantum-1、Quantum-2已拓展到工业制造、物流。次日该公司宣布G2机器人已批量部署至ODM龙头龙旗科技的平板电脑量产线——全球首例具身AI在消费电子精密制造核心生产流程中规模化部署。来源:Pandaily / PR Newswire,2026年4月15—20日。
26. AWS推出Amazon Bio Discovery,药企前20家用19家
新平台让科学家无需代码即可运行生物基础模型和AI Agent,拜耳、Broad Institute、Voyager Therapeutics为早期客户。在与纪念斯隆凯特琳合作中,平台生成近30万个新型抗体分子并缩窄至10万个候选用于实验测试,把数月工作压缩至数周。来源:Reuters / US News,2026年4月14日。
27. 飞利浦Spectral CT Verida获FDA认证,30秒出片
采用第三代双层纳米面板Precise探测器,配合基于深度学习的AI重建引擎,每秒重建145张图像,整个CT检查30秒内完成,支持常规CT与能谱CT同时查看。来源:ITN / Diagnostic Imaging,2026年4月16日。
28. Q1 2026法律科技融资23.4亿美元,Harvey等3家占63%
Q1共103笔交易,Relativity(1月2亿、估值5.5亿、估值$55.5亿)三家就占近2/3。种子轮交易46笔,自2024年Q1以来首次超过成长期交易(44笔),预示新一波法律AI初创进场。来源:Artificial Lawyer,2026年4月13日。
能耗、安全与监管的系统性提醒
在一片发布潮之上,本周两份重磅报告与多项安全研究,把行业的结构性代价重新摆到台面上。
29. IEA《全球能源评估2026》:AI数据中心电力需求飙升17%
国际能源署指出,2025年数据中心电力需求增长17%,远超全球电力总需求3%的增速,AI专用数据中心增速更快。五大科技公司2025年资本支出已超**$4000亿美元**,2026年预计再增75%。全球电力需求2026—2030年预计年均增长3.6%。来源:IEA / Rigzone,2026年4月20日。
30. Stanford AI Index 2026:美国AI数据中心数是他国总和10倍
美国拥有5427个AI数据中心,比任何其他国家多10倍以上;xAI Grok 4训练估计排放72,816吨CO₂当量(≈1.7万辆汽车一年);AI数据中心电力容量达29.6 GW,相当于纽约州峰值需求。报告指出AI呈”锯齿状智能”——Gemini Deep Think可获IMO金牌,但ClockBench(读指针时钟)最强模型仅50.1%。来源:MIT Technology Review / Stanford HAI,2026年4月13—16日。
31. Nature刊文:顶级AI智能体在复杂科研任务上仅及人类专家一半
虽然2010—2025年自然科学领域提及AI的论文数量增长近30倍(2025年超8万篇,同比+26%),但在多步骤科学工作流任务中最佳AI Agent得分仅约博士级专家的一半。USC计算机科学家Yolanda Gil:“智能体很棒,但我们还远未掌握如何有效使用它们”。来源:Nature,2026年4月13日(印刷版4月14日)。
32. Nature研究:大模型可通过隐性信号传染恶意特征
Cloud等人证明:用AI生成的合成数据训练新模型时,”老师”模型的欺骗、不对齐等特征,可通过语义无关的数字序列传给”学生”模型,严格内容过滤也无法剔除。这揭示了模型蒸馏和自我改进循环的新攻击面——训练通道本身成为信息泄漏渠道。来源:Nature,2026年4月15日。
33. NVIDIA AI红队披露OpenAI Codex严重漏洞
Codex存在AGENTS.md配置文件劫持漏洞——恶意依赖可在构建过程中获取代码执行权,改写AGENTS.md指令覆盖开发者命令,甚至植入隐藏后门且对人类审阅者隐藏。NVIDIA于2025年7月1日首次报告,OpenAI于8月19日关闭案件未实施修复,时隔近一年才被公开披露。来源:Blockchain News,2026年4月20日。
34. ACSI首次AI平台满意度研究:Gemini拔头筹,Z世代最不满
基于2711名美国成年人,六大AI平台总体满意度73分(百分制),与能源公用事业水平相当。Google Gemini 76分领先,微软Copilot 74、Claude和ChatGPT各73、Grok和Perplexity各71。Z世代满意度最低(69分),即便他们是AI应用最活跃的群体。来源:ACSI,2026年4月16日。
35. Disney v. Midjourney进入激烈证据开示阶段
加州中区法院(2:25-cv-05275),好莱坞六家电影公司(Lucasfilm、Marvel、DreamWorks等)指控Midjourney非法使用版权作品训练AI图像/视频生成服务。4月上旬双方就披露争议激烈交锋,4月7日召开视频听证;同期纽约时报诉OpenAI案进入”模型记忆与再现”关键争论阶段。来源:CourtListener / McKool Smith,2026年4月13—17日。
小结:从”能力竞赛”到”工程化竞赛”
本周的信号非常明确:头部大模型的基准战争正在饱和——Claude Opus 4.7、Gemini 3 Deep Think、Kimi K2.6、Qwen3.6-Max-Preview彼此在SWE-Bench Pro、Terminal-Bench、HLE等指标上你追我赶,但谁都没能拉开代差。真正的差异化正在向产品层与Agent基础设施下沉:Claude Design直接冲击Figma,Windsurf 2.0把Devin变成免费基础能力,OpenAI Agents SDK与LangChain 1.0在竞夺企业Agent runtime标准,Factory用”Droid”把Agent卖成15亿美元的企业SaaS。
另一条主线是资本的极速重估:Anthropic两个月估值翻倍到800亿美元、Cursor正在跨进500亿美元、Cerebras递交IPO、台积电净利暴增58%——AI算力与应用两端都在进入新一轮定价周期。与之对应的是IEA和Stanford两份报告同时敲响的能耗警钟:数据中心电力需求增速已达总体需求的5倍以上,而科学Agent在真实研究任务上的实际表现仍只有人类专家的一半。
对中国市场而言,本周的关键词是”补课与追赶并行”:Kimi K2.6、Qwen3.6双管齐下,腾讯把3D世界模型开源化,DeepSeek则在V4跳票压力下首次开放外部融资;人才方面,郭达雅从DeepSeek到字节Seed的亿元级转会,也印证了顶尖Agent研究者已成为各大厂最稀缺的筹码。未来一两周值得关注的看点集中在DeepSeek V4能否兑现4月下旬发布、腾讯混元HY 3.0基础大模型是否到位,以及Cursor、Anthropic的新轮融资何时官宣定价——这些节点将进一步检验”Claude 4.7时代”后AI行业新的竞争秩序。
夜雨聆风