分析师 卡洛琳量子位智库 | 公众号 AI123All
总体来看,算力需求的重心从训练转向推理,市场竞争的核心正在从GPU走向全栈。
一方面,英伟达财报的成绩斐然——季度营收816.2亿美元、数据中心收入同比增长92%。这份成绩单表面上是英伟达的又一次胜利,但藏在财报细节中的危机同样明显:数据中心一半收入来自少数超大规模客户,而这些客户正转型为竞争对手。英伟达享受了AI训练需求爆发的第一波红利,但推理阶段的算力战场,参与者远不止GPU厂商。
另一方面,系统能力成为AI比拼的重心。 AMD苏姿丰做出“未来五年CPU市场年均增长超35%”的激进预测,不是无的放矢。单纯堆砌GPU训练的模式正面临盈利压力。而Gemini Spark和腾讯Marvis同样在强调的都是系统级。
本周最热门的是投资板块。需要关注的是算力正在成为科技公司手中的硬通货和股权投资工具。Anthropic向SpaceX购买算力可以成为SpaceX的股价背书,而OpenAI向YC初创公司提供的API信用额度可以换取股权。算力的控制权可以延伸出更多的经济和生态价值。
同时,国产AI正进入资本化验证的关键窗口。长鑫科技与云深处的扭亏为盈及科创板IPO值得持续关注。
基础
AMD苏姿丰称AI已超越推理阶段,预测CPU年增速超35%
AMD CEO苏姿丰参加AI论坛时表示,随着AI从训练加速向推理与智能体方向演进,CPU在AI基础设施中的战略重要性正显著回升。

过去三四年CPU市场年增长率仅3%至4%,几乎所有关注点都集中在GPU上。但随着AI推理和智能体AI技术加速铺开,CPU需求迎来爆发式增长。苏姿丰预测,未来五年CPU市场每年将增长超过35%,且当前CPU供应已处于紧张状态,市场需求远超一年前的预期。
她还坦言,在AI训练方面“没有人真正赚到钱”,折射出单纯堆砌GPU训练算力的商业模式正面临盈利挑战;而AI已经开始“做真正聪明的事”,海量推理任务正在催生对CPU通用算力的强劲需求。
英伟达季度营收816.2亿美元,表示自研芯片客户使竞争格局发生变化
英伟达发布第一财季财报,营收816.2亿美元,同比增长85.2%,超分析师预期;净利润583.21亿美元,同比暴增211%。数据中心业务营收752亿美元,同比增长92%,贡献九成以上营收。

黄仁勋表示下一代机架级AI系统Vera Rubin将于今年下半年开始发货,并预测Blackwell与Rubin芯片在2025至2027年间将创造1万亿美元收入。
然而,财报显示数据中心部门一半收入来自少数超大规模客户,亚马逊、谷歌、OpenAI等正在推进自研芯片,从英伟达的客户转型为竞争对手。自研芯片正在从根本上改变AI算力市场的竞争格局,英伟达的护城河正面临结构性侵蚀。
智谱落地ZCube架构,相同GPU吞吐提升15%
智谱联合驭驯网络与清华大学,在GLM-5.1生产集群中成功落地新一代网络架构ZCube。
在完全保持GPU算力、软件栈与应用不变的前提下,ZCube使集群GPU平均推理吞吐量提升了15%,首Token响应时间的P99尾延迟降低了40.6%,同时节省了33%的交换机与光模块资本支出。

单纯堆砌硬件已非通往更高性能的可行路径,智谱从网络拓扑结构这一基础瓶颈入手,用架构创新榨出了存量算力的新潜力。
ZCube技术被ACM SIGCOMM 2025评价为“显著改变整个行业对网络的认知方式”。在同等用户请求下,服务的并发能力和响应速度得到显著优化,展现了AI Infra层面的差异化成本控制力。
长鑫科技科创板上市在即,预计半年营收1200亿元增长600%
长鑫科技更新科创板IPO招股书,最新数据显示公司2025年实现首次年度归母净利润转正,2026年一季度营收508亿元,同比增长719.13%,归母净利润247.62亿元。公司预计2026年上半年实现营收1100亿至1200亿元,同比增长超600%。

随着全球DRAM供不应求,公司业绩在半年内扭亏为盈,一季度归母净利润在全球主要存储厂商中位列第四。这种涨幅不可持续,一季度DRAM合约价环比涨幅超90%;公司全球DRAM市占率不足5%,与三星、SK海力士和美光差距悬殊。
长鑫已计划启动HBM产线建设并预计2026年底投产,若成功切入AI算力产业链的HBM刚需市场,国产存储有望迎来新的增长周期。
模型
英伟达开源4-bit超长视频生成基础设施LongLive 2.0
英伟达开源LongLive 2.0,这是一个支持4-bit量化、面向超长视频生成的全栈基础设施方案。该方案在训练和推理全流程中采用NVFP4精度,通过端到端的效率优化大幅降低显存和算力成本。

实验数据显示,训练加速最高达2.15倍,推理加速达1.84倍;LongLive-2.0-5B版本在基准测试中实现了45.7 FPS的推理速度。
LongLive 2.0的意义不在于视频生成模型本身,而在于它证明了底层效率驱动的技术路线是走得通的。4-bit精度在LLM领域已大规模验证,但将其端到端贯穿长视频生成的全流程尚属首次,这有望推动视频生成模型的普及部署成本大幅下降。
Google I/O 2026宣布Gemini进入更自主的代理时代
谷歌在I/O 2026大会上发布了一系列以Gemini为核心的更新,主题直指从助手到代理的系统性转型。全新视频生成模型系列Gemini Omni支持4模态输入,输出可编辑的视频并支持对话式修改,已在Gemini App、Google Flow等产品中开放。
谷歌版的24/7个人AI Agent Gemini Spark 运行在Gemini 3.5 Flash上,可后台持续运行,支持跨应用执行多步骤任务。
CEO皮查伊披露,Gemini月活用户从去年I/O时的4亿增长至9亿,日请求量增长超7倍,每月处理Token达3.2千万亿。谷歌正将AI嵌入所有入口——从搜索框到浏览器,从手机到眼镜,从对话界面延伸到后台全天候运行的Agent,Agent正在成为新一代操作系统。
Qwen 3.7 Max/Plus预览版上线
阿里通义千问Qwen 3.7系列两款模型上线。旗舰版Qwen3.7-Max-Preview在Arena AI文本综合排名中位列全球第13位,是国产第一;数学能力排名全球第7,编程能力排名全球第10。高性能版Qwen3.7-Plus-Preview在视觉领域排名全球第16位。
分析来看,Qwen的升级方向已转向执行能力。官方强调新模型更偏向真实世界Agent场景,强化了世界知识、指令遵循以及Agentic Coding能力。2026年开始,Agent调用工具、长链条任务执行、代码自治能力正成为新的核心指标。
Max/Plus的双层产品结构也说明了模型厂商相似的商业化路径:旗舰模型负责能力天花板,中层模型负责推理成本与企业落地平衡。
LLM智能体记忆重写研究:原始记忆反复重写会损害可靠性
伊利诺伊大学厄巴纳-香槟分校、清华大学与微软研究院联合发布了一项关于LLM智能体记忆管理的研究,提出了一种名为PlugMem的任务无关记忆模块。

研究发现当前LLM智能体的记忆系统会将大量原始交互历史直接存储,导致记忆无限膨胀、噪声积累,智能体被淹没在冗长低价值的上下文中,检索精度和决策效率严重下降。研究团队将原始经验结构化提炼为事实和可复用策略,不仅提升了基准任务表现,还显著降低了Token消耗。
在LLM智能体从单轮问答迈向长期自主工作的过程中,记忆架构的重新设计正成为决定其可靠性的关键技术瓶颈。
Odyssey发布Agora-1多智能体世界模型
Odyssey ML发布实时多智能体世界模型Agora-1,该模型支持最多4名人类或AI玩家在同一模拟世界中实时交互。
Agora-1以经典游戏GoldenEye 007的死亡竞赛模式为演示场景,模型直接学习游戏的内部状态与机制,通过DiT模型为每位玩家独立渲染第一人称视角画面。生成连续画面并非世界模型的终点。

Agora-1的核心价值在于共享状态和多主体行为一致性,这对机器人训练、Agent强化学习乃至游戏AI都意义重大,因为真正复杂的现实世界本质上是多主体博弈环境。
Odyssey成立于2023年,已累计融资2700万美元,包括Google Ventures领投的种子轮及EQT Ventures领投的A轮。
应用
腾讯:操作系统级AI助手Marvis上线;设计平台Ardot开启公测
腾讯上线操作系统层级AI助手Marvis,覆盖Windows、Mac及安卓三端。
用户只需一句话描述目标,系统即可理解需求、拆解任务,并调度六个不同的Agent并行执行,涉及文件、应用、浏览器等多个领域。

在安全机制上,Marvis提供“效率模式”和“隐私模式”两种选择,后者完全基于端侧模型运行,适用于对数据安全有高要求的场景。
此外,腾讯开启自研AI设计智能体协作平台Ardot的公测,用户可通过自然语言描述界面需求实时生成设计初稿,并深度兼容Figma。

Ardot的三重优势在于素材资产化、MCP协议打通开发环境与企业级协作能力,有望在国内复刻Figma与Copilot的组合路线。
摩尔线程发布全栈具身智能仿真平台MT Lambda
摩尔线程推出“云-边-端”全栈智算矩阵,其中最受关注的是首个全栈国产化具身智能仿真平台MT Lambda。
该平台以摩尔线程自研全功能GPU为核心,单颗芯片可同时支持AI计算、图形渲染、物理仿真与超高清视频编解码。底层实现渲染、物理、AI计算的零拷贝,中间层深度融合自研三大引擎,上层则包括MT Lambda-Lab具身策略训练平台与MT Lambda-Sim高保真仿真平台。
MT Lambda的发布核心在于全栈国产化的系统性整合,从GPU芯片到物理引擎到仿真框架,全部基于自研技术栈。
具身智能仿真平台的核心竞争力在于仿真精度与真实物理世界之间的gap大小,以及用户迁移的生态成本,目前尚未公布与英伟达Isaac Sim等成熟平台的横向对比数据。
投资
SpaceX招股书公开,Anthropic拟支付近450亿美元购买算力
SpaceX向SEC递交的S-1招股说明书披露了一项重大合作:Anthropic已同意在未来三年内向SpaceX支付近450亿美元,以获取计算资源用于Claude模型的训练和推理。
根据协议,Anthropic预计每月向SpaceX支付12.5亿美元,持续至2029年5月,任何一方可提前90天通知终止。
SpaceX在递交IPO文件之际披露该交易,意在展示其强劲的AI算力资源布局。
与此同时,OpenAI正准备最早于本周五秘密提交IPO申请。OpenAI与马斯克的恩怨由来已久,核心战场已经开始从模型竞争转向基础设施与资本市场的竞争。此次合作表明马斯克的策略正在转变,不一定需要赢模型,还可以选择控制AI的基础设施。
OpenAI向YC创业公司提供200万美元API信用额度
奥特曼在出席Y Combinator活动时宣布,将向所有参与YC加速营的初创企业各提供价值200万美元的OpenAI算力额度,以换取相应公司股权。
该计划覆盖约400家初创公司,采用不设估值上限的SAFE协议,OpenAI的持股比例将由未来融资轮次决定。
此前OpenAI已通过类似协议获得了Cerebras和CoreWeave的大量股权。以OpenAI自身推理成本计算,真正让渡的价值远低于200万美元,但却能将数百家初创企业深度绑定其API生态。
对于资源匮乏的初创公司,按量计费的Token不仅是成本,更是限制产品想象力的枷锁。创新需要冗余和浪费,AI创业的核心问题不是最便宜的模型能做什么,而是最聪明的模型能实现什么。
AI Infra企业趋境科技宣布完成数亿元Pre-A轮融资
趋境科技宣布完成数亿元Pre-A轮融资,由星连资本与华控科技联合领投,弘晖资本、天壕能源、尚势资本等跟投,老股东高瓴创投持续加注。
公司提出Token即服务的产业理念,建设高效能AI Token生产服务平台ATaaS,聚焦将底层算力转化为可规模化交付的高品质AI Token产能。目前平台日均处理Token量近万亿,已为智谱GLM、月之暗面Kimi等企业级客户提供服务。
AI Infra的价值正在被市场重新定价。在AI应用爆发、Token消耗指数级增长的背景下,模型能力不再是唯一瓶颈,Token供给层本质上做的是算力到智能的转换效率生意。如何在与云厂商和模型厂商的博弈中保持独立性和不可替代性,是此类企业的核心命题。
为Agent提供搜索引擎的Exa获2.5亿美元融资,估值22亿美元
AI搜索引擎基础设施公司Exa Labs宣布完成2.5亿美元C轮融资,由a16z领投,投后估值达22亿美元。
不到一年时间,公司估值从约7亿美元增长超过三倍。Exa目前服务超过5000家企业客户和40万开发者,客户查询量从2025年4月的约1亿次增长到2026年4月的约10亿次。
如果Agent成为最主要的AI应用形态,Agent专属的中间件与工具层就会成为新兴蓝海,这也是Exa最主要的估值逻辑。Agent原生搜索、工具调用网关、Agent间通信协议等中间件层的价值在于定义了Agent与外部世界交互的语法,形成标准后就很难被替代。
Hark完成7亿美元融资,英伟达、AMD、英特尔参与
由Figure创始人Brett Adcock创立的AI初创公司Hark宣布完成逾7亿美元A轮融资,投后估值高达60亿美元。本轮融资由Parkway Venture Capital领投,英伟达、AMD Ventures、英特尔资本等三大芯片巨头的风险投资部门悉数到场,此外还有高通创投、ARK Invest等机构参投。
Adcock连续创办了Archer Aviation和Figure等明星公司,从苹果、谷歌、Meta等公司挖来了顶尖人才,市场对其能力抱有极高期待。但Hark首款模型计划于今年夏末推出,尚未交付任何产品。
Abidur Chowdhury——2025年超薄iPhone Air的硬件设计负责人——已出任Hark设计负责人,表明Hark选择了一条底层模型、上层应用到专属硬件全部自研的产品路线。
叮当动力获数千万种子轮融资,地平线领投
空间智能大模型初创企业叮当动力宣布完成数千万元种子轮融资,由地平线领投、正景基金跟投。
公司由前地平线智能座舱产品线总经理牛建伟创立,核心业务聚焦空间智能与物理Agent。牛建伟的履历横跨百度语音技术、地平线算法工程师到智能座舱产品线总经理,具备从算法、芯片适配到产品量产的完整商业化经验。
从团队背景来看,叮当动力的差异化优势在于创始团队既有AI算法的顶层视野,又有与国产芯片深度配合的量产经验。
消费级具身智能企业贝塔无限完成数亿元种子轮融资
消费级具身智能企业贝塔无限宣布先后完成种子轮与种子+轮融资,累计金额达数亿元。种子轮由洪泰基金、正景基金、银杏谷资本等联合投资;种子+轮由世纪华通参与的盛趣泰和基金与和利资本联合领投。
公司于2026年3月正式运营,CEO刘武龙博士毕业于清华电子工程系,曾任华为大模型工程团队负责人,主导孵化了华为智能驾驶业务及ADS 2.0量产交付,并从0到1打造了昇腾万卡集群训推系统。
CTO陶帅同样毕业于清华电子系,曾任字节跳动搜索与网盟商业化AI算法和工程总监。首批消费级具身智能产品先锋体验版计划年内亮相。
具身大脑具脑磐石完成新一轮亿元级融资
具身智能大脑公司具脑磐石近日完成新一轮亿元级融资,本轮由具备深厚类脑与具身产业背景的顶尖产业资本领投,老股东及多家顶尖基金复投和跟投,多维资本担任独家财务顾问。同时,更新一轮融资也在同步交割中。
公司由前华为云AI算法创新Lab主任、华为具身智能大脑开创者朱森华于2025年下半年创立,以类脑智能为底层范式,构建面向真实物理世界的认知世界模型。资金将重点投入核心技术研发、团队扩充与全球市场拓展。
技术路线上,公司提出的认知世界模型与杨立昆JEPA路线同向,但更聚焦具身落地。商业化层面,今年以来公司已与国内汽车产业多家龙头公司展开场景落地合作,海外市场也携手日本合作伙伴完成了首个工业场景的PoC验证。
云深处科创板IPO受理,拟融资25.03亿元
云深处科创板IPO审核状态变更为“已受理”,是继宇树科技之后A股第二家获IPO受理的人形机器人企业。
本次IPO保荐人为中信建投,拟融资25.03亿元,将投入具身算法及模型研发、机器人本体与解决方案研发、具身智能机器人产业化及基地建设四大项目。
根据沙利文数据,2025年云深处四足机器人行业应用领域收入排名全球第一,四足机器人收入排名全球第二。业绩方面,公司2025年营收3.37亿元,2025年归母净利润2868.40万元,实现扭亏为盈。
深处IPO的推进标志着国产具身智能正在从技术概念走向资本市场验证阶段。
灵巧手企业临界点完成数亿元融资,估值突破10亿美元
机器人灵巧手研发商临界点AGILINK完成新一轮数亿元人民币融资,公司估值突破10亿美元,正式跻身独角兽行列。这是该公司自2026年1月成立以来完成的第四轮融资,距上一轮仅过去约100天。
根据临界点披露的数据,目前累计已交付灵巧手8000余台、夹爪过万台,其中千余台灵巧手已在工业、物流、服务等场景常态化作业。
从成立到估值破10亿美元仅用不到半年时间,临界点的融资节奏折射出资本市场对机器人核心零部件赛道的极度追捧。
灵巧手的核心壁垒在于控制算法与力触觉传感,硬件交付量并不等同于技术护城河的深度。
智能戒指制造商Oura递交IPO申请
智能戒指制造商Oura Health Oy已秘密向美国证券交易委员会提交IPO申请,计划于年内晚些时候上市,估值约110亿美元。

公司数据显示其已累计售出550万枚戒指,预计2026年营收将达到15亿美元,是2024年5亿美元收入的三倍。Oura Ring的售价在349至499美元之间,同时每月收取5.99美元的会员费,会员服务贡献了超过80%的毛利率,会员留存率高达80%以上,超过主流流媒体平台。
Oura的商业结构更像软件公司而非硬件厂商,其严密的专利壁垒已迫使印度厂商Ultrahuman停止在美国销售,并向包括三星在内的多家巨头发起诉讼。
相比Oura十年间30%的复合年增长率,全球智能手表市场增长率已放缓至1.7%,戒指品类更受资本青睐。
认知
Karpathy加入Anthropic,前沿模型研究重要补强
OpenAI创始成员、前特斯拉AI负责人Andrej Karpathy正式宣布加入Anthropic,重返一线研发。
他将加入Anthropic的预训练团队,向同为OpenAI前核心成员的Nicholas Joseph汇报,并组建一支新团队,核心方向是利用Claude模型本身来加速预训练研究——即“用AI训练下一代AI”的递归自我改进路线。
Karpathy是AI领域极少数兼具前沿研究视野、大规模工程经验和公众影响力的研究者,选择在Anthropic估值突破万亿美元、即将上市的关键节点加入,等于为这家公司的基础模型能力投下了一张至关重要的信任票。
杨立昆的“后LLM时代”路线,AI应该从语言模型回到现实世界
杨立昆在最新播客中进一步系统化阐述了其“后LLM时代”路线图。
相比过去单纯批评大语言模型缺乏理解能力,他这次更明确地将当前AI Agent的不稳定性归因于世界模型缺失——模型能够生成语言上的合理步骤,却无法真正预测行动后果与现实状态变化,因此难以形成可靠规划能力。
杨立昆再次强调,文本并非智能的核心来源,人类绝大多数知识来自视觉观察与现实交互。他提出的JEPA路线及AMI所做的是推动AI从Token prediction转向World simulation。
更值得注意的是,他开始将开放模型生态上升至国家竞争维度,认为封闭模型正在限制创新,而开放生态才可能加速AI演进。
中国AI应用全景图谱报告发布
第四届中国AIGC产业峰会发布《2026年中国AI应用全景图谱报告》,覆盖ToC软硬件、ToB应用和底层开发三大维度。
核心数据显示:2026年4月国内AI应用Web端月访问量突破9亿,APP端月下载量超2.4亿,日活同比增长223%;中国日均Token调用量突破140万亿,两年增长超千倍。报告将国内AI应用分为智能助手、文娱生活、效率办公、创作四大赛道,其中AI效率办公Web端用户活跃份额超七成,AI创作APP端日活同比增长449%。
报告同时提炼出AI应用的五大趋势:Agent化、模型普惠化、入口化、付费化、垂直深化。
报告全文可通过官方链接下载:https://jkhbjkhb.feishu.cn/wiki/W5D7wuDcbiPXDLkaRLQcAJpOn8f
政策
国家反诈中心App上线“AI内容鉴定”功能
国家反诈中心App正式上线“AI内容鉴定”功能,用户可通过上传图片、视频、音频或文本来检测AI生成痕迹,主要应用于识别AI换脸、伪造图片视频等新型诈骗场景。
平台目前限制每日检测次数,并支持上传不同格式内容进行鉴定。该功能上线的背景,是AI伪造内容已经开始大规模进入现实诈骗场景。
近期电商平台频繁出现“AI伪造商品损坏图申请仅退款”等案例,而AI换脸、合成语音也正快速降低诈骗门槛。
从技术角度看,这类“AI鉴定AI”系统本质是在检测生成模型留下的统计特征与伪造痕迹。该功能最大的意义是建立一个官方可信验证入口,把AI生成纳入公共治理体系,为AI时代的欺诈防范提供基础性公共服务。
— 联系作者 —

— 完 —
【量子位智库】原创内容,未经账号授权,禁止随意转载。
点这里👇关注我,记得标星哦~
夜雨聆风