AI要闻周报(2026年4月6日-4月12日)
1. AWS考虑对外销售AI芯片,业务年化收入超200亿美元
亚马逊首席执行官安迪·贾西在其年度股东信中披露,公司的芯片业务年化收入已超过200亿美元,高于此前披露的超100亿美元。亚马逊通过AWS云业务销售标准的Graviton CPU芯片和专为AI定制的Trainium芯片。贾西表示,如果亚马逊直接向外部公司销售芯片,该业务的年化运行率将达到约500亿美元。由于需求高涨,未来“很有可能”会向第三方出售其芯片整机柜。作为对比,竞争对手谷歌已讨论过将其芯片直接出售给Meta等客户,用于客户自建的数据中心,而非通过谷歌云业务。
2. OpenAI大幅上调广告收入预期,2030年目标达1020亿美元
OpenAI正将广告业务提升至核心战略。根据其一季度的财务预测,公司预计今年广告收入为24亿美元,明年将翻四倍至近110亿美元。到2030年,OpenAI预计广告收入将达到1020亿美元,占其当年总收入的36%。为实现这一目标,OpenAI计划大幅提高广告用户平均收入(ARPU),预计从今年的近3.5美元跃升至明年的约12美元,并在2030年达到近60美元。这一雄心勃勃的计划与竞争对手Anthropic形成鲜明对比,后者已通过超级碗广告明确表示其Claude模型将保持无广告。
3、英特尔 & SambaNova:联合推出三层异构推理架构应对智能体AI
英特尔与SambaNova宣布联合推出三层异构推理架构,分别由GPU、SambaNova可重配置数据流单元(RDU)和英特尔至强6 CPU承担预填充、解码及智能体任务编排,以解决企业级智能体AI部署中成本高、能耗大和GPU利用率低的问题。该方案预计2026年下半年推出,面向企业、云服务商及主权AI场景。
4、Meta因Llama 4失利重构AI战略,成立超级智能实验室
因Llama 4口碑失利,Meta彻底重构其AI战略,斥巨资引进人才并成立“Meta超级智能实验室”。公司推出了全新的闭源多模态模型Muse Spark,该模型在原生多模态、深思模式等技术加持下,以显著更低的算力实现了可比或更佳的性能,并在部分第三方测试中名列前茅。
5、谷歌拥有全球最大单一AI算力,TPU占比高
谷歌凭借约500万H100当量算力成为全球最大单一AI算力持有者,其中约400万来自自研TPU芯片,对英伟达依赖度显著低于同行。算力的高度集中使少数巨头可能主导AI发展节奏和市场定价权。随着AI推理需求成熟,英伟达的主导地位或面临挑战。
6、Snowflake:战略转型,从数据仓库迈向AI与应用平台
Snowflake正在实施从数据仓库向AI与应用平台的战略转型。公司CEO认为AI的未来在于基于数据主动采取行动,因此将重心由聊天机器人转向具备自主执行能力的智能体(Agent),并推出数百项AI功能及重组团队。其提出的“随数据交付”模式,旨在将AI能力嵌入企业现有数据环境,直接驱动业务行动。
7、英伟达:投资RISC-V芯片设计公司SiFive
SiFive完成由英伟达等参与的4亿美元G轮融资,估值达36.5亿美元。SiFive核心业务是提供RISC-V芯片蓝图供客户定制。融资将用于开发数据中心CPU与AI IP,并通过集成NVIDIA NVLink Fusion提升系统互联效率。业界视此举为RISC-V跻身高性能计算主流的标志,并有望切入千亿美元AI数据中心市场。
8. CoreWeave与Meta签署210亿美元新合同,累计合作达352亿美元
Meta与云计算提供商CoreWeave签署了一项新协议,承诺在2027年至2032年期间追加210亿美元支出,用于租赁人工智能芯片。此前,双方已有一份价值142亿美元、延续至2031年的合同。两份合同合计规模达352亿美元,使Meta成为CoreWeave最重要的客户之一。此举是Meta今年大幅提升资本支出计划(预计1150亿至1350亿美元)的缩影。对于CoreWeave而言,这笔交易优化了其客户结构,预计将单一客户营收占比降至不超过35%。尽管Meta正在自建数据中心,但其仍依赖CoreWeave提供的高质量AI算力服务,以保障在激烈AI竞争中的算力供给安全。
9、Anthropic & 谷歌& 博通:签署多吉瓦TPU算力协议
Anthropic与谷歌、博通签署协议,将自2027年起获得约3.5吉瓦的下一代TPU算力,这是其迄今最大规模的算力承诺。该协议是Anthropic 500亿美元国内计算基础设施投资的延伸,旨在应对Claude模型企业用户收入快速增长带来的推理负载压力,标志着AI基础设施竞争的重点转向锁定长期专属硅片产能。
10、微软发布自研AI模型套件减少对OpenAI依赖
微软推出三款自主开发的商用AI模型:MAI-Transcribe-1(语音转录)、MAI-Voice-1(语音生成)和MAI-Image-2(图像创建)。这些模型已在Microsoft Foundry和MAI Playground平台上线,以运行速度快、价格具竞争力为特点。此举标志着微软意图减少对外部模型(特别是OpenAI)的依赖,强化自身技术控制力。分析师认为,这并非替换合作伙伴,而是在架构层面降低依赖性并增强控制力。
11、英伟达收购SchedMD引发开源AI调度软件中立性担忧
英伟达收购了广泛用于全球约60%超级计算机的工作负载管理器Slurm的开发公司SchedMD。此举引发业界对其可能通过代码优先级或路线图决策偏向自家硬件、损害竞争对手的担忧,可能形成有利于CUDA生态的“最佳支持路径效应”。尽管Slurm在GPL v2.0许可下开源,但因英伟达掌控主要开发者,社区分叉难以维持同等开发速度。建议企业多样化GPU采购并进行多供应商环境基准测试。
12、Feeling AI开源CodeBrain-1与MemBrain1.5,为Agent植入逻辑与记忆
Feeling AI发布了全球Agentic领域顶尖的CodeBrain-1与MemBrain1.5并同步开源。CodeBrain-1通过优化执行逻辑与错误反馈机制提升模型操作成功率;MemBrain1.5在多基准测试中刷新SOTA,采用自适应实体树算法兼顾语义保真与结构化记忆组织。两者旨在为AI Agent植入原生逻辑与层级化记忆,终结AI“无状态”工具时代。
13、Anthropic收购Coefficient Bio布局医疗AI
Anthropic以4亿美元收购仅有9名员工的生物科技初创公司Coefficient Bio。Coefficient Bio专注于AI药物发现,团队具备知名药企背景。此次收购被视为Anthropic强化其生命科学人才储备、支撑Claude生命科学平台发展的重要举措,实质是以获取高端人才推动其在医疗AI领域的布局。Anthropic此前已推出Claude for Life Sciences和Claude for Healthcare两大医疗平台。
14、面向AI的SSD彻底火出圈,破解算力存储协同挑战
面向AI的SSD是为大模型训练/推理定制的高性能、高并发、低延迟、高耐久、大容量专用存储。其通过直连GPU架构、类内存层扩展显存及内置DSP/ASIC近存计算,破解了现有HBM成本高与HDD速度慢的瓶颈,使存储本质性融入算力体系并降低整体TCO。SSD厂商第一条路线,是与GPU龙头英伟达深度绑定,针对性开发适配AI/数据中心场景的SSD产品;第二条路线,则是聚焦容量提升、性能突破,打造高性能、大容量的SSD产品。在AI服务器需求爆发的背景下,2026年正成为AI用SSD技术落地与商业化应用的关键元年。
15、Anthropic年化收入超300亿美元,联手谷歌博通扩展AI芯片合作,推出网络安全计划Project Glasswing,预览最强模型Mythos
Anthropic披露其年化收入已超过300亿美元,较2025年底的90亿美元大幅增长,并拥有超过1000家企业客户。同时,博通宣布与谷歌达成两项长期协议:一是为谷歌开发下一代定制TPU处理器;二是为谷歌下一代AI机架供应网络组件直至2031年。Anthropic计划从2027年开始通过博通获得约3.5千兆瓦的TPU算力,但该部署取决于其持续的商业成功。
Anthropic联合亚马逊、苹果、微软等多家科技巨头推出Project Glasswing网络安全计划,利用其未发布的Claude Mythos Preview模型主动发现并协助修复数千个长期隐藏的软件漏洞,包括存在数十年的关键系统缺陷。Anthropic为此承诺投入最高1亿美元使用额度及400万美元支持开源安全组织。该模型不向公众开放,以防恶意利用。
16、英特尔宣布与马斯克“Terafab”项目合作,目标年1太瓦算力
详细内容: 英特尔宣布与马斯克旗下“Terafab”项目合作,将利用自身芯片制造能力助力实现年1太瓦算力目标,为代工业务寻找突破。但目前合作细节模糊,尚未披露具体角色、财务条款或合同规模。
17、海光信息2026年Q1营收暴增68%,创单季新高
国产算力芯片龙头海光信息在2026年第一季度实现营收40.34亿元,同比大增68.06%;归母净利润6.87亿元,同比增长35.82%,创下单季营收新高。公司在通用与人工智能计算市场凭借高性能产品矩阵推进业绩。此前披露的2025年年报显示,全年营收143.77亿元,净利润25.45亿元,同比分别增长56.92%和31.79%。
18、Arcee以2000万美元预算开发出4000亿参数开源LLM,提供西方企业替代方案
美国初创公司Arcee以2000万美元预算开发出4000亿参数的开源大语言模型,并发布新推理模型Trinity Large Thinking。该模型旨在为美西方企业提供可替代中国模型的本地或云端方案,避免受制于大型AI实验室。虽然性能不及Anthropic或OpenAI的闭源模型,但在OpenClaw使用中表现突出,基准测试可比肩其他顶级开源模型,并采用无争议的Apache 2.0许可。
19、Anthropic因打包失误泄露Claude Code源代码,揭示AI“睡眠”记忆整理机制
Anthropic因打包失误将Claude Code的51万行源代码泄露至公共npm仓库。其中未发布功能autoDream隶属KAIROS后台系统,可在用户关机后离线整理记忆以缓解大模型上下文窗口限制与上下文腐化问题。该机制在离线运行、选择性编辑记忆等方面与人脑睡眠的记忆巩固过程高度趋同,揭示了智能体记忆系统周期性整理的必要性。
20、Meta员工参与“Token竞技”以重写代码库,新模型将半开源并深度集成社交应用
Meta因扎克伯格要求用AI重写代码库,引发了8.5万名员工参与的“Token竞技”,日均消耗2万亿Token。结果是,由亚历山大王主导的首个新模型家族将以半开源形式发布,通过深度嵌入WhatsApp和Instagram等社交应用来构建差异化竞争力。Meta试图通过掌控分发渠道,在日常沟通和内容创作领域构建独特的AI体验。
21、美国科技行业裁员持续,AI成重要因素
美国科技行业近期出现显著裁员,约1.5万人失业,主要集中在软件服务与系统设计领域。AI应用被列为重要原因,年内相关裁员累计已超5.4万人次。与此同时,全美整体就业仍在增长,科技业失业率低于全国平均。企业正将资源投向AI,以AI编程等功能替代部分人工,但也催生了新型AI技能人才的需求。
22、英特尔与谷歌签署多年合作协议,共研IPU应对AI瓶颈
英特尔与谷歌签署多年合作协议,围绕CPU与定制基础设施处理器(IPU)进行深度协作。双方将在谷歌云部署英特尔至强处理器,并联合研发ASIC架构的IPU,用于卸载网络、存储和安全功能,以应对AI工作负载演进中CPU成为系统级瓶颈的问题,旨在优化AI基础设施的整体性能与效率。
23、Google DeepMind CEO哈萨比斯展望AI未来50年
Google DeepMind CEO、诺贝尔化学奖得主哈萨比斯在对谈中指出,科幻小说中的未来场景或可在50年内实现。他系统阐述了DeepMind多项核心技术(如AlphaFold、AlphaGo系列)如何解决重大科学与产业难题,已在药物研发、基因解析等领域产生广泛影响。同时,他警示技术被恶意利用及agentic AI失控的中期风险高于深度伪造,并呼吁加强国际合作。
24、研究显示:即便没有Mythos,现有AI模型已能高效实施网络攻击
网络安全初创公司Buzz的研究显示,即便没有Anthropic未公开的强大AI模型Mythos,现有公开的AI模型组合成的智能体,已能在无人工监督下快速利用大量已知网络安全漏洞。在测试中,该AI智能体成功利用了122个已知漏洞中的103个,且大多数利用过程不到一小时,而人类黑客通常需要数天。例如,利用危险的React2Shell漏洞仅需22分钟。研究结果表明,AI正在使复杂攻击变得极易实施,暴露出防御方在响应速度与风险承受度上的明显劣势。业界专家呼吁,防御策略应转向假设攻击随时发生,并强化系统隔离(“分割”)以应对AI驱动的威胁。
25. Meta强制抽调工程师组建新团队,全力改进AI模型
Meta Platforms正在采取激进措施,将公司各部门的顶尖工程师强制抽调至新成立的“应用AI工程”(AAI)部门,以提升其在AI模型军备竞赛中的竞争力。Meta副总裁Maher Saba在内部备忘录中表示,此举是公司的最高优先级(“P0”),旨在帮助Meta更快地将其模型性能提升至业界顶尖水平并“参与AI竞赛”。AAI团队将支持负责构建新AI模型的Meta超级智能实验室(Superintelligence Labs),并通过在未来两周内举办黑客松来生成数据和加速模型训练。Saba明确表示,由于AAI是公司最高优先事项,“这次调动不是可选的”。
26、“GPT-4o之母”Joanne Jang宣布离职OpenAI
Joanne Jang是OpenAI模型行为团队创始负责人,被誉为“GPT-4o之母”,主导设计了GPT-4o等模型的人格与交互特性。在任职四年半后,她宣布离职且未透露原因与去向。她的离开引发广泛关注,因GPT-4o曾以独特的共情能力和拟人化风格深受用户喜爱,外界担忧OpenAI可能失去创造类似灵魂AI体验的能力。
27、Claude Code用户报告模型性能严重退化,思考深度下降
Anthropic Claude Code用户在复杂工程任务中发现,模型自2026年2月更新后性能严重退化。数据显示,模型思考内容被隐藏且思考深度下降,导致其忽略指令、选择错误修复并频繁出现行为异常。定量分析表明,思考令牌减少使工具使用从“研究优先”转为“编辑优先”,严重影响多文件长时间自主编程流程的质量与效率。
二、新品发布与技术应用
1、阿里云百炼:推出Agent记忆库功能,赋予AI智能体长期记忆能力
阿里云百炼推出Agent记忆库功能,使AI智能体(Agent)具备跨会话长期记忆能力。该系统通过“提取-存储-检索-注入”模块与算法优化,实现检索性能、日期及内容相关性显著提升。用户可通过OpenClaw插件或API快速配置,旨在解决现有AI Agent因缺乏长期记忆造成的上下文丢失与体验下降问题。
2、MemPalace:推出免费开源AI记忆系统,借鉴记忆宫殿法
MemPalace是由《生化危机》女主Milla Jovovich与程序员合作打造的免费开源AI记忆系统,其设计借鉴记忆宫殿法构建可导航的多层空间结构。在LongMemEval等基准测试中获得公开可查史上最高分等多项优异成绩,实现了检索效率较全局乱搜提升约34%,全程本地处理保障隐私,并以极低的token消耗显著降低成本。
3、Anthropic:正式公测Claude Managed Agents,重新定义Agent基础设施
Anthropic推出Claude Managed Agents,这是一套完全托管的Agent构建与部署API套件。它通过解耦控制器逻辑与沙箱执行环境,抽象出稳定接口,旨在解决Agent在生产环境中的安全与可靠性难题。实际测试表明该架构能显著降低延迟,并已在Notion、Rakuten等客户中实现从原型到生产的快速迁移与规模化应用。
4、Meta:超级智能实验室发布首款闭源模型Muse Spark
Meta超级智能实验室发布其首个公开模型Muse Spark。这是一款闭源专有AI模型,具备标准思考模式与可调度多达16个并行推理智能体的“沉思模式”,在多项基准测试中表现优于OpenAI、Anthropic等竞品。模型已通过Meta AI应用及网站可用,并向精选伙伴开放私有API,短期内将扩展至WhatsApp等多个平台。
5、CREAO(硅谷华人团队):推出消费级AI Agent Harness,降低使用门槛
硅谷华人团队Creao AI推出的CREAO,是全球首个真正面向普通用户的消费级AI Agent Harness。它能让用户通过自然语言描述需求,由AI自动生成并固化可持续运行的系统,无需编程或技术调试。产品发布后迅速登上X全球热搜,被评价为可能重塑自动化与效率认知、推动AI Agent从开发者圈层走向大众的重要产品。
6、李飞飞团队(World Labs):发布全新世界模型Marble 1.1系列
李飞飞团队World Labs发布了两款新世界模型Marble 1.1与Marble 1.1-Plus。前者显著提升画质与光照对比度,后者可自动扩展生成更大范围的3D空间,并能将照片或平面图快速转化为可自由浏览的立体场景。实测表明两者在画质与空间覆盖上各有侧重,为3D内容生成提供了新的工具选择。
7、腾讯混元 & Robotics X:推出专为具身智能重构的MoT/MoE基础模型系列
腾讯混元团队联合Robotics X实验室开发了专为具身智能从底层架构到训练范式重构的HY-Embodied-0.5系列基础模型,包括主打端侧部署的MoT-2B和追求复杂推理的MoE-32B。该系列采用混合Transformer、原生分辨率视觉编码等创新,在22项权威评测中MoT-2B获16项最佳,性能超越多个通用及具身模型。
8、上海AI Lab开源MinerU2.5-Pro:12亿参数模型OCR任务碾压2350亿大模型
上海AI Lab发布仅12亿参数的MinerU2.5-Pro文档解析模型。该模型未改动架构,完全依靠覆盖度、信息量与标注精度协同优化的数据工程及三阶段训练策略,在OmniDocBench v1.6取得95.69分,超越Gemini 3 Pro、Qwen3-VL-235B等参数量高达2350亿的模型。研究表明,文档解析性能瓶颈源于训练数据缺陷,优化数据工程比扩大模型规模更能显著提升效果。
9、开源知识图谱工具Graphify发布,零配置、全模态、本地运行
Graphify是一款零配置、全模态、本地运行且显著节省token的开源知识图谱工具。它能自动解析代码、文档、图像等多模态文件并生成可交互图谱,免除手动整理与高消耗问题,实现71.5倍token节省且无需向量数据库。其支持一键命令生成图谱并可增量更新,具备全平台适配与针对Claude Code、Codex、OpenClaw的安装指引,显著降低使用门槛。
10、清华大学与智谱AI推出全球首个AI网站构建评估平台Vision2Web
Vision2Web是由清华大学与智谱AI联合推出的全球首个专门评估AI代理从设计图片直接构建完整网站能力的综合测试平台,采用三层递进式测试挑战AI的静态页面、交互前端及全栈开发能力,并创新性引入智能体验证机制进行客观评估。对8个先进AI模型的测试表明,其在复杂任务尤其是全栈开发中表现远低于预期。
11、神秘模型“欢乐马”屠榜AI视频生成
2026年4月,一款名为HappyHorse-1.0(“欢乐马”)的神秘AI视频模型横空出世,在权威评测平台Artificial Analysis的AI Video Arena中,一举登顶文本转视频、图像转视频及音视频生成三大赛道,以断层领先的Elo分数实现“全球屠榜”。据多方消息透露,该模型很可能出自阿里巴巴旗下实验室。HappyHorse-1.0采用40层单流Transformer架构,原生支持音视频同步生成,并承诺将完全开源其基础模型、蒸馏模型及推理代码。该模型通过数千名用户的盲测对比证明了其卓越性能,在画面真实感、细节还原和镜头调度等方面显著优于包括字节跳动Seedance 2.0在内的主流模型。
三、学术前沿与研究突破
1、上海人工智能实验室:系统揭示数据深度处理比数量更重要,推动预训练科学化
上海人工智能实验室联合团队通过200多项实验,首次系统揭示大语言模型预训练过程中,数据处理深度比数量更重要。其3B参数的daVinci-LLM模型性能媲美7B模型。研究建立了涵盖10个层次的数据达尔文主义分级框架,并完全开源训练细节,为AI预训练从经验“艺术”转向可量化“科学”奠定基础。
2、上海AI实验室推出GEMS:让小模型也能像大师一样生成完美图像
上海AI实验室联合多所高校发布GEMS技术,这是一个通过智能团队协作机制提升小模型性能的系统。其包含循环优化、记忆管理和技能库三大核心,采用多轮迭代和专业技能匹配。实验显示,配备GEMS的60亿参数模型Z-Image-Turbo在主流测试中平均性能提升14.22分,甚至在特定测试中超越知名商业大模型。
3、北京大学与阿里巴巴提出Think-Anywhere,代码生成AI可随时暂停思考
北大与阿里联合研发的Think-Anywhere技术,首次让代码生成AI能在编程任意位置按需暂停思考,突破了传统的前置思考模式。该技术通过两阶段训练,在四大测试平台实现平均70.3%的准确率,比基础模型提升9.3个百分点,并展现跨领域迁移能力与更低计算开销。该技术可更高效解决复杂编程问题,且适用于不同规模与类型的模型。
清华大学等提出Claw-Eval,揭露现有AI智能体评估遗漏44%安全违规
4、北京大学与香港大学联合提出Claw-Eval端到端可信评估框架,通过三通道证据收集和三维联合评估,用于检测自主智能体的完成度、安全性与鲁棒性。该框架暴露出现有仅看最终输出的评估方法会遗漏44%的安全违规和13%的鲁棒性故障。对14个前沿模型的评测显示了能力与可靠性的显著差异。
5、清华大学等揭示AI视觉生成模型存在严重推理缺陷
清华大学等机构联合发布的ViGoR-Bench研究首次系统性揭露,当前顶级AI视觉生成模型在物理、知识及符号推理方面存在重大缺陷,虽视觉效果出色,但在推理密集型任务中成功率低,呈现“视觉华丽但逻辑空虚”问题。对20余款模型的测试发现,商业化模型推理能力优于开源模型,且针对性训练可显著提升表现。
6、腾讯提出在线策略蒸馏技术,提升AI自我纠错能力
腾讯研究团队提出在线策略蒸馏技术,使AI在学习过程中实时生成答案并接受AI老师反馈,从而克服传统离线训练无法接触自身错误导致的误差累积问题,将错误增长从平方级降至线性级,显著提升推理稳定性与自我纠错能力。该研究构建了涵盖反馈类型、教师访问程度与反馈粒度的三维分类框架。
7、微软与清华大学合作开发YOCO-U架构,实现高效“深度思考”
微软研究院与清华大学合作开发的YOCO-U是一种创新AI架构,通过循环处理机制使大模型在不增加内存消耗的情况下实现多轮“深度思考”,显著提升推理能力与运行效率。实验显示其在数学推理任务准确率提升24.4%、内存效率较传统方法高38倍、长文本处理速度大幅提升,并可降低设备能耗。
8、苹果提出“简单自我蒸馏”方法,提升模型编程能力
苹果公司研究团队提出“简单自我蒸馏”方法,让大型语言模型通过学习自身生成的未验证代码来提升编程能力,无需外部验证器或奖励机制,仅通过调节训练和推理温度来化解精确性与探索性的矛盾。该方法在LiveCodeBench v6基准上将Qwen3-30B模型的通过率从42.4%提升至55.3%。
9、北京大学等发布DataFlex,实现数据中心化动态训练
北京大学等机构联合发布全球首个统一数据中心化动态训练系统DataFlex。其核心是通过智能挑选、动态配餐和精准调味三大功能,将数据从被动原料转为主动参与者,使AI训练从“填鸭式”升级为“智能化”,显著提升模型性能与训练效率。实验表明该框架在MMLU等测试中准确率提升数个百分点,且与现有流程兼容。
10、普林斯顿大学等开源通用视觉推理强化学习框架Vero
普林斯顿大学刘壮团队与陈丹琦等开发并开源了面向通用视觉推理的强化学习框架Vero。其基于精选的60万高质量多样化训练样本和多任务均衡混合,结合任务路由奖励机制与单阶段强化学习,在无私有数据条件下显著提升了模型的跨任务推理能力。实验显示该框架在30项测试中达到8B视觉语言模型的SOTA水平。
11、蚂蚁集团发布时间序列预测基准,发现“数据优于参数”
蚂蚁集团发布了包含16亿数据点的时间序列预测评估基准QUITOBENCH,首次解决了该领域长期存在的信息泄露和数据不平衡问题。实验发现,小参数深度学习模型在短期预测上优于大型基础模型,长期预测则相反;且增加训练数据比增加模型参数更能提升预测效果。这改变了“越大越好”的传统认知。
12、浙江大学开源SkillX:全自动构建Agent技能知识库
浙江大学ZJUNLP团队提出的SkillX是一个全自动构建Agent技能知识库的框架。它通过将执行轨迹提炼为规划、功能、原子三层可复用技能,并结合迭代精炼与探索扩展形成即插即用的技能库。实验表明,该框架能使弱模型的任务成功率提升约10%,在多基准测试中显著优于现有方法,并具备跨环境复用能力。
13、北京大学联合快手可灵开源OpenWorldLib,定义世界模型统一框架
北京大学联合快手可灵、清华、港科大等机构提出了世界模型的标准化定义——以感知为中心、具备交互与长期记忆能力,并开源统一框架OpenWorldLib。该框架将交互式视频生成、3D生成、多模态推理和VLA(视觉语言动作)四大任务整合于一套代码库中,为相关研究提供了统一的工程平台和评估基准。
14、Anthropic论文指出:AI辅助编程可能导致开发者调试能力下降
Anthropic发布的论文显示,通过对52名工程师的实验发现,AI辅助编程虽看似提高效率,但实际仅快约2分钟且不具统计显著性,反而导致使用者测验成绩下降17%、调试能力丧失,且AI生成代码缺陷率为人类的1.7倍。研究归纳出五种AI使用模式,仅约23%的开发者能以“概念查询”“生成后拆解”等主动拷问方式兼顾效率与技能深度。
15、Towards Data Science文章:智能体如何决定记住什么、忘记什么
一篇来自Towards Data Science的文章《Context Engineering for AI Agents: A Deep Dive》深入探讨了Agentic Memory(智能体记忆) 技术。其核心观点是,让智能体定期将笔记持久化到上下文窗口之外的记忆库中,并在需要时召回。最难的部分是决定什么值得提升为长期记忆。文章提出经验法则:持久记忆应包含那些持续约束未来推理的事物(如持久偏好),其他信息的门槛应设得很高。同时强调,没有修订机制的记忆是一个陷阱,智能体需要冲突解决、删除和降级机制,否则长期记忆会成为过时信念的垃圾场。这直接关联记忆管理与知识库的维护。
四、政策导向与行业治理
1、英国政府高薪招募三位数字化总监,薪资超首相
英国科学、创新与技术部正招募三位数字化总监,分别负责政府数字产品开发与上线、AI应用与数字化战略推进、网络安全与宽带网络建设。三者薪资均高于首相年薪并配有养老金,且将管理庞大团队与巨额预算。这些职位虽超首相收入,但仍低于公共部门最高技术官员及部分非技术高管的最高薪酬。
五、其他
1、Synergy Research:到2031年超大规模云商将掌控全球三分之二数据中心容量
Synergy Research Group报告显示,在AI驱动下,到2031年谷歌、微软和AWS等超大规模云服务商将占据全球数据中心容量的67%,企业自建比例大幅下降至19%。三大巨头计划2026财年投入逾5000亿美元建设AI基础设施,但行业同时面临算力短缺、电力成本上涨等挑战。
2、仅28%的AI基础设施项目实现完全投资回报
根据Gartner的调查,在IT基础设施和运营领域中,仅28%的AI基础设施项目实现完全投资回报,20%彻底失败,57%至少经历一次失败。失败主要源于不切实际的期望、技能差距及数据质量问题。结果表明多数AI项目难以证明投资回报合理性,技术领导者面临日益增大的展示回报压力,且需要CEO和CFO在资金决策中发挥更积极作用。
3、低温气候数据中心:数据中心增长的新热点
低温气候数据中心是建在天然低环境温度地区(如北极)、利用天然低温实现免费冷却以降低电力与水资源消耗的设施。目前北极地区已有近三十多个实例并由多家知名企业运营,其在节能降本与环保方面具潜力,但面临远离人口中心、基础设施有限及极端气候带来的建设与维护难题,尚未大规模推广。
4、美国AI三巨头OpenAI、Anthropic、Google联手防堵中国蒸馏模型
美国OpenAI、Anthropic及Google通过Frontier Model Forum共享信息,联合侦测并遏制中国竞争对手利用对抗性蒸馏技术获取其先进AI模型成果。OpenAI已向美国国会提交备忘录指控中国DeepSeek借此壮大自身。
夜雨聆风