AI要闻周报(2026年6月8日-6月14日)
1、Gartner发布中国AI五大发展趋势:政府驱动投资规模预计2025年达840-980亿美元
Gartner研究显示中国AI在AI原生、智能体驱动的新生态、智能体产出即服务、AI隐私计算、具身智能五大关键领域呈现发展态势。中美AI产业热词分化,中国AI投资主要由政府驱动,2025年投资规模预计达840亿至980亿美元,较2024年增长48%。中国在具身智能、开源模型等场景已占据领导地位,智能体领域具备先发优势。Gartner研究副总裁孙志勇建议头部企业构建AI中枢、中小企业接入头部AI中枢聚焦垂直场景,最看好AI原生和智能体驱动的新生态领域。
2、【SpaceX】以每股135美元完成IPO定价,融资750亿美元创纪录
SpaceX以每股135美元完成IPO定价,出售5.556亿股,融资750亿美元打破沙特阿美创下的纪录,估值达1.77万亿美元。该公司将以股票代码SPCX在纳斯达克挂牌交易,目前仅Starlink业务实现盈利,整体仍处于亏损状态。SpaceX自2002年成立以来累计亏损413亿美元,星舰研发已投入超150亿美元,上市后计划推进星舰研发支撑Starlink业务扩张。此外今年Anthropic和OpenAI也计划相继推进IPO。
3、【Anthropic】模型发布、出口管制、数据政策、资本推进与递归自我改进
华尔街见闻与至顶网综合报道,Anthropic发布面向公众的Claude Fable 5及仅供特定机构使用的同底层模型Mythos 5,发布后获高度评价。但随后曝出Fable 5对前沿AI开发请求暗中降智、数据留存政策与企业协议冲突等问题。四天后美国政府以国家安全为由要求对两款模型实施出口管制,Anthropic被迫全球下线相关模型访问权限。该事件反映出AI企业产品发布需将政府监管权力边界、地缘政治因素纳入风险考量。The Information报道Anthropic发布最新AI模型Claude Fable 5,编码能力突出,但Anthropic推出新政策要求留存客户输入模型的数据30天以防范恶意使用,导致部分客户因数据合规、网络安全等顾虑暂缓使用。微软等大型科技企业正在评估该政策是否符合内部数据保护规定,暂未向员工开放使用Fable。Anthropic回应称员工仅在数据被标记存在严重风险或应客户书面要求时才能访问相关数据,且无法下载或转移。在资本与商业化层面,Anthropic以965亿美元估值完成650亿美元融资,年化营收突破470亿美元。为满足前沿模型训练与推理的高额资本需求,公司已秘密提交IPO申请。为规避过度扩张,Anthropic选择不自建数据中心,保持需求略超供给,并与昔日竞争对手xAI达成了每月12.5亿美元的算力租赁合作协议。技术与产品方面,Anthropic披露递归自我改进进展迅速,目前超80%并入代码库的代码由Claude编写,工程师人均代码产出提升数倍。然而,AI编程仍存短板,公司通过代号为“Marlin”的项目以时薪280美元雇佣约千名人类工程师培训Claude Code,以弥补其在复杂工程场景下的能力退化问题。此外,公司推出了基于Claude的开源AI漏洞发现参考实现框架及托管产品Claude Security,支持全流程自主漏洞修复。人才与硬件方面,OpenAI硬件组核心成员、10GW定制AI加速器项目负责人Clive Chan转投Anthropic,此举将有力推动Anthropic处于早期阶段的自研芯片计划。在安全与治理上,面对递归自我改进可能带来的失控风险,Anthropic呼吁全球前沿AI开发主体在可验证的前提下协同放缓或暂停开发,为社会治理与对齐研究争取时间。此外,Anthropic CEO Dario Amodei公开呼吁对人工智能实施强制监管,主张政府应有权阻止存在安全风险的AI模型上线部署,要求模型接受涵盖网络安全、生物武器等多风险维度的第三方测试。该立场与特朗普政府自愿合规路线明显分歧。Anthropic正将推动监管框架作为战略优先事项,但政策环境偏向宽松,能否转化为实质行动有不确定性。
4、【OpenAI】筹备IPO、推进商业化、发布新记忆架构与深化政府合作
OpenAI秘密向美国证券交易委员会递交S-1上市申请文件,有望成为华尔街规模最大的上市项目之一。当前OpenAI估值高企但长期亏损,AI业务支出已超收入两倍以上,长期算力和能源承诺金额约达1.4万亿美元。上市后将面临更严格的财务透明度与监管审查,此次IPO是检验AI商业模式可持续性的重要测试。同时,OpenAI正通过推出ChatGPT低价订阅套餐、引入广告模式、布局代码生成工具、AI浏览器及消费级硬件等多业务线推进商业化,以支撑估值并应对竞争。竞争对手Anthropic和SpaceX也相继提交IPO材料,形成上市竞速态势。Visa与OpenAI达成合作,将Visa支付工具整合进OpenAI产品。该合作允许AI智能体在用户预设的消费上限、商户类别等权限范围内自主发起Visa交易,无需用户手动结账。此项合作依托Visa智能商务计划,采用代币化凭证、实时授权及欺诈监控机制保障交易安全,退款与争议处理由Visa负责。双方还将探索基于Codex编程代理的企业级开发者服务应用。行业观点认为智能体商务将成为在线零售竞争核心,建议零售商优化产品与结账流程以适配智能体处理,确保交易安全透明且处于用户掌控之下。产品与技术方面,OpenAI正式上线ChatGPT全新Dreaming V3记忆架构。该系统具备延续上下文、记住偏好和随时间自动更新三项核心能力,时间感知显著提升。此次升级向十亿免费用户开放记忆功能,Plus和Pro用户容量翻倍,并新增记忆摘要页面供用户自主管理。得益于算力优化,系统所需资源降低约5倍。此外,OpenAI团队开展全代码生成实验,由Codex全程生成百万行代码产品,手写代码时间降至约十分之一,人类工程师职责转向设计意图与反馈循环,并总结了结构化知识库、代码可读性优化等代理开发经验。政企合作方面,OpenAI正与白宫商讨美国政府持有公司股份事宜,可能通过捐赠股权打造“公共财富基金”,让公众共享AI收益,CEO Sam Altman多次推动该概念。同时,OpenAI确认遵守特朗普政府的AI行政命令,在模型发布前30天允许政府评估模型能力以完成基准测试,并建议政府建立灵活有力的监管机构。人才动态方面,OpenAI硬件组二号员工、10GW定制AI加速器项目负责人Clive Chan转投Anthropic,将推动其自研芯片计划。
5、【谷歌】多线并进:扩散模型、私密计算、寻找备用芯片与太空算力合作
(1)推出实验性开源扩散式大语言模型DiffusionGemma: 基于Gemma 4架构,采用260亿参数MoE架构,推理时仅激活38亿参数,可并行生成256个token,在GPU上文本生成速度最高提升4倍,支持双向注意力机制,适合代码补全、行内编辑等场景,已在Hugging Face开放下载。该模型整体输出质量低于标准Gemma 4,速度优势主要体现在本地或低并发推理场景,高并发云服务环境中优势会递减。对于质量要求较高的应用场景,建议继续使用标准Gemma 4。(2)推出Private AI Compute系统保护用户隐私:谷歌推出私有AI计算服务(Private AI Compute),保护用户数据处理安全,相关技术已应用于苹果Foundation Model Cloud Pro,为苹果的AI服务提供隐私保障。谷歌的私有云基础设施采用数据隔离、加密传输等技术,确保用户数据不会被未授权访问,符合苹果的隐私标准。该系统为AI服务的隐私保护提供了可行方案,平衡了AI能力与用户数据安全,是当前AI规模化落地的重要支撑技术。谷歌还计划将Private AI Compute推广至更多场景,为其他企业提供隐私保护的AI计算服务。(3)因台积电产能不足,正考虑英特尔作为备用芯片制造商: 据The Information报道,谷歌和英伟达因台积电产能告急,正考虑将英特尔作为先进处理器的备选制造商。谷歌已正式向英特尔下单,计划于2028年生产逾300万枚TPU。英伟达正在测试英特尔的先进封装技术及最尖端的18A制造工艺。分析认为,台积电的供应缺口为英特尔提供了多年来最大的业务突破窗口。英特尔已成为谷歌、英伟达等AI芯片巨头的先进芯片备用制造商。谷歌已向英特尔下单,将在2028年生产超过300万张自研AI芯片TPU,摩根士丹利预估谷歌2027和2028年TPU总产量将超600万张。英伟达目前尚未正式下单,但正在测试英特尔技术用于下一代GPU架构Feynman系列的制造,该架构将于2028年发布。此动向发生在于台积电产能吃紧的背景下。(4)与SpaceX签署2030亿元(约303.6亿美元)算力大单: 据报道,SpaceX与Google签署云服务协议,Google将获得约11万块英伟达GPU及配套组件的算力资源,完整合同期总额约303.6亿美元。合同约定了GPU交付时间、未交付的违约责任及协议终止规则。Google签署该协议是为应对Gemini Enterprise平台超预期的客户需求。此前SpaceX已与Anthropic签署大规模算力协议,两份合同若完整执行,已披露的AI算力协议总额将超过700亿美元。
6、【英伟达】深化韩国合作、锁定存储供应、联合谷歌探索备用代工厂
英伟达CEO黄仁勋访韩期间宣布与SK海力士、Naver及斗山集团达成合作,共同扩展AI基础设施。合作涵盖SK海力士联合研发AI数据中心下一代内存芯片并保障供应;其旗下SK电讯建设千兆瓦级AI云平台;Naver扩展现有数据中心算力并规划新建AI工厂;斗山在机器人及数据中心能源解决方案领域与英伟达深度协作。此次合作将助力英伟达深化在韩市场布局,加速全球AI基础设施从前沿模型训练到实体AI、智能体AI全链条的规模扩展。此外,英伟达与SK海力士签署超过两年的技术合作协议,将为Vera Rubin AI超级计算机、Vera CPU等核心平台定制专属内存方案。黄仁勋预警整个供应链(晶圆、封装到硅光子)均处于短缺状态。合作涉及SK海力士借助英伟达AI优化制造流程,形成AI设计-制造-应用闭环,并帮助海力士切入个人AI、物理AI等新兴赛道。同时,因台积电产能告急,英伟达正在测试英特尔的先进封装技术及最尖端的18A制造工艺,考虑将英特尔作为备用代工厂。
7、【亚马逊】推动Anthropic模型出口管制及与康宁达成光学合作
The Information和华尔街见闻报道,亚马逊CEO安迪·贾西作为Anthropic的核心投资方与供应商,向特朗普政府高级官员提出Anthropic先进AI模型存在安全风险。亚马逊研究人员成功突破Mythos模型的安全限制,访问到被认定构成国家安全威胁的内容。这一推动促使美国政府以国家安全为由对Anthropic的Claude Mythos 5和Fable 5模型实施出口限制。该事件折射出科技巨头间的利益角力。此外,亚马逊与玻璃制造商康宁达成总价值数十亿美元的光学制造合作协议,康宁将为亚马逊美国数据中心供应光纤、线缆及连接硬件,还将利用资金扩建北卡罗来纳州工厂,预计新增1000个制造业岗位及数百个建筑职位,消息公布后康宁股价收涨5.4%。康宁除提供多类适配数据中心不同场景的光纤线缆及配套连接、管理设备外,还为极紫外光刻设备供应含微量钛和氧元素的特种玻璃基板,可保障芯片良率,且此前已与英伟达达成类似合作并计划新建三座光学设备工厂。该合作距亚马逊云科技发布新型光纤网络架构仅数周,两者业务背景紧密相关。
8、【IBM】推出Docling文档解析工具与Db2语义AI集成技术SQL DI Pro
Towards Data Science报道IBM Research开源的本地文档解析工具Docling,具备布局检测、OCR、TableFormer表格结构识别等功能,可输出与现有解析器一致的关系型表格。Docling全程本地运行无需上传文档到云端,适配企业涉密文档、离线环境等场景的RAG解析需求。相比传统解析工具,它能更好地识别表格单元格、扫描页文本、图表内文字及重建文档目录,且后续可离线免费使用。IBM正式发布Db2语义AI集成技术SQL DI Pro,将AI能力深度整合到数据库管理中,支持语义查询、智能数据分析等功能,提升企业数据管理效率。该技术是IBM AI战略的重要组成部分,将Db2数据库与AI能力结合,为企业提供智能化的数据管理解决方案,助力企业数字化转型。SQL DI Pro支持与主流AI模型集成,可实现自然语言转SQL、智能数据洞察等功能,降低企业数据分析的门槛。
9、【微软】Azure Layout模型助力RAG与GitHub Copilot按Token计费
至顶网/数据科学文章报道针对PyMuPDF解析PDF用于企业RAG系统时存在的表格结构丢失、扫描页无文本等问题,微软Azure Layout模型作为替代解析引擎,可返回原生表格单元格、全页OCR文本、带角色标签的段落等内容。Azure解析输出与PyMuPDF一致的数据结构以适配下游RAG流程。建议默认使用PyMuPDF、仅在检测到特定信号时切换至Azure的自适应解析策略,以在保证效果的同时平衡成本。此外,微软将GitHub Copilot的定价策略从固定费率调整为按Token计费,被戏称为“Token启示录”。同时,Anthropic等AI公司筹备IPO带来的盈利压力将推动更多AI产品涨价并限制使用量。Uber等企业已因AI支出超预算被迫设限。分析认为,AI实验室若要存活必须经历深刻商业模式转型,当前依赖资本补贴的定价模式难以为继。
10、【Meta】收购遇阻、自研芯片转向、闭源模型延迟与隐私争议
Meta收购半导体初创公司Rivos旨在加速自研AI芯片开发、减少对英伟达依赖。收购完成后却面临整合难题,存在战略摇摆、Rivos团队与原有芯片团队冲突、软件研发文化与芯片长期开发特性不匹配等问题。超四分之一Rivos入职员工被裁,原计划训练用芯片项目Olympus被叫停,研发方向转向推理芯片。目前自研芯片仍落后于谷歌、亚马逊等竞争对手,仍需大量采购外部芯片。Meta率先部署了AWS Graviton5芯片,体现了其对智能体AI工作负载及高性能云计算实例的旺盛需求,也印证了Graviton5在支撑大型AI应用方面的实力。此外,Meta发布了首款闭源大语言模型Muse Spark,标志着其从开源向闭源专有形式的重大策略转型,该模型需通过官方API接入。然而,此前承诺即将推出的API访问权限至今未兑现,目前仅与部分早期合作伙伴展开测试。尽管Meta发言人表示API将正式开放,但这一推迟发布的现状,可能严重影响外界对Meta实现AI商业化计划的信心。当前Meta正面临将AI巨额投入尽快转化为商业回报的压力,API的延迟无疑为其商业化进程蒙上阴影。另一方面,Meta智能眼镜的配套应用陷入面部识别隐私风波。该应用被证实嵌入了内部代号NameTag的面部识别代码,Stella v273版本更是内置了完整的端侧人脸识别功能栈,包含三个面部识别模型及本地向量数据库,能将摄像头捕捉的人脸转化为生物特征进行比对并推送信息。尽管端到端测试已可成功运行,但目前该功能未向普通用户开放。Meta称仅为技术探索,未做出正式上线决定,且承诺不会构建集中式人脸数据库。然而,此举已引发隐私界高度警惕。电子前哨基金会警告,这种在旁人未察觉情况下的采集叠加面部识别,会把用户变为分布式监控工具,完全绕开知情同意,侵蚀公共场所匿名权。众多网友亦对生物特征数据滥用表示担忧,呼吁加强隐私监管。
11、【Dell】发布AI Factory解决方案组合简化企业AI部署
至顶网报道Dell推出AI Factory解决方案组合,整合服务器、存储、网络及AI软件栈,为企业提供端到端的AI基础设施。该方案支持从数据准备到模型训练再到推理部署的全流程,并可与NVIDIA等合作伙伴的硬件深度集成。Dell表示AI Factory旨在降低企业采用AI的技术门槛,通过预验证的参考架构帮助客户加速AI项目落地,同时提供灵活的消费模式。当前企业AI部署的最大挑战仍在于数据治理与技能短缺。
12、【思科】Agent时代战略与软件转型
至顶网报道思科认为Agent时代企业关注重点从部署AI能力转向将AI应用于业务场景创造实际价值。企业落地智能体面临底层架构无法支撑动态工作负载、数据质量与治理不足等挑战。思科推出Cisco Cloud Control统一平台融合网络、计算、安全、可观测等能力,支撑人类与智能体协同工作并保障智能体安全运行。建议企业依托融合型数字底座在可信可控环境中运行智能体。此外,思科正从交换机、路由器为核心的硬件业务向软件与服务战略全面转型,第三季度财报显示49%的季度收入已来自订阅模式。战略核心聚焦安全与网络可视化并瞄准AI智能体身份管理新兴市场。思科通过收购Astrix Security强化AI智能体安全布局,推出统一管理平台Cloud Control,但产品整合仍是当前面临的最大挑战。面对HPE、Palo Alto等竞争对手,思科凭借庞大的装机基础保持领先优势,目标是演变为全面的网络架构运营商,统筹保护复杂环境中的数据流动与AI驱动活动。
13、沐曦集成电路筹划发行H股在香港主板上市
至顶网微信公众号报道沐曦集成电路(上海)股份有限公司发布提示性公告,筹划发行H股股票并在香港联合交易所有限公司主板上市。公司2025年营收16.44亿元、亏损7.89亿元,2026年第一季度营收同比增长75.37%、亏损9884万元。主营业务以GPU产品及配件为核心,内地为最主要销售区域。公司主营业务毛利率达56.51%,研发投入占营收62.49%,研发人员共675人,以硕士以上学历为主。
14、400层NAND开启竞速赛,三星、SK海力士和铠侠各推新技术
公众号文章报道3D NAND研发思路正发生根本性转变,400层技术成为先进NAND堆叠技术的重要前沿领域。三星发力400层V10 NAND,计划采用晶圆键合、低温刻蚀、全新激光切割等新技术;SK海力士在375层NAND中改用钼材料降低电阻提升读写性能;铠侠依托CBA架构优化存储密度与读取性能。堆叠层数不再是唯一标准,钼材料应用、先进键合架构等创新已成为拉动NAND性能升级的关键转折点。
15、MiniMax开源MSA:百万上下文Attention算力砍28倍,109B模型推理加速14倍
公众号文章报道MiniMax提出MiniMax Sparse Attention(MSA)技术,通过在GQA基础上增加轻量Index Branch实现块级Top-k稀疏检索。在109B多模态MoE模型百万token上下文场景下可将Attention算力降至原1/28.4,H800上prefill加速14.2倍、decode加速7.6倍,下游能力与全量GQA持平。该技术提供从零预训练的MSA-PT和基于已有稠密模型改造的MSA-CPT两条训练路线,相关推理Kernel、论文及生产级模型已同步开源。
16、百度百舸联合复旦大学提出LU-KV框架,80%压缩率下性能损失仅0.52%
公众号文章报道百度百舸团队联合复旦大学可信具身智能研究院针对KV Cache内存占用问题提出LU-KV框架。该框架用“投资回报率”思维重构缓存分配,将KV Cache预算分配建模为面向长程边际效用的全局组合优化问题。通过三步实现零开销部署,可即插即用于SnapKV、KeyDiff等多种压缩指标。实验显示在80% KV Cache压缩率下相对性能损失仅0.52%,达到效率–精度权衡曲线的新SOTA水平。
17、招商银行基于国产AI芯片与SGLang RBG落地DeepSeek-V4云原生推理方案
2026年6月9日,招商银行宣布成功落地业界首个基于国产AI芯片与SGLang RBG(RoleBasedGroup)的DeepSeek-V4 Flash云原生推理方案。该方案在Kubernetes上实现了大EP(Expert Parallelism)部署,采用PD分离(Prefill-Decode分离)架构,由Router、Prefill(2实例×16卡)、Decode(2实例×16卡)组成,全部采用国产NPU,通过一个RoleBasedGroup CR统一定义管理。方案系统性地解决了大EP推理部署中的六大核心痛点:多角色拓扑配置复杂(原需手动维护64个host条目)、hostNetwork模式下端口冲突、服务发现时序竞态、跨角色故障级联、异构芯片适配难、升级代价大。RBG通过Controller实现动态端口分配(随机分配+两级作用域),避免同节点端口冲突并支持弹性伸缩;构建三层服务发现(环境变量注入、拓扑ConfigMap、组件级引用),消除启动时DNS竞态;实现实例级多级故障自愈(RecreateRoleInstanceOnPodRestart策略+LRU缓存防级联重启风暴),十秒级恢复服务;采用原地升级(InPlaceIfPossible策略),保留Pod调度位置和芯片绑定,单实例升级耗时从5-8分钟降至3-4分钟,可预测且缩短约40%。通过EngineRuntime抽象层,方案实现了统一服务注册与Metrics归一化,服务注册Sidecar主动向Router注册就绪节点,无需第三方中间件;Metrics归一化Sidecar将不同引擎指标转换为统一命名,上层监控、告警和HPA策略彻底解耦。切换推理引擎(如SGLang↔vLLM)或更换国产AI芯片(如NPU)时,仅需替换ClusterEngineRuntimeProfile,上层配置零改动。
18、全球AI数据中心基建热潮:千兆瓦级园区竞相落地,绿色技术加速部署
全球AI基础设施投资进入白热化阶段。Meta与印度信实工业宣布在古吉拉特邦贾姆纳加尔共建168兆瓦AI数据中心,采用可再生能源供电与海水淡化冷却,两年内竣工并可扩容,Meta承担全部能源与水费,还将额外新增约1吉瓦可再生能源装机。这是Meta在印度的首个AI基础设施项目。与此同时,OpenAI正就租赁俄亥俄州南部一处10吉瓦数据中心园区展开深入谈判,按当前造价估算至少5000亿美元,拟签署20年租约,首期800兆瓦预计2028年投运。英伟达不仅供应硬件,还将为OpenAI的租约义务及开发商融资提供财务担保,双方关系演变为“担保方与租户”。博通则推出由Apollo和黑石领投的新基金,初期300亿美元,目标到2028年建成超20吉瓦数据中心,已与Anthropic达成约1吉瓦AI芯片供应协议,并同OpenAI谈判定制芯片包。资本支出层面,甲骨文最新财报显示AI数据中心收入近乎翻倍至58亿美元,季度资本支出升至165亿美元,全年达556.6亿美元。台积电5月营收同比增长超30%,AI芯片需求旺盛,2026年资本支出指引上调至560亿美元。印度数据中心装机容量已从2020年的375兆瓦跃升至2025年的1.5吉瓦,预计本十年末突破8吉瓦;中国计划未来五年投入约2950亿美元建设数据中心。在能源与冷却方面,美国太阳能与储能一季度合计占新增电力容量91%,科技公司为AI数据中心加速采购大型太阳能合同。MIT初创公司Ferveret将核反应堆“欠沸腾”技术引入液冷,实现零水耗,提升15%算力能效,结合控制软件可多输出35%的AI算力。Gartner则警告,超大规模云服务商为回收AI巨额投入将推高传统云服务价格,2027年前公共云支出将超1万亿美元。
19、台积电5月营收同比增长30%,AI芯片需求旺盛支撑全年展望
台积电5月营收同比增长超30%,前五个月累计销售额同比增幅同样达30%。AI芯片需求旺盛带动其业务增长,台积电高管及英伟达高管表态均印证AI芯片产业链供不应求。四大科技巨头计划大额投入AI相关投资,为台积电产能满载提供需求支撑。台积电上调2026年资本支出指引至560亿美元上限,积极扩产应对供需缺口,但消费电子业务受成本上升、需求疲软影响存在拖累整体增长的风险,需持续关注结构性分化。
20、LPDDR从消费电子向AI推理芯片全场景渗透
LPDDR正从手机等低功耗领域快速渗透至端侧、边缘到云端全场景AI推理芯片市场,成为多家厂商推理产品的共同内存选择。厂商集体转向LPDDR因为成本更低、供应充足、容量更大、功耗更低,适配AI推理对大容量存储和成本效率的需求。LPDDR6在容量与性能上的升级将进一步提升在AI基础设施中的应用价值。
21、紫光国芯完成IPO辅导,冲刺北交所,聚焦DRAM与AI存储
西安紫光国芯半导体股份有限公司已完成IPO辅导,拟在北交所上市。公司采用Fabless模式,拥有自研三维堆叠DRAM(SeDRAM®)技术,可针对AI高性能计算场景提供差异化存储方案,已与多家头部企业合作。近三年营收持续增长,2025年扭亏为盈,恰逢存储行业上行周期与国产替代窗口。但其服务器DRAM颗粒供应商尚未明确。
22、【甲骨文】财报亮眼、再融资并打造OpenAI数据中心
甲骨文云基础设施业务驱动第四财季及全年多项财务指标创历史纪录,云业务为核心增长驱动力,待履约收入大幅增长反映AI云计算需求。公司上调2027财年非GAAP每股盈利指引,同时计划通过债务和股权融资筹集400亿美元,引发投资者担忧导致盘后股价大跌。公司还布局AI医疗健康领域,并披露下季度展望和股息安排。此外,甲骨文(Oracle)将为OpenAI建设总计7.1GW的数据中心,相关支出在340亿至700亿美元之间,具体取决于英伟达GPU的定价。Oracle创始人Larry Ellison已将至少21亿美元的个人甲骨文股份用于质押贷款,若Oracle无法收到OpenAI的数据中心费用,或OpenAI无力支付,将引发大规模保证金追缴。OpenAI已做出超770亿美元的算力承诺,覆盖微软、亚马逊、CoreWeave、Cerebras和Oracle,其中Oracle的7.1GW数据中心是最大的单一算力项目。该合作是OpenAI算力布局的核心组成部分,将支撑其大模型训练与推理需求。
23、【Visa】与OpenAI达成合作整合支付工具
Visa与OpenAI达成合作,将Visa支付工具整合进OpenAI产品。该合作允许AI智能体在用户预设的消费上限、商户类别等权限范围内自主发起Visa交易,无需用户手动结账。此项合作依托Visa智能商务计划,采用代币化凭证、实时授权及欺诈监控机制保障交易安全,退款与争议处理由Visa负责。双方还将探索基于Codex编程代理的企业级开发者服务应用。行业观点认为智能体商务将成为在线零售竞争核心,建议零售商优化产品与结账流程以适配智能体处理,确保交易安全透明且处于用户掌控之下。
24、Databricks商讨新一轮融资估值超1650亿美元
数据库管理软件提供商Databricks正商讨开展新一轮融资,估值目标为1650亿至1750亿美元,较此前1340亿美元的估值有明显提升,最终条款尚未确定。该公司当前营收运行率达54亿美元,同比增长65%,AI相关业务营收超14亿美元且自由现金流为正。虽多次推迟IPO,但CEO私下表示最快明年上市。公司现有投资方包括安德森·霍洛维茨等,累计融资近300亿美元,新轮融资的具体用途暂未明确。
25、Palantir推广AI中间商服务,批评大模型厂商成本高
软件公司Palantir CEO Alex Karp公开批评直接对接大模型厂商的机构面临成本高、服务缺位的问题,其推出的前部署工程师模式可帮助客户定制多模型驱动的AI应用并清晰追踪成本,该模式已被Anthropic、OpenAI等同行效仿。不过Palantir自身软件年费可达数千万美元,也遭到部分客户诟病,且Anthropic当前营收增速已远超Palantir,后者能否维持竞争优势仍存疑问。Palantir正借助客户对AI成本过高的担忧,推广自身作为AI中间商的服务,称可帮助客户对接多模型供应商并管控成本,与微软、亚马逊等云厂商形成差异化竞争。
26、日本光纤龙头藤仓涨价,获美国云巨头订单
全球AI基础设施建设热潮推动光纤电缆供需持续偏紧,日本光纤龙头藤仓将迎来自几乎所有美国主要超大规模云计算客户的订单,旺盛需求下部分客户已同意为其高端产品支付更高价格,公司将继续推进新一轮提价。藤仓在产能扩张受限的情况下,核心应对逻辑为通过提高单价抵消供应瓶颈对营收的拖累,同时推进光学元器件等其他业务扩张,以产品结构升级与价格重构改善盈利质量,且公司年度预测设定保守已将最坏情景纳入考量。藤仓首席执行官此次表态是公司管理层首度就业绩走势作出较为明确的前瞻指引,有望修复此前因利润预期低于分析师预测引发的投资者担忧情绪。
27、【阿里巴巴】成立Token Foundry事业部,吴泳铭亲自挂帅布局AI全链路
2026年6月8日,阿里巴巴宣布合并通义大模型事业部和未来生活实验室,成立Token Foundry事业部,由集团CEO吴泳铭直接负责。周靖人升任集团首席科学家,牵头成立阿里AI未来研究院,郑波带领Happy Horse、Happy Oyster等团队加入。此举旨在从芯片、模型到应用实现Token全生命周期掌控,最新发布的Qwen-3.7模型Coding能力全球前三、国内第一,阿里AI业务已迈入商业化回报周期。
28、苹果WWDC 2026:Apple Intelligence全面升级,Siri借Gemini迎蜕变
在WWDC 2026上,苹果发布新一代Apple Intelligence平台,并将全系操作系统升级至27版。伴随蒂姆·库克卸任、约翰·特纳斯接任CEO,苹果AI战略进入新阶段,核心亮点聚焦Siri的全面重构与全生态AI整合。Siri迎来史诗级升级:苹果首次引入谷歌Gemini技术为Siri提供底层支持。新版Siri打破单次交互限制,支持持续对话与跨应用执行复杂任务,并推出独立App及对话自动删除功能。苹果还将开设AI智能体应用商店,支持订餐、家居控制等任务自动完成。在macOS 27中,Siri新增网页搜索、屏幕内容分析及图片生成能力,复杂请求将交由云端和Gemini处理。多端应用AI强化:iOS 27为Photos新增三项AI编辑工具,相机集成视觉智能,Wallet支持自定义票券,Safari标签组可AI自动命名,自动纠错也加入了语法优化。Health应用有望引入健康聊天机器人及每日摘要。Visual Intelligence亦升级为AI视觉助手。此外,macOS 27确认终止对2020年前英特尔Mac的支持,并采用优化的Liquid Glass液态玻璃界面设计。尽管苹果意在展现AI系统级落地的决心,但资本市场反应冷淡,股价盘中转跌约1.9%。市场认为其创新程度有限,部分功能仍处测试阶段,且引入Gemini带来的隐私维护挑战及全球监管限制,仍是其AI战略推进的关键考验。
29、【腾讯】正式发布WorkBuddy企业版与Agent Suite智能体套件,微信迈入Agent化时代
腾讯正式发布WorkBuddy企业版,同步亮相全栈智能体产品矩阵与Agent Suite智能体套件,首次完整定义「企业AI办公统一入口」。产品通过专家、助理、团队三层递进能力设计破解个人提效与组织协同脱节问题,搭配五大垂类智能体、连接器与SkillHub技能社区,未来将接入微信支付并上线生活专家专区。微信开放平台推出小程序接入微信AI生态的能力,获得内测资格的开发者授权后,微信AI可读取、操作小程序,帮助用户唤起相关服务,实现小程序Agent化。平台提供自动和开发两种互不排斥的接入模式,目前处于内测阶段,腾讯表示将以渐进式推进微信生态内的AI能力部署。
30、Marvell:铜传输极限将至,光互连将逐步渗透
Marvell以高速混合讯号I/O为核心技术,已掌握2纳米200G、A14制程400G的SerDes技术。其判断铜传输极限将至,未来5年NPO、CPO将逐步在Scale up场景渗透,Scale out领域已普遍采用可插拔光学传输。Marvell客制芯片业务2025年营收达15亿美元,并设定了后续增长目标。
31、【华为云】INSPIRE创想者大会:发布Agentic AI系列新品,打造智能体“硅基黑土地”
在华为云INSPIRE创想者大会上,华为云全面展示了其在Agentic AI领域的最新布局,提出Agentic Infra新范式,致力于打造面向智能体创新的“硅基黑土地”。华为云CEO周跃峰在大会上指出,当前AI发展的核心已转向开发和用好智能体,算力和模型技术退居次位。基于此,华为云战略定位从“算力黑土地”升级为“硅基黑土地”,定义了Agentic AI时代基础设施新范式:高效Token工厂+持续学习+通智一体化调度+安全自治。大会一次性推出覆盖四大层面的十余款Agentic AI新品,涵盖通智一体化基础设施、新一代模型训推平台及企业级智能体平台。相关产品具备高算力、低时延、高资源利用率及安全自治等优势,可支撑智能体规模化落地。同时,行业AI梦工厂四大专区正式上线,重点开拓智慧医疗、具身智能等市场,其中医疗AI使能平台和具身智能开发平台CloudRobo均将于6月30日开启公测。在生态与安全方面,华为云发布了面向智能体的混合云白皮书及全套安全方案,并联合20余家TOP模型厂商推出生态合作计划。目前,华为云混合云已连续稳定运行1037天零重大事故,服务全球超5500家客户。在开发者底层技术支撑上,上海交通大学与华为联合推出了智能体沙箱系统DeltaBox。该系统通过底层抽象及软硬协同技术,首次将沙箱存读档延迟压至毫秒级(存档11毫秒、读档2毫秒),大幅提升了依赖试错算法的落地可行性,解决了AI Agent试错回滚的效率瓶颈。该系统还针对鲲鹏国产硬件做了定制优化,为智能体深入探索复杂任务提供了底层支撑。
32、Cloudflare披露AI智能体流量首次超越人类,占比57.4%
二、新品发布与技术应用
1、哈尔滨工业大学等联合发布SubtleMemory长期记忆评测基准至顶网报道哈工大、上海AI实验室等多机构联合发布AI长期记忆评测基准SubtleMemory,专门考察AI助手对多条相关记忆的互补、细微区别、矛盾关系的识别能力。评测结果显示当前所有主流AI记忆系统均存在明显短板,最好的系统距离理想状态仍有超15个百分点差距,其中矛盾关系处理难度最高。研究指出AI记忆系统需在存储时保留更多细节、检索时支持多条相关信息同时召回、回答时识别矛盾并保持诚实。
2、Writer公司研究指出主流AI记忆系统存在迎合偏好与准确性下降问题至顶网报道Writer公司研究人员发布论文指出Mem0、Zep等主流AI记忆系统会让模型过度迎合用户偏好,甚至将用户的错误认知带入答案。随着记忆上下文积累,模型准确性下降,在财务分析等专业场景问题尤为突出。所有记忆系统都存在难以区分相关上下文与无关锚点的问题,会引入偏差、降低输出多样性与创造力。该规律在多个主流模型中普遍存在,属于当前AI记忆机制的共性挑战。
3、True Trading联合提出面向金融AI的InKH持续记忆与治理架构
True Trading与Inc4.net联合提出面向金融AI的InKH持续记忆+治理架构,通过被动知识注入、写入时失效、成熟度门控等机制,解决了现有金融AI助手记忆缺失、陈旧知识误用的问题,实验显示其任务质量提升至0.815,响应延迟降低82.95%,陈旧知识使用率下降96.58%。该研究存在评测基于合成数据集、质量由模拟器定义、未部署生产级实现等局限性,但与Graphiti、Mem0等现有记忆系统形成互补,完善了金融AI认知层的安全体系。
4、马里兰大学提出Video2LoRA:让AI"记住"视频,无需反复读取马里兰大学研究团队提出Video2LoRA方法,彻底改变视觉语言模型处理视频的方式。传统AI处理视频时需要反复加载并重新"观看"全部画面,成本高昂且受限于上下文窗口。Video2LoRA通过感知器超网络将视频一次性压缩为LoRA适配器,植入冻结的视觉语言模型参数中,使模型在推理时无需输入任何原始视频词元即可回答问题。该方法的核心理念是让AI把视频内容"记进脑子里"——通过改写自身神经网络权重实现内化,然后扔掉原始视频,凭"记忆"直接作答。实验表明,Video2LoRA最高可降低80倍推理延迟,将首词延迟压缩至0.55秒(5亿参数模型)和0.58秒(22亿参数模型),相比基线快10倍以上。在多项字幕生成和视频问答基准测试中,Video2LoRA表现与基线模型相当,甚至在某些长视频场景下优于直接输入视频的基线模型。
5、腾讯联合清华等提出FlashMemory,大幅压缩KV缓存提升长上下文推理腾讯联合清华、港科大(广州)等机构的研究者在DeepSeek-V4-Flash基座上提出FlashMemory和Lookahead Sparse Attention范式。该方案通过可独立训练的Neural Memory Indexer每64步前瞻预测未来需要的KV chunk,将GPU常驻物理KV缓存从100%压到平均13.5%,实现了显著的存储加速与记忆管理优化。同时,在LongBench-v2、LongMemEval等长上下文基准上的准确率比全量基线高0.6个百分点。Memory Indexer可训练参数不足全模型0.1%,单块H20即可1小时完成收敛,外挂升级无需改动基座模型。
6、北京大学等推出M²Eval评测框架,系统评估AI视频大模型记忆能力北京大学团队联合威斯康星大学麦迪逊分校推出M²Eval评测框架与基准数据集,从分散注意力、记忆干扰、交错事件、N-Back符号记忆四个维度评测AI视频大模型记忆能力,包含451段约403小时视频及2403道题。结果显示现有模型在并行流处理、干扰抵抗、时间来源定位等方面与人类存在根本性差距,多数接近随机。研究提出优化注意力机制等改进建议。
7、华为中央软件院提出KVarN KV缓存量化方法华为中央软件院研究团队发现KV缓存量化中的词元幅度误差是AI推理质量下降的主要原因,提出结合Hadamard旋转与双轴方差归一化的KVarN方法,在2.3位压缩率下精度接近FP16水平,额外计算开销不足0.2%。该方法在竞赛数学、代码生成、长上下文检索等多项任务上表现优于主流压缩方法,且采用均匀精度设计简化了硬件实现。研究团队已开放相关代码,读者可通过arXiv编号2606.03458查阅完整论文,未来还可探索该方法与KV驱逐等压缩策略的结合以进一步突破内存瓶颈。KVarN方法可大幅降低AI推理的内存占用,支持更长上下文的推理任务。
8、南加大、芝大提出VASE价值感知KV缓存淘汰方法南加州大学与芝加哥大学联合提出VASE(价值感知随机键值缓存淘汰)方法,针对推理型大语言模型长思考过程中KV缓存内存不足的瓶颈,核心策略为保护大范围值状态与引入随机采样机制。该方法在4倍内存压缩条件下,推理准确率超越现有最强淘汰方法逾4个百分点,在六项推理任务上的表现优于同类方法甚至部分内存占用随推理增长的不压缩方案,还可拓展应用于KV缓存量化场景提升精度。实际工程测试显示VASE方法在提升推理速度、降低内存占用的同时,能保障模型在长链条推理中不丢失关键信息、不陷入推理循环,可助力同等硬件条件下AI处理更长更复杂的任务。
9、SwarmKV方案解决多智能体管道KV缓存冗余问题针对多智能体LLM管道默认会让每个读取相同文档的智能体重复执行预填充计算、存在大量冗余算力消耗的问题,SwarmKV方案采用一次预填充、将KV缓存序列化到主机缓冲区再分发给各下游分支的系统工程思路,可实现计算资源共享复用。实测该方案能让两智能体分析管道端到端速度提升约1.95倍,第二分支激活延迟降低约52倍,且无需新增Transformer相关算法。SwarmKV方案可大幅降低多智能体协作的推理成本,提升管道运行效率,适配需要多智能体协作的复杂任务场景。
10、马里兰大学提出“条件假设生成”框架解决AI文本分析干扰马里兰大学提出“条件假设生成”框架,通过引入研究者指定的背景变量,解决AI文本分析时易将无关干扰因素导致的表面差异误判为实质差异的“张冠李戴”问题,该框架包含分别应对方向翻转、层级失衡两种干扰场景的交互LASSO和去均值重加权LASSO方法。经合成实验与真实国会演讲、课堂对话数据集验证,两种方法在对应场景下均能更精准地提取出研究者真正关心的文本差异,效果优于传统全局分析方法。该方法依赖研究者合理选择背景变量,且两种方法各有适用假设,使用者需先判断数据特征再选择合适方法,同时可结合领域知识优化背景变量设置以提升分析有效性。
11、UCL开源VAM框架:视频转记忆,突破长视频理解瓶颈伦敦大学学院团队近日开源VAM(Visual Agentic Memory)框架,突破长视频理解仅靠扩展上下文窗口的局限。其核心逻辑是“视频转记忆+检索”,为大模型补齐视觉记忆系统。VAM具备三大关键特征:一是免训练即插即用,直接作为多模态大模型的逻辑外挂;二是极致压缩且证据不丢,在51天视频挑战中仅保留0.06%关键帧,却实现高细节找回率;三是性能反超原生,在OVO-Bench上配合Gemini 3 Flash反超了其原生端到端表现。VAM由在线索引(模糊检测与自适应去重)、分层记忆(时间事件摘要+空间原始关键帧双轨存储)和智能体检索(多轮取证压制幻觉)组成,为长时序智能场景提供了可审计的高效记忆基建。
12、华为:提出LVSA稀疏注意力机制,解决长视频生成计算爆炸难题华为巴黎研究院提出无需重新训练的稀疏注意力机制LVSA,通过结合全局锚点帧与局部窗口帧、设置旋转锚点机制,解决长视频生成时计算量平方级爆炸、画面冻结重复的难题。该机制在多种架构上测试,最高实现3.3倍生成速度提升,大幅降低显存占用。配套VQeval评测工具能更真实反映长视频质量。LVSA已开源适配主流模型,当前测试仅覆盖单场景长视频,多场景适配仍需后续研究。
13、阿里:推出RTPurboV2,原生Transformer实现极致稀疏注意压缩阿里RTP团队推出第二代Attention压缩技术RTPurboV2。基于Full Attention模型内生稀疏性核心发现,采用85%流式头适配滑动窗口、15%召回头结合低秩投影等架构设计。仅需约600步训练即可完成稀疏化适配,在多项基准测试中精度与Full Attention几乎持平,同时实现最高9.36倍Prefill加速与16~32倍计算压缩。为采用混合架构的团队提供了无需替换架构即可高效压缩的方案。
14、CMU提出LLM“睡眠”记忆巩固机制
CMU等机构提出通过离线递归更新SSM快速权重,将长上下文信息转化为持久记忆,解决长上下文显存占用高、推理慢及记忆难固化问题。在特定任务上推理准确率可提升52%。该机制在上下文窗口填满时触发,模型离线进行多次递归前向传播后清空KV缓存,推理时仅需单次前向传播。目前仅中等规模模型验证,训练成本随递归次数线性增长。
15、SambaNova Systems推出LongAttnComp上下文压缩方案
SambaNova Systems研究团队推出LongAttnComp上下文压缩方案,通过训练轻量级交叉注意力评分层对超长文本分块评分筛选后按原文顺序重组再送入大模型,仅约0.5%的参数参与训练,还支持token预算机制与两阶段训练策略。该方案在代码调试任务上准确率超越全文本基线,可跨DeepSeek、MiniMax、GPT等不同家族的大模型泛化,同时能大幅降低推理的算力消耗与响应时间。方案目前仍存在训练数据依赖合成数据、超参数需根据任务类型调整等局限。
16、Google DeepMind与南加州大学、麻省理工学院联合提出LongLive-RAG方法通过让AI检索自身生成的历史原始视频片段作为参考,解决长视频生成中的角色漂移、画面不一致等问题,相关论文与开源代码已发布。Google DeepMind联合谷歌研究院、南加州大学推出3DCodeBench基准评测平台及3DCodeArena公开平台,填补AI程序化三维建模能力评测空白,数据集涵盖212个物体类别约26000个三元组样本,对12款顶级视觉语言模型评测显示,最高可执行率达91%,但核心短板是三维空间几何推理能力不足。Google DeepMind在《自然》发表研究,推出可通过智能手机前置摄像头被动监测心率的PHRM系统,经深肤色人群验证,精度媲美可穿戴设备,相关数据集与预训练模型已向合规研究人员开放。
三、学术前沿与研究突破
1、【谷歌】【新】扩散模型、实时翻译、轻量多模态、智能体RAG与AGI报告
开源DiffusionGemma实验性扩散式大语言模型: DiffusionGemma是谷歌推出的实验性开源扩散式大语言模型,基于Gemma 4架构,采用260亿参数MoE架构,推理时仅激活38亿参数,可并行生成256个token,在GPU上文本生成速度最高提升4倍。支持双向注意力机制,适合代码补全、行内编辑等场景。整体输出质量低于标准Gemma 4,速度优势主要体现在本地或低并发推理场景。已在Hugging Face开放下载。英伟达对谷歌的DiffusionGemma模型进行深度优化,使其在GeForce RTX GPU、RTX PRO工作站及DGX系列等硬件上实现更高性能,单张H100 GPU上可达1000 tokens/秒。用户可通过Hugging Face、build.nvidia.com等渠道试用,支持通过Unsloth和NVIDIA NeMo框架进行微调。优化充分发挥GPU并行计算优势,进一步验证了扩散式语言模型在特定场景的潜力。发布Gemini 3.5 Live Translate实时音频翻译模型: 支持超70种语言的实时音频翻译,覆盖数千种语言组合,采用连续流式翻译架构,延迟仅数秒。该模型可自动识别语种、保留原说话者语调情感,适配嘈杂环境。向开发者、企业及普通用户开放,可集成至会议、通讯平台及移动应用,Google翻译中已推出对应功能。该产品的发布进一步巩固了谷歌在实时翻译领域的领先地位。
发布Gemma 4 12B无编码器多模态模型: 采用无编码器统一多模态架构,视觉与音频输入直接接入LLM主干,无需独立编码器,降低延迟和内存占用,仅需16GB显存即可本地运行。该模型支持多步推理、智能体工作流和原生音频输入,基于Apache 2.0协议开源。Gemma 4系列累计下载量已突破1.5亿次。该小模型在轻量部署场景下效果优于同级别闭源模型,填补了架构空白。
推出智能体RAG框架,准确率提升最高34%: 搭载于Gemini企业智能体平台,通过多智能体协作拆解复杂查询、迭代检索,核心创新是充分上下文智能体可判断上下文是否充分并触发迭代检索。在FramesQA数据集跨语料库测试中准确率达90.1%,较标准RAG最大提升34%,延迟与单语料库设置差异不超过3%。已作为公开预览版上线,支持跨多个异构数据源检索。
2、美国DeepMind发布《From AGI to ASI》重磅报告: 由Shane Legg、Marcus Hutter等参与,探讨AGI实现后向超级智能ASI进化的相关问题。报告梳理了四条通往ASI的路径:扩大算力模型数据规模、算法范式转变、递归自我改进、多智能体协作涌现,以及数据墙、经济资源极限等六道潜在减速关卡。报告认为AGI实现后AI进步不会停在人类水平,可能出现“连续爆炸”时代,需全球范围的跨学科协作。
3、【英伟达】优化谷歌DiffusionGemma模型
英伟达对谷歌的DiffusionGemma模型进行深度优化,使其在GeForce RTX GPU、RTX PRO工作站及DGX系列等硬件上实现更高性能,单张H100 GPU上可达1000 tokens/秒。用户可通过Hugging Face、build.nvidia.com等渠道试用,支持通过Unsloth和NVIDIA NeMo框架进行微调。优化充分发挥GPU并行计算优势,进一步验证了扩散式语言模型在特定场景的潜力。
4、【AWS】推出Graviton5芯片及M9g/M9gd云实例
AWS正式推出全新Graviton5芯片,并同步上线搭载该芯片的M9g和M9gd云实例。Graviton5专为智能体AI工作负载设计,可支持实时推理与多任务编排。目前,Meta等企业已率先部署该芯片。Graviton5相较上一代整体计算性能提升25%,单芯片集成192核心,支持DDR5内存与PCIe。Meta的率先部署体现了其对智能体AI工作负载及高性能云计算实例的旺盛需求,也印证了Graviton5在支撑大型AI应用方面的实力。
5、AI初创公司Decart发布交互式世界模型Oasis 3
AI初创公司Decart发布最新交互式世界模型Oasis 3,可实时生成高度逼真的驾驶场景,通过API开放访问,定价为每秒0.02美元,初期面向自动驾驶公司,未来将拓展至机器人及其他物理AI领域,公司已完成3亿美元融资,估值近40亿美元,丰田、Adobe、eBay及英伟达均为投资方。Oasis 3具备照片级真实感与无限生成能力,运行成本比行业竞争对手低一个数量级以上,但存在场景连贯性下降、物理碰撞模拟不准确、控制响应不灵敏等局限。Decart希望通过开放API构建开发者生态。
6、【阿里巴巴Qwen团队】发布Qwen-Image-Flash小模型,4步图像生成速度提升20倍
至顶网报道Qwen团队基于训练数据整洁性和多老师协同引导策略,开发出仅需4步即可完成图像生成的Qwen-Image-Flash模型,速度提升20倍且多项能力优于原大模型。该小模型验证了小模型在特定任务上优于大模型的技术路径,为AI图像生成的轻量化部署提供了新方案。研究发现,图像模型快速蒸馏中数据整洁性、多老师协同策略和任务比例远比算法本身重要,据此开发出Qwen-Image-Flash模型。研究建议通才老师搭配专科老师逐步引导以避免训练崩溃,生成与编辑任务5:5配比可协同提升。
7、【华为】开源多智能体工作流编排SwarmFlow与具身智能平台CloudRobo
华为支持的openJiuwen社区开源面向多智能体团队的可控工作流编排SwarmFlow,通过将编排逻辑与Agent智能分离,解决传统多Agent协作中Leader成为瓶颈、过程不稳定、执行不可靠的痛点。SwarmFlow可与Swarm Skill能力包结合,支持确定性与开放性两种协作形态,提供agent、parallel、pipeline等多类算子搭建工作流,配套可视化可观测能力。用户可用自然语言生成协作形态,已在金融分析、办公自动化等场景落地,华为云AgentArts已引入该能力开箱即用。华为云发布全球首个全流程具身智能开发平台CloudRobo,提供安全可信PB级数据底座、云原生具身模型生产引擎及具身智能体训练与仿真测试的全流程支持,将于6月30日公测。
8、【华为云】发布Agentic AI系列新品
华为云在INSPIRE创想者大会上提出Agentic Infra新范式(高效Token工厂+持续学习+通智一体化调度+安全自治),发布AICS灵衢智算集群、AMS Agentic记忆存储解决方案、CCE VolcanoNext通智一体化调度引擎、AgentSphere安全自治运行环境等四大Agentic Infra新品。同时发布新一代ModelArts Next模型训推平台(含RL强化学习服务、机密推理、模型路由、模型矩阵)、企业级智能体平台,以及具身智能开发平台CloudRobo(6月30日公测)。同步上线行业AI梦工厂四大专区。
9、【谷歌研究院与云】推出智能体RAG框架,准确率提升最高34%
搭载于Gemini企业智能体平台,通过多智能体协作拆解复杂查询、迭代检索,核心创新是充分上下文智能体可判断上下文是否充分并触发迭代检索。在FramesQA数据集跨语料库测试中准确率达90.1%,较标准RAG最大提升34%,延迟与单语料库设置差异不超过3%。已作为公开预览版上线,支持跨多个异构数据源检索。
10、【OpenAI】上线全新记忆系统Dreaming
OpenAI正式发布Dreaming V3记忆架构,可提升ChatGPT的记忆合成能力,让记忆保持新鲜、连贯且高度相关,跨越长时间对话。具备延续上下文、记住用户偏好、随时间自动更新三项核心能力。在相关事实回忆、偏好遵循、时间正确性评测上大幅提升,算力成本降低约5倍。美区Plus和Pro用户首批体验,免费用户将陆续开放,成为所有用户共享的记忆基础架构。
11、【微软】发布Azure Linux 4.0
微软发布首个通用Linux发行版Azure Linux 4.0,基于Fedora开发,采用声明式覆盖层记录与上游的差异,更新了内核、包管理工具等组件栈,支持虚拟机、容器、AKS、WSL等多Azure计算场景。该发行版具备可审计供应链、最小化设计、完善安全机制等特点,已被Databricks、LinkedIn等企业完成迁移使用,FIPS 140-3认证也在推进中。
12、【Anthropic】发布Claude Fable 5和Mythos 5两款Mythos级模型
Anthropic正式推出面向普通用户的Claude Fable 5和面向特定合作方的Claude Mythos 5,二者采用相同底层模型,核心差异为安全护栏设置,在软件工程、知识工作、视觉、科学研究等多领域基准测试中达到最先进水平,定价仅为Claude Mythos Preview的一半。Fable 5设置了覆盖网络安全、生物化学、模型蒸馏场景的安全分类器,相关请求会回落至Claude Opus 4.8响应,触发比例不足5%,两款模型对齐表现与Claude Opus 4.8持平。Fable 5定价为每百万输入token10美元、每百万输出token50美元,Pro、Max和Team订阅用户在6月22日前可免费体验,后续将逐步扩大访问权限,开发者可通过Claude API调用claude-fable-5。Claude Fable 5在SWE-Bench Pro测试中得分80.3%,远超GPT-5.5的58.6%。
13、Hermes Agent开源自主AI代理,支持持久记忆
Hermes Agent是Nous Research开发的开源自主AI代理,采用MIT许可证,支持自托管,所有数据本地存储且无遥测追踪,具备持久记忆、自动技能创建、多平台接入、定时自动化、并行子代理、完整浏览器与网络控制等核心功能,还支持多种执行环境和LLM提供商,可用于MLOps与AI训练场景。该产品支持Linux、macOS和WSL2系统,安装仅需单条命令,可接入Telegram、Discord等多个聊天平台,技能兼容agentskills.io开放标准,支持用户自定义创建、分享和复用技能。Hermes Agent适合需要本地部署AI代理的用户,可满足个性化AI助手的需求。
14、百度飞桨推出0.9B参数PaddleOCR-VL-1.6模型
百度飞桨团队推出0.9B参数量的PaddleOCR-VL-1.6文档解析模型,该模型未改动原有架构,通过诊断前代模型的三类薄弱区域并针对性优化数据,配合CPT-SFT-RL递进训练方案实现性能提升。升级后的模型在OmniDocBench v1.6综合评测、真实场景鲁棒性测试及多项细分任务评测中均取得领先成绩,超越参数量远超自身的各类大模型。研究团队已将该模型的代码、相关资源公开在官方网站、GitHub及HuggingFace平台供公众使用与复现。
15、【MindLab】开源749B参数Macaron-V1-Preview模型,专为Agent后训练设计
前沿实验室Mind Lab开源了749B参数的Macaron-V1-Preview模型,该模型基于GLM5.1打造,采用Mixture-of-LoRA架构,专为Agent后训练设计,仅用不到300张非最新款GPU完成训练,算力成本不足同尺寸模型1%。该模型在多个评测中取得开源模型SOTA成绩,通用能力比肩头部开源模型,还支持A2UI协议可快速生成动态交互UI,验证了后训练与持续学习的新路径。
16、摩尔线程MusaCoder开源:国产GPU全栈训练的代码大模型超越国际SOTA
摩尔线程开源MusaCoder,这是首个基于国产全功能GPU全栈训练的代码大模型,核心性能超越国际主流SOTA。标志着国产AI芯片在代码生成领域取得重要进展,将进一步丰富国产AI生态。
四、政策导向与行业治理
1、美国政府禁止外国人使用Claude Fable 5和Mythos 5模型公众号和华尔街见闻综合报道美国特朗普政府援引国家安全权力,对Anthropic最先进的Fable 5和Mythos 5两款AI模型实施严厉出口管制,全面禁止外国政府、企业和个人访问。Anthropic需立即停用这两款模型以确保合规,其他Claude模型不受影响。Anthropic表示此举是误解正努力争取恢复。该管制源于亚马逊CEO向政府提出的安全风险报告,表明政府AI管控力度显著升级。
2、欧盟委员会发布《云与AI发展法案》设置四级主权认证框架至顶网报道(已呈现)欧盟强化云主权,四级框架向AWS、谷歌、微软等美国厂商开放前两级,覆盖约90%公共部门工作负载。分析师指出市场格局短期难变,美国厂商将从默认选择变为众多选项之一。欧洲本土云厂商批评部分条款存在漏洞可能助长“主权洗白”。
2、欧盟要求Meta向竞争对手开放WhatsApp分发权限至顶网报道欧盟下令Meta允许竞争对手AI公司在WhatsApp平台分发聊天机器人,同时继续调查Meta是否滥用市场地位。该裁定可能影响Meta在AI聊天机器人领域的竞争策略,提升生态开放性,是欧盟加强科技巨头监管的重要举措之一。
3、中国计划未来五年投资2950亿美元建设数据中心,华为提供80%技术至顶网援引彭博报道中国计划大规模投资数据中心并强调国产化,为华为等国内公司提供至少80%的技术。华为昇腾NPU已支持DeepSeek-V4国产AI芯片推理部署。该政策引导国内AI产业自主可控发展,降低对海外技术依赖,提升国内企业在全球AI市场的竞争力。
4、美国国防部更新1260H名单,阿里、百度、比亚迪等被列入美国国防部更新Section 1260H“中国军方企业”名单,阿里巴巴、百度、宇树科技、比亚迪、药明康德、速腾聚创、长江存储、长鑫存储等企业被列入。进入该名单不等同于立即遭到美国财政制裁或全面禁售,其本质是美国国防体系的风险识别名单,名单内企业可向美国国防部申请移除。
5、Anthropic CEO Dario Amodei呼吁对AI实施更严格强制监管
Anthropic CEO Dario Amodei公开呼吁对人工智能实施强制监管,主张政府应有权阻止存在安全风险的AI模型上线部署,要求模型接受涵盖网络安全、生物武器等多风险维度的第三方测试。该立场与特朗普政府自愿合规路线明显分歧。Anthropic正将推动监管框架作为战略优先事项,但政策环境偏向宽松,能否转化为实质行动有不确定性。
6、德国法院裁定谷歌对AI概览中的错误负责德国一家法院裁定谷歌对人工智能概览(AI Overviews)中的错误内容承担法律责任。谷歌搜索结果中的AI概览存在不准确问题,谷歌虽称会审核信息但无法逐一检查链接。目前尚不清楚该裁决的最终影响,但可能对AI辅助搜索的法律责任界定产生示范效应。
7、国家互联网应急中心预警智能体Skills安全风险国家互联网应急中心发现部分智能体技能包以“大模型越狱”“挖矿赚钱”等名义传播,会诱导用户突破安全限制或占用设备资源非法挖矿,带来生成违法信息、账号封禁、设备性能下降、卷入违法犯罪活动等风险。针对该类问题,建议个人用户从官方渠道获取技能包、审慎授予权限并定期清理相关记录,企业用户建立准入白名单机制、分级管理智能体并实施数据脱敏等策略。相关防范举措可有效应对智能体技能包带来的各类安全风险,保障个人合法权益与网络安全。
8、英国发布主权算力战略,斥资11亿英镑布局芯片产业英国首相斯塔默宣布主权算力战略,斥资11亿英镑布局芯片产业,支持本土AI基础设施建设。英伟达在英国初创生态投入20亿英镑,过去一年Inception成员增长50%,开发者人数突破20万,企业AI应用正从试点迈向规模化生产。主权AI论坛推动政策转化为可落地的部署路线图,相关企业已在数字孪生、智能体部署、AI基础设施等方向开展规模化应用。英国政府推出“早期职业就业联盟”助力青年就业,为AI产业提供人才支撑。该战略将提升英国在AI领域的竞争力,减少对美国科技企业的依赖。
9、欧盟开源战略:将开源置于技术主权核心位置欧盟公布的开源战略将开源置于技术主权核心位置,旨在推动关键领域欧洲开源替代方案,降低对非欧盟专有技术的依赖,覆盖公共与私营部门全链条。当前欧洲开源生态面临长期资金不足、项目维护困难等结构性挑战。该战略采取全生命周期实施路径,已有下一代互联网倡议等多项举措落地。
10、美国探讨联邦政府收购OpenAI等AI公司股份美国高级官员正与多家主要人工智能公司商讨联邦政府收购其部分股份的相关事宜,OpenAI CEO Sam Altman已多次向特朗普政府相关人员提出该概念,讨论核心为相关公司自愿向政府让渡股份,投资收益将用于向美国家庭发放分红等公共用途。该安排虽有助于缓解公众对AI经济影响的焦虑,但存在政府同时作为股东和监管者的利益冲突、法律机制不明确等潜在问题,相关谈判细节仍存变数。目前两党均有支持政府持有AI公司股份的提议,业内人士评价呈现分化。
1、AI行业增长放缓,需探索可持续的商业模式
OpenAI、Anthropic等核心企业虽做出高额营收与投入承诺,但现有营收规模远低于支撑数据中心建设、算力采购等成本所需水平,且企业客户对AI投入的回报存疑、成本管控趋严进一步制约需求增长。行业要实现存续需在2030年前达成超2万亿美元的年度营收规模,同时还需至少两家同体量的企业补充算力需求,但目前除头部企业外尚无足够的新增需求支撑。相关分析指出行业存在过度依赖债务、成本不透明、产品实用性不足等问题,未来增长目标实现难度极大,行业泡沫破裂风险较高。AI行业的高估值与低营收矛盾突出,需探索可持续的商业模式。
2、AI数据中心年耗水量达2640亿加仑,水资源供需矛盾突出报道指出,AI数据中心2025年耗水量达2640亿加仑,相当于180万美国人的年用水量。美国近63%的地区正遭遇严重干旱,科技巨头加速扩张数据中心的高耗水特性引发社区对水电资源紧张的担忧,多地出现抗议与相关政策讨论,支持方与反对方围绕扩张速度与资源承载能力存在争议。
3、SAP:发布2026 AI价值报告,中国企业AI发展进入转型点
SAP发布《2026 SAP AI价值报告》,调研显示中国受访企业当前平均34%的工作任务由AI辅助完成,预计2年后将升至52%,AI回报率预期将从18%升至38%。企业落地AI面临数据质量不足、员工技能适配跟不上、AI治理框架缺失三大风险信号。SAP建议企业从数据治理、员工AI就绪、治理能力三层构建AI落地架构,将AI嵌入核心,围绕数据、人才与治理持续投入。
4、深圳:2026新一代人工智能创业创新大赛启动,聚焦四大赛道
2026新一代人工智能(深圳)创业创新大赛正式启动,由深圳市互联网信息办公室、宝安区政府和网易传媒联合主办。大赛聚焦AI大模型和智能体、AI硬件和具身智能、AI+文化、AI基础设施四大赛道,链接政策、产业、资本与场景资源,提供投资对接、产业落地等支持并设置丰厚奖励。赛程涵盖6月8日开启的项目征集至8月底总决赛,参赛项目需为原始创新且符合报名条件。
5、阿联酋:推出国家密码发现平台 加速后量子安全迁移阿联酋网络安全委员会与QuantumGate联合推出国家级密码发现工具(CDT),作为国家后量子迁移计划的核心组成部分,可自动识别、编目和管理组织内部加密系统,助力企业向抗量子加密标准迁移,其输出结果将整合至国家网络安全指数平台。
夜雨聆风