
AI前沿日报 05.28|中国筹划AI Token期货,Mistral发布Search Toolkit
01 今日速览
1.中国正在研究 AI token 期货,上海期货交易所处于早期产品设计阶段。
2.Mistral 在 AI Now Summit 发布一组更新:Search Toolkit 公测、Vibe 升级为长程工作 Agent、面向工业工程的物理 AI 方案,以及法国 Les Ulis 10MW 推理数据中心。
3.Snowflake 与 AWS 达成 5 年 60 亿美元合作,获得 AWS Graviton 芯片供给,并强化其数据存储、分析和 AI 工作负载在 AWS 上的整合。
4.Wix 宣布裁员约 1000 人,占员工总数约 20%。公司 CEO 将原因归结为以色列谢克尔升值带来的成本压力,以及 AI 让公司需要更少层级和更少员工。
5.市场监管总局、国家发展改革委联合印发《人工智能计量体系和能力建设指引(2026版)》,提出围绕基础支撑、通用技术、核心技术、计量规范、产业服务等方向建设 AI 计量能力。
6.智谱与国泰海通等设立 5.4 亿元 AI 产业基金。基金注册在上海张江,由智谱全资子公司、国泰君安创新投资等联合发起,并引入湖北集成电路产业基金、山东省新动能基金等出资方。
7.2026 世界智能产业博览会在天津开幕,展览面积 13 万平方米,超 700 家企业参展,具身智能首次独立成馆。
02 模型 / 产品 / 开发者更新
1. Mistral 发布 Search Toolkit,企业 RAG 开始补“搜索底座”
Mistral 发布 Search Toolkit 公测版,定位是构建生产级搜索管线的开源框架。它把 ingestion、retrieval、evaluation 放进同一套接口里。ingestion 是把企业文档、代码库、工单、文件系统等数据清洗并建索引;retrieval 是检索相关内容;evaluation 是判断检索结果是否真的有用。Mistral 称,很多团队在做企业搜索和 RAG 时,时间花在拼接工具链,而不是提升搜索质量。
RAG 是 retrieval-augmented generation,也就是“先检索,再生成”。模型回答企业问题时,如果只靠训练时学到的知识,容易过期或瞎编;如果先从内部知识库检索相关资料,再基于资料回答,就更可控。Search Toolkit 的价值,是把这套流程从临时脚本变成可配置、可评估、可部署的基础设施。
这件事对 Agent 更重要。Agent 做企业任务时会高频检索:查合同、查客户记录、查代码、查工单、查会议纪要。检索质量差,后续推理和执行都会错。Mistral 把 Search Toolkit 放在 Agent 语境里,说明企业 AI 的短板不一定是模型不聪明,也可能是它查到的上下文不可靠。
2. Mistral Vibe 升级为长程工作 Agent,工业客户开始成为主战场
Mistral 在 AI Now Summit 上把 Vibe 定位为统一长程工作 Agent:可以处理邮箱和日历、执行深度研究、起草交付物,也可以完成从需求到 PR 的代码任务。PR 是 pull request,也就是开发者把代码改动提交给团队审查的流程。Vibe 同时覆盖网页应用、编辑器和终端,说明 Mistral 想让 Agent 进入完整工作流,而不是只停留在聊天窗口。
Mistral 同时发布工业工程方案,客户包括 Airbus、BMW Group 和 ASML。Airbus 合作覆盖商用飞机、直升机、防务和航天活动;BMW 的 Large Industry Model 方向面向工程数据和碰撞仿真;ASML 则围绕高性能部件设计、替代仿真模型和控制回路展开。这里的重点不是“模型会写工程报告”,而是 AI 正在进入仿真、设计、质量和控制这些工业核心环节。
Mistral 还宣布法国 Les Ulis 10MW 推理数据中心,预计 2026 年三季度开放,用于 inference operations。推理是模型训练完成后真正服务用户、回答问题、执行任务的阶段。Mistral 把模型、Agent、工业方案和自有算力放在同一天发布,走的是全栈企业 AI 路线。
3. Snowflake 与 AWS 签 60 亿美元合作,企业数据平台开始吃到 AI 红利
Snowflake 与 AWS 达成 5 年 60 亿美元合作,获得 AWS Graviton 芯片供给,并深化 Snowflake 数据存储、处理和分析产品在 AWS AI 工作负载中的整合。Graviton 是 AWS 自研 CPU,适合承载云端数据处理和推理相关任务。对 Snowflake 来说,AI 需求增长带来的不是单一模型收入,而是更多企业数据被整理、查询、分析和调用。
Snowflake 已经在平台中推广 Cortex Code、Snowpark 等 AI 工具,帮助企业在自有数据上构建生成式 AI 应用和部署机器学习模型。这个路径和通用聊天机器人不同:企业先把数据放在 Snowflake,再在同一套平台上做分析、建模和 AI 应用。数据平台的优势,是它离企业真实数据更近。
这条新闻也解释了为什么 SaaS 不会简单被 AI 吃掉。没有数据、权限和流程的应用会被挤压;掌握企业数据底座的平台,反而可能成为 AI 应用的入口。AI 不是替代所有企业软件,而是重新分配谁离数据更近、谁能把数据变成可执行工作流。
03 开源 / 开发者生态
Search Toolkit:开源检索管线从“能搜到”走向“能评估”
Search Toolkit 提供 ingestion、BM25 稀疏检索、向量检索、混合检索和内置评估指标。BM25 是传统关键词搜索方法,向量检索则把文本变成数字向量后按语义相似度搜索;混合检索把两者结合起来。企业搜索不能只靠一种方法,因为合同、代码、医疗记录、财务披露和客服工单的结构都不一样。
更值得注意的是内置 evaluation。很多 RAG 系统效果差,团队先改 prompt,结果问题根本不在生成,而在检索没有找到正确材料。Search Toolkit 内置 recall、precision、MRR、NDCG 等指标,用来判断检索器本身是否返回了正确上下文。简单说,它让团队先看“资料找对了吗”,再看“模型写得好吗”。
这类工具会成为 Agent 基础设施。Agent 要做复杂任务,就要持续查资料;检索系统如果不可评估,Agent 就会把错误上下文当真。未来企业 Agent 的质量,很大一部分取决于底层搜索管线,而不是最后一层回答模型。
04 论文雷达
1. Gamma-World:世界模型从单人控制走向多人互动
NVIDIA 等机构发布 Gamma-World,研究多智能体世界模型。世界模型可以理解成 AI 对动态环境的预测能力:用户或机器人做一个动作,模型生成接下来会发生什么。过去很多交互视频生成只处理单个控制信号,比如一个玩家或一个机器人;Gamma-World 关注多个玩家、多个机器人或多个智能体同时在同一空间行动。
论文提出 Simplex Rotary Agent Encoding 和 Sparse Hub Attention。前者让多个智能体有各自身份,但不依赖固定顺序;后者用少量 hub token 做信息中转,降低多个智能体之间互相关注的计算成本。普通全连接注意力会随着智能体数量快速变贵,Sparse Hub Attention 把复杂度从接近平方级压到更接近线性。
它的产品意义在于仿真和机器人。游戏、自动驾驶、仓储机器人、无人机编队都不是单人世界。模型如果只能预测一个主体,就很难进入真实场景;如果能在多人、多机器人互动中保持空间一致性和动作可控性,才更接近可用的物理世界模拟器。
2. AXPO:训练 Agent 时,工具调用不能只靠运气
AXPO 研究多模态 Agentic Reasoning,也就是模型在图像、文字和外部工具之间做推理。论文指出,很多模型更习惯“先自己想”,不愿意或不会稳定调用工具。作者把这种结构性问题叫 Thinking-Acting Gap:模型内部推理是默认行为,外部工具调用是高方差行为,训练时容易学不好。
在标准强化学习训练里,工具调用只出现在约 30% 的 rollouts;一旦工具调用子组全错,训练信号又会被压低。AXPO 的方法是固定前面的思考部分,重新采样工具调用和后续过程,让模型在“该用工具的地方”获得更多有效训练信号。
这对 Agent 很关键。现实任务里,模型不能一直靠脑补:看图要调用视觉工具,查资料要检索,写代码要跑测试,处理表格要执行计算。Agent 能不能稳定用工具,决定它能不能从“回答问题”走向“完成任务”。
3. OSP-Next:视频生成开始向低成本训练和推理要效率
OSP-Next 关注高质量视频生成的效率问题。视频模型通常基于 Diffusion Transformer,画质强但注意力计算很重,生成长视频、高分辨率视频时成本迅速上升。OSP-Next 结合稀疏注意力、序列并行、HiF8 量化和强化学习,目标是在降低计算开销的同时维持视频质量。
论文提到,相比 Ulysses Sequence Parallelism,Sparse Sequence Parallelism 能减少 75% 通信量;HiF8 量化让模型用 8-bit 方式稳定训练;Mix-GRPO 则用于后训练提升稀疏模型表现。量化可以理解成用更低精度表示模型计算,减少显存和计算成本。
这类工作和 AI 视频商业化直接相关。视频模型不能只追求 demo 好看,还要能批量生成、成本可控、延迟可接受。广告、电商、短剧和游戏素材生产都需要稳定产能,效率论文最后会变成产品毛利。
05 公司 / 应用 / 政策动态
1. 中国筹划 AI token 期货,算力消耗被推向资产定价
Reuters 引述知情人士称,上海期货交易所正处于 AI token 期货产品设计早期。该产品拟与 AI token 挂钩,而美国 CME 和 ICE 准备推出的则是 GPU compute futures,挂钩 AI 算力租赁成本。两类产品都服务于同一个需求:让 AI 产业链公司对冲算力和调用成本。
token 是模型处理信息的基本单位,输入、输出、工具调用和上下文都会消耗 token。中国日均 token 使用量到 2026 年 3 月已超过 140 万亿,官方数据称较 2024 年初增长约 1000 倍。使用量增长到这个级别后,token 不只是技术指标,也会成为商业成本指标。
这条新闻的深层含义是,AI 服务正在形成自己的“原材料”。传统制造业要管理煤、电、油、金属价格;AI 公司要管理 GPU、带宽、电力、缓存和 token 成本。未来一个 AI 应用是否赚钱,不只看用户增长,也看每次任务消耗多少 token、能否缓存、能否锁定算力价格。
2. Wix 裁员 1000 人,AI 开始压缩软件公司组织层级
Wix 宣布裁员约 1000 人,占员工总数约 20%。公司 CEO Avishai Abrahami 表示,谢克尔升值让以色列本地成本上升,同时 AI 也意味着公司可以用更少层级、更少员工完成工作。Wix 第一季度末员工数为 5277 人。
这类裁员不能简单归因于 AI。Reuters 报道中,汇率压力是重要原因,AI 是另一个因素。更准确的说法是:AI 加速了软件公司重新评估组织结构。过去需要多层团队协调的开发、客服、设计、网站生成和运营工作,现在一部分可以被 AI 工具压缩。
3. 两部门发布 AI 计量指引,国内开始补“可测量”的基础规则
市场监管总局、国家发展改革委联合印发《人工智能计量体系和能力建设指引(2026版)》,围绕基础支撑、通用技术、核心技术、计量技术规范、计量服务产业、智能赋能计量六大部分布局。文件提出推动 AI 技术性能“可测量、可比较、可追溯”。
AI 计量解决的是“怎么判断一个系统可靠”的问题。模型好不好,不能只看演示;算法黑箱、数据质量、算力效率、诊断算法可靠性,都需要统一测量方法。没有计量体系,企业采购和监管评估就容易变成各说各话。
夜雨聆风