AI 日报 | 今日要闻(2026-06-26)
1. OpenAI 把 GPT-5.5 Instant 直接免费了
6 月 26 日起,OpenAI 把最新的 GPT-5.5 Instant 面向所有用户免费开放,并把它设为默认模型替代旧版。官方公布的两组数据比较关键,医疗、法律这类垂直场景的错误率砍掉超过 50%,回复也更短更干脆。
这一步发生在 OpenAI 内部战略调整期,Google、Anthropic 都在抢市场,他们先把基础模型的体验稳住。
头部模型厂商已经默认把"免费 + 准确性"当作新底线,这对中小模型厂商的压力会更直接。
2. Anthropic 把阿里通义千问蒸馏 Claude 这件事摆到台面上了
Anthropic 公开指控阿里巴巴的通义千问用大约 2.5 万个虚假账户访问 Claude,把能力搬回自家模型。这是 AI 行业有史以来规模最大的一起蒸馏指控,把模型厂商之间关于"能力来源"和"合规边界"的冲突直接撕开了。
蒸馏这件事,大家私下都做,但没人挑明。这次挑明之后,预计会有更多厂商之间因为合规问题直接对线。
3. 1 万个"中国版 Codex"开打
Codex 现在已经不只是编程工具了,它长成了"桌面 Agent"产品,工程师以外的非技术用户占比超过一半,周活超过 500 万,半年涨了 7 倍多。国内大厂和模型公司看到这条路径,开始推出各自的"中国版 Codex",战场从 IDE 直接烧到桌面操作系统。
编程 Agent 的真正用户早就不是程序员了。谁先把非技术用户拉进来,谁手里就握着下一轮 Agent 战争的入场券。
4. Uber 和 Auth0 把 Agent 的身份权限体系重新搭了一遍
Uber 把零信任架构延伸到 Agent 系统,新增了 Agent Registry、Security Token Service 和 Model Context Protocol 网关。Agent 调用工具或委派任务时,会签发一张只能走一跳、几分钟就过期的短期 JWT,Token 里会记录"执行者链"(actor chain),让下游系统既知道是谁发起的请求,也知道经过了哪些 Agent。Auth0 那边则补了一套能力型、任务型、分层执行三种权限模型。
原来那套"用户-会话-服务"的三层模型在 Agent 场景下已经不够用。Agent 之间的身份委托和最小权限,正在变成新的基础设施问题。
5. Meta FAIR 整了个 Autodata,让 AI 自己训练 AI 数据科学家
Meta FAIR 发布的 Autodata,本质上是让一个 AI Agent 顶替"数据科学家"的活,给其他 AI 模型自动生成并优化高质量合成数据。论文里给的结果是,编程、法律推理、数学任务上,Autodata 优化出的数据训练效果比传统方法明显更好。它想证明的是,推理阶段烧的算力,能直接转化成训练阶段的数据质量。
合成数据正在变成模型迭代的关键变量。Autodata 这种"数据生成 Agent",可能会把 AI 实验室准备数据的方式改一改。
6. 字节和人民大学把扩散语言模型做到了 8B
字节跳动和中国人民大学联合发布扩散语言模型 iLLaDA 8B,80 亿参数,12 万亿 token 训练数据。它走的不是传统逐字预测,而是全双向注意力,一次性把随机遮盖的词同时恢复回来。在 MMLU、BBH 等基准上,基础版本和 Qwen2.5 7B 基础版持平甚至略高,但数学和编程任务上,指令微调版本还差一截,团队把原因归结为还没上 RL 对齐。
扩散语言模型正在从研究阶段走到开源可复现这一层。80 亿 + 12 万亿 token 这个配置,给后续研究立了一个明确的参照点。
7. AWS 想用现代数据网格撑起 Agentic AI 应用
AWS 官方博客里提了一套方案,用现代数据网格(Data Mesh)支撑新一代 Agentic AI 应用。和传统 RAG 不同,这类应用需要 Agent 自己找数据、写查询、跨源整合信息。架构上的关键改动有三处:用 Amazon S3 Vectors 替代 OpenSearch Serverless 来压成本;用 Amazon S3 Tables 替代普通 S3,把权限控制做到更细的粒度;再通过 AgentCore Gateway 把数据网格暴露给 Agent,对每次工具调用都做访问控制。
数据治理和 Agent 工具调用能不能绑在一起,决定了企业级 AI 应用能不能真的落地。AWS 这套方案给了一个具体能抄的实现路径。
8. 人大出了个 DeNovoSWE,让 Code Agent 从修 Bug 升级到搭仓库
中国人民大学高瓴人工智能学院发布的 DeNovoSWE,是第一个专门训练 Code Agent 从零生成完整软件仓库的长程数据集。里面装了 4818 个真实任务实例,配了结构化文档和严格的验证机制。实验数据比较直观,用这个数据集训练之后,模型在 BeyondSWE-Doc2Repo 这类仓库级代码生成任务上,从 5.8% 提到了 47.2%。
Code Agent 的能力边界正在从"修 Bug"往"搭仓库"扩。训练数据长什么样,决定了这种扩展能不能规模化。
来源引用
[1] 36氪《OpenAI 突然宣布全量推送,经历戏剧性战略转变 GPT-5.5 Instant 明天起将免费提供给所有用户》 https://www.36kr.com/p/3867635704108297
[2] AI Business《Anthropic 指控阿里巴巴用 2.5 万个虚假账户窃取 Claude 能力》 https://aibusiness.com/generative-ai/anthropic-alleges-alibaba-pilfered-claude-capabilities
[3] 36氪《2026:1 万个中国版 Codex 大战》 https://www.36kr.com/p/3868029236401414
[4] InfoQ《AI Agent 身份与权限挑战:Uber 与 Auth0 如何重构访问控制》 https://www.infoq.cn/article/tDY9pS7LlrVIBq1pPotd
[5] AI Weekly《Autodata: Meta FAIR trains intelligent data scientists, meta-optimizing synthetic dataset creation across code, legal reasoning, and mathematics tasks》 https://aiweekly.co/node/3686
[6] AI Weekly《ByteDance and Renmin U's iLLaDA 8B Diffusion LM Rivals Qwen2.5 7B Base》 https://aiweekly.co/alerts/bytedance-and-renmin-us-illada-8b-diffusion-lm-rivals-qwen25-7b-base
[7] AWS《Building Intelligent AI Applications on AWS Using a Modern Data Mesh Strategy》 https://aws.amazon.com/blogs/machine-learning/building-agentic-ai-applications-with-a-modern-data-mesh-strategy-on-aws/
[8] 36氪《首个长程 Doc2Repo 训练集:Code Agent 从修 Bug 到建仓库》 https://www.36kr.com/p/3868228374156545
夜雨聆风