AI 日报 | 今日要闻(2026-06-26)

AI 日报 | 今日要闻（2026-06-26）

1. OpenAI 把 GPT-5.5 Instant 直接免费了

6 月 26 日起，OpenAI 把最新的 GPT-5.5 Instant 面向所有用户免费开放，并把它设为默认模型替代旧版。官方公布的两组数据比较关键，医疗、法律这类垂直场景的错误率砍掉超过 50%，回复也更短更干脆。

这一步发生在 OpenAI 内部战略调整期，Google、Anthropic 都在抢市场，他们先把基础模型的体验稳住。

头部模型厂商已经默认把"免费 + 准确性"当作新底线，这对中小模型厂商的压力会更直接。

2. Anthropic 把阿里通义千问蒸馏 Claude 这件事摆到台面上了

Anthropic 公开指控阿里巴巴的通义千问用大约 2.5 万个虚假账户访问 Claude，把能力搬回自家模型。这是 AI 行业有史以来规模最大的一起蒸馏指控，把模型厂商之间关于"能力来源"和"合规边界"的冲突直接撕开了。

蒸馏这件事，大家私下都做，但没人挑明。这次挑明之后，预计会有更多厂商之间因为合规问题直接对线。

3. 1 万个"中国版 Codex"开打

Codex 现在已经不只是编程工具了，它长成了"桌面 Agent"产品，工程师以外的非技术用户占比超过一半，周活超过 500 万，半年涨了 7 倍多。国内大厂和模型公司看到这条路径，开始推出各自的"中国版 Codex"，战场从 IDE 直接烧到桌面操作系统。

编程 Agent 的真正用户早就不是程序员了。谁先把非技术用户拉进来，谁手里就握着下一轮 Agent 战争的入场券。

4. Uber 和 Auth0 把 Agent 的身份权限体系重新搭了一遍

Uber 把零信任架构延伸到 Agent 系统，新增了 Agent Registry、Security Token Service 和 Model Context Protocol 网关。Agent 调用工具或委派任务时，会签发一张只能走一跳、几分钟就过期的短期 JWT，Token 里会记录"执行者链"（actor chain），让下游系统既知道是谁发起的请求，也知道经过了哪些 Agent。Auth0 那边则补了一套能力型、任务型、分层执行三种权限模型。

原来那套"用户-会话-服务"的三层模型在 Agent 场景下已经不够用。Agent 之间的身份委托和最小权限，正在变成新的基础设施问题。

5. Meta FAIR 整了个 Autodata，让 AI 自己训练 AI 数据科学家

Meta FAIR 发布的 Autodata，本质上是让一个 AI Agent 顶替"数据科学家"的活，给其他 AI 模型自动生成并优化高质量合成数据。论文里给的结果是，编程、法律推理、数学任务上，Autodata 优化出的数据训练效果比传统方法明显更好。它想证明的是，推理阶段烧的算力，能直接转化成训练阶段的数据质量。

合成数据正在变成模型迭代的关键变量。Autodata 这种"数据生成 Agent"，可能会把 AI 实验室准备数据的方式改一改。

6. 字节和人民大学把扩散语言模型做到了 8B

字节跳动和中国人民大学联合发布扩散语言模型 iLLaDA 8B，80 亿参数，12 万亿 token 训练数据。它走的不是传统逐字预测，而是全双向注意力，一次性把随机遮盖的词同时恢复回来。在 MMLU、BBH 等基准上，基础版本和 Qwen2.5 7B 基础版持平甚至略高，但数学和编程任务上，指令微调版本还差一截，团队把原因归结为还没上 RL 对齐。

扩散语言模型正在从研究阶段走到开源可复现这一层。80 亿 + 12 万亿 token 这个配置，给后续研究立了一个明确的参照点。

7. AWS 想用现代数据网格撑起 Agentic AI 应用

AWS 官方博客里提了一套方案，用现代数据网格（Data Mesh）支撑新一代 Agentic AI 应用。和传统 RAG 不同，这类应用需要 Agent 自己找数据、写查询、跨源整合信息。架构上的关键改动有三处：用 Amazon S3 Vectors 替代 OpenSearch Serverless 来压成本；用 Amazon S3 Tables 替代普通 S3，把权限控制做到更细的粒度；再通过 AgentCore Gateway 把数据网格暴露给 Agent，对每次工具调用都做访问控制。

数据治理和 Agent 工具调用能不能绑在一起，决定了企业级 AI 应用能不能真的落地。AWS 这套方案给了一个具体能抄的实现路径。

8. 人大出了个 DeNovoSWE，让 Code Agent 从修 Bug 升级到搭仓库

中国人民大学高瓴人工智能学院发布的 DeNovoSWE，是第一个专门训练 Code Agent 从零生成完整软件仓库的长程数据集。里面装了 4818 个真实任务实例，配了结构化文档和严格的验证机制。实验数据比较直观，用这个数据集训练之后，模型在 BeyondSWE-Doc2Repo 这类仓库级代码生成任务上，从 5.8% 提到了 47.2%。

Code Agent 的能力边界正在从"修 Bug"往"搭仓库"扩。训练数据长什么样，决定了这种扩展能不能规模化。

来源引用

[1] 36氪《OpenAI 突然宣布全量推送，经历戏剧性战略转变 GPT-5.5 Instant 明天起将免费提供给所有用户》 https://www.36kr.com/p/3867635704108297

[2] AI Business《Anthropic 指控阿里巴巴用 2.5 万个虚假账户窃取 Claude 能力》 https://aibusiness.com/generative-ai/anthropic-alleges-alibaba-pilfered-claude-capabilities

[3] 36氪《2026：1 万个中国版 Codex 大战》 https://www.36kr.com/p/3868029236401414

[4] InfoQ《AI Agent 身份与权限挑战：Uber 与 Auth0 如何重构访问控制》 https://www.infoq.cn/article/tDY9pS7LlrVIBq1pPotd

[5] AI Weekly《Autodata: Meta FAIR trains intelligent data scientists, meta-optimizing synthetic dataset creation across code, legal reasoning, and mathematics tasks》 https://aiweekly.co/node/3686

[6] AI Weekly《ByteDance and Renmin U's iLLaDA 8B Diffusion LM Rivals Qwen2.5 7B Base》 https://aiweekly.co/alerts/bytedance-and-renmin-us-illada-8b-diffusion-lm-rivals-qwen25-7b-base

[7] AWS《Building Intelligent AI Applications on AWS Using a Modern Data Mesh Strategy》 https://aws.amazon.com/blogs/machine-learning/building-agentic-ai-applications-with-a-modern-data-mesh-strategy-on-aws/

[8] 36氪《首个长程 Doc2Repo 训练集：Code Agent 从修 Bug 到建仓库》 https://www.36kr.com/p/3868228374156545