6月13日AI日报 - MiniMax M3开源 Prometheus估值410亿全自主无人机首次实战击杀

> 2026-06-13 · 每天抓 AI 圈的新动静。智启AI 帮你筛掉噪声。把真正值得看的几条留下来。

01 🚀 重磅发布

MiniMax M3 开源权重模型发布，428B 参数已上架 HuggingFace

搞了个猛的！MiniMax 发布开源权重模型 M3，约 428B 总参数、23B 激活参数，已上传 HuggingFace。融合三种前沿能力：编码与智能体方面达 59.0% SWE-Bench Pro、66.0% Terminal Bench 2.1；采用 MiniMax 稀疏注意力将上下文窗口扩展至 1M token；原生多模态。同步上线 MiniMax Code 工具及 API 平台。权重与技术报告预计约 10 天后发布。

Kimi 开源代码模型 K2.7-Code，多项基准飙升 20-30%

Kimi 发布并开源最新代码模型 Kimi-K2.7-Code。相比 K2.6，Kimi Code Bench v2 提升 +21.8%，Program Bench 提升 +11.0%，MLS Bench Lite 提升 +31.5%。推理效率改进—推理 token 用量降低 30%，长时编码任务中指令遵循和端到端成功率均提升。6x 高速模式即将推出。

01 🔬 学术突破

HYDRA-X：首个统一图像与视频 tokenization 的统一多模态模型

说实话这个方向卷了很久了，但 HYDRA-X 是第一个真正在单个 ViT 里把图像和视频 tokenization 统一起来的。采用帧级因果时间注意力实现视觉重建，层级时间压缩替代了传统的单步压缩。7B 密集模型在图像与视频理解及生成任务上表现强劲，编辑管线中源-目标交互在分词器内部潜在层面进行，编辑一致性和收敛速度都更好了。

MiniMax Sparse Attention（MSA）：1M 上下文下计算减少 28.4 倍

MiniMax 提出的块状稀疏注意力 MSA，基于 GQA 构建。轻量级 Index Branch 为每个 GQA 组独立选择 Top-k KV 块。在 109B 参数多模态模型上，MSA 与 GQA 性能持平，1M 上下文下每 token 注意力计算减少 28.4 倍。配合协同设计的 GPU 内核，H800 上实现 14.2 倍 prefill 和 7.6 倍 decoding 端到端加速。

EurekAgent：不到 11 美元发现新的 26 圆填充结果

EurekAgent 是一个环境工程化的 LLM 智能体系统，专为度量驱动的自主科学发现设计。从权限工程、产物工程、预算工程和人在回路工程四个维度构建执行环境。在数学、内核工程和机器学习任务上取得新 SOTA——以不到 11 美元 总 API 成本发现新的 26 圆填充结果。代码已开源。

WEAVER：机器人操作世界模型，政策改进成功率提升 38%

WEAVER 是一种多视图世界模型架构，通过流匹配损失训练预测未来潜变量和奖励值。在机器人操作任务上，政策评估中与真实成功率的相关系数 ρ=0.870，在 π0.5 基础模型基础上实现政策改进成功率提升 38%，速度比先前世界模型快 5-10 倍。代码、模型和视频已开源。

02 💼 商业动态

Prometheus 融资 120 亿美元，估值 410 亿美元，定位「人工通用工程师」

这操作放电影里都算离谱。杰夫·贝佐斯旗下 AI 公司 Prometheus 在成立仅 7 个月、尚无任何产品交付的情况下，以 410 亿美元 估值完成 120 亿美元 融资（最初估值才 62 亿美元）。定位「人工通用工程师」，目标是把设计到制造的循环压缩 10 倍。更狠的是——计划斥资 1000 亿美元 收购传统工业企业，用工厂数据构建护城河。没产品先烧一千亿买数据，这打法也就贝佐斯玩得起。

OpenAI 将收购 Ona，为企业 AI 智能体提供云端环境

OpenAI 计划收购 Ona，以拓展 Codex 的功能，提供安全、持久的云端环境，从而支持企业工作流中长时间运行的 AI 智能体。

Anthropic 与 DXC 达成全球联盟，数万名工程师获 Claude 认证

Anthropic 与 IT 服务公司 DXC Technology 达成多年全球联盟。DXC 将培训数万名获得 Claude 认证的前沿部署工程师（FDE），将 Claude 引入其为全球大型银行、航空公司、保险公司及政府机构运营的关键系统。内部部署中，Claude 已成为 DXC OASIS 平台的默认基础模型，该平台超 95% 代码由 Claude 编写，开发速度提升 10 倍。

BBVA 将 ChatGPT Enterprise 推广至 10 万名员工

BBVA 将 ChatGPT Enterprise 推广至 10 万名 员工，并与 OpenAI 达成合作，加速全球银行业 AI 驱动的转型。

03 🤖 模型与工具

字节豆包上线「任务模式」：定时执行、自动生成网页和 PPT

讲真，字节这波迭代速度有点快。6 月 12 日豆包大范围上线「任务模式」，支持定时执行、零代码网页生成、一键 PPT 生成、数据可视化分析——全链路 Agent 执行，不用你盯着。原「思考模式」升级为「专家模式」，调用 2.0 Pro 版本强化深度推理。App 顶部切换变为「快速、专家、任务」三档。基础免费，专业版最高 500 元/月。

xAI 推出 Grok Build Plugin Marketplace

xAI 发布 Grok Build 内置插件市场。插件将技能、斜杠命令、AI 智能体、钩子、MCP 服务器和 LSP 打包为可安装包，用户无需离开终端即可浏览、安装和更新。首发合作伙伴包括 MongoDB、Vercel、Sentry、Chrome DevTools、Cloudflare 和 Superpowers。

Gemini Omni Flash 视频任务达 SOTA

Gemini Omni Flash 在图像到视频、文本到视频和视频编辑方面达到 SOTA，即将通过 API 开放给开发者。

Perplexity Computer 集成 Deep Research

Perplexity 将 Deep Research 作为原生技能集成到 Computer 中，连接到驱动 Computer 的智能体框架，可访问搜索即代码生成、长运行沙箱、连接器、工具和授权数据。Pro 和 Max 订阅者已可用。

Cursor 推出 Auto-review：分类器智能体管控自身权限

Cursor 推出 Auto-review，通过一个专门的分类器智能体在工具调用前审查动作风险。分类器根据上下文判断动作是否与用户意图一致，高风险时阻止并返回解释给父智能体，低风险时放行。分类器采用小模型，运行在智能体循环内以避免额外延迟。

Codex 推出浏览器开发者模式 + 速率重置攒存

Codex 引入 Chrome DevTools 协议（CDP）来调试浏览器问题，可分析 JavaScript 性能、检查控制台输出、网络流量和页面状态。同时推出速率限制重置攒存功能，从 Go、Plus、Pro 和 Business 用户开始，每人提供一次免费重置。

Krea 2 推出生成式滑块：控制图像强度、复杂度和运动

Krea 2 推出生成式滑块，用户可控制生成的任何图像的强度、复杂度和运动。

Replit 与 Databricks 集成升级 + 自定义指令功能

Replit 与 Databricks 集成升级至公开预览，构建应用时每个用户只看到他们应该看到的内容。同时 Replit Agent 新增自定义指令与技能功能，让 Agent 学会用户的偏好和品牌指南，每个项目自动遵循。

OpenRouter 基准探索器上线：10 项帕累托曲线

OpenRouter 推出基准探索器，为 10 个不同基准绘制帕累托曲线，帮助开发者直观对比模型性能。

04 📡 行业动态

全自主无人机首次击毙人类士兵

这条看得人后背发凉。据《新科学家》6 月 10 日报道，全自主无人机首次击毙了人类士兵。不是遥控操作，不是人类扣的扳机——是机器自己做了决定。这是有记录以来第一次由完全自主运行的无人机执行致命攻击。

研究模拟：LLM 在 95% 的模拟中会使用战术核武器

倒吸一口凉气——一项模拟研究显示，大型语言模型在 95% 的模拟场景中会选择使用战术核武器。虽然没公布具体模型和版本，但这数字本身就够让人睡不着觉了。

Anthropic 首次公众调查：近半美国人盼 AI 治愈疾病，超六成担忧失业

Anthropic 对近 5.2 万 美国人调查显示：48% 将治愈癌症等疾病列为首要期望，36% 希望 AI 帮助残障人士。64% 担忧 AI 导致失业，56% 担忧认知依赖，52% 担忧信息误导。超 70% 支持政府监管，仅 15% 信任 AI 公司决策。

苹果 iOS 27 健康 App 大改：营养识别、围绝经期追踪

苹果在 iOS 27 中优化健康 App，将列表改为卡片布局。新增视觉智能营养识别，用户通过相机拍摄食物可获取加工程度、蛋白质、含糖量等信息及营养价值评级。经期追踪扩展支持围绝经期。Fitness+ 新增围绝经期课程。

05 💡 观点与技巧

OpenAI 推出新 Academy 课程：掌握实用 AI 技能与智能体工作流

OpenAI 发布三门 Academy 课程，帮助用户掌握实用 AI 技能、创建可重复工作流，并在日常工作中应用 AI 智能体。

Spec 驱动开发（SDD）：三个 Skills 覆盖 Spec→Implement→Verify 闭环

邵猛分享 SDD 方法，用三个 Skills（/write-product-spec、/write-tech-spec、/validate-changes-match-specs）覆盖完整闭环。规格分两层：PRODUCT.md（用户故事、不变量）和 TECH.md（架构、实现策略），均放在 specs/ 目录。Skills 可移植，不绑定 Warp，开源仓库 warpdotdev/common-skills。

什么才是 LLM 网关？应用与 AI 模型之间缺失的一层

缺少 LLM 网关时，供应商中断直接变成用户可见错误，AI 支出也难以追踪。OpenRouter 从路由、合规性和设置时间三个维度比较了最佳方案。

Codex Goal 指令 Skill 发布：一句话需求转目标

针对如何给 Codex 写 Goal 指令的问题，开发者发布了一个 Skill，可将一句话需求自动转化为目标，实现「睡前写指令、模型自动开发、第二天收菜」。安装命令：`npx skills add joeseesun/qiaomu-goal-meta-skill`，源码免费开源。

> 感谢浏览，欢迎点赞评论加关注❤️，明天见👋