> 2026-06-13 · 每天抓 AI 圈的新动静。智启AI 帮你筛掉噪声。把真正值得看的几条留下来。
01 🚀 重磅发布
MiniMax M3 开源权重模型发布,428B 参数已上架 HuggingFace
搞了个猛的!MiniMax 发布开源权重模型 M3,约 428B 总参数、23B 激活参数,已上传 HuggingFace。融合三种前沿能力:编码与智能体方面达 59.0% SWE-Bench Pro、66.0% Terminal Bench 2.1;采用 MiniMax 稀疏注意力将上下文窗口扩展至 1M token;原生多模态。同步上线 MiniMax Code 工具及 API 平台。权重与技术报告预计约 10 天后发布。
Kimi 开源代码模型 K2.7-Code,多项基准飙升 20-30%
Kimi 发布并开源最新代码模型 Kimi-K2.7-Code。相比 K2.6,Kimi Code Bench v2 提升 +21.8%,Program Bench 提升 +11.0%,MLS Bench Lite 提升 +31.5%。推理效率改进—推理 token 用量降低 30%,长时编码任务中指令遵循和端到端成功率均提升。6x 高速模式即将推出。
01 🔬 学术突破
HYDRA-X:首个统一图像与视频 tokenization 的统一多模态模型
说实话这个方向卷了很久了,但 HYDRA-X 是第一个真正在单个 ViT 里把图像和视频 tokenization 统一起来的。采用帧级因果时间注意力实现视觉重建,层级时间压缩替代了传统的单步压缩。7B 密集模型在图像与视频理解及生成任务上表现强劲,编辑管线中源-目标交互在分词器内部潜在层面进行,编辑一致性和收敛速度都更好了。
MiniMax Sparse Attention(MSA):1M 上下文下计算减少 28.4 倍
MiniMax 提出的块状稀疏注意力 MSA,基于 GQA 构建。轻量级 Index Branch 为每个 GQA 组独立选择 Top-k KV 块。在 109B 参数多模态模型上,MSA 与 GQA 性能持平,1M 上下文下每 token 注意力计算减少 28.4 倍。配合协同设计的 GPU 内核,H800 上实现 14.2 倍 prefill 和 7.6 倍 decoding 端到端加速。
EurekAgent:不到 11 美元发现新的 26 圆填充结果
EurekAgent 是一个环境工程化的 LLM 智能体系统,专为度量驱动的自主科学发现设计。从权限工程、产物工程、预算工程和人在回路工程四个维度构建执行环境。在数学、内核工程和机器学习任务上取得新 SOTA——以不到 11 美元 总 API 成本发现新的 26 圆填充结果。代码已开源。
WEAVER:机器人操作世界模型,政策改进成功率提升 38%
WEAVER 是一种多视图世界模型架构,通过流匹配损失训练预测未来潜变量和奖励值。在机器人操作任务上,政策评估中与真实成功率的相关系数 ρ=0.870,在 π0.5 基础模型基础上实现政策改进成功率提升 38%,速度比先前世界模型快 5-10 倍。代码、模型和视频已开源。
02 💼 商业动态
Prometheus 融资 120 亿美元,估值 410 亿美元,定位「人工通用工程师」
这操作放电影里都算离谱。杰夫·贝佐斯旗下 AI 公司 Prometheus 在成立仅 7 个月、尚无任何产品交付的情况下,以 410 亿美元 估值完成 120 亿美元 融资(最初估值才 62 亿美元)。定位「人工通用工程师」,目标是把设计到制造的循环压缩 10 倍。更狠的是——计划斥资 1000 亿美元 收购传统工业企业,用工厂数据构建护城河。没产品先烧一千亿买数据,这打法也就贝佐斯玩得起。
OpenAI 将收购 Ona,为企业 AI 智能体提供云端环境
OpenAI 计划收购 Ona,以拓展 Codex 的功能,提供安全、持久的云端环境,从而支持企业工作流中长时间运行的 AI 智能体。
Anthropic 与 DXC 达成全球联盟,数万名工程师获 Claude 认证
Anthropic 与 IT 服务公司 DXC Technology 达成多年全球联盟。DXC 将培训数万名获得 Claude 认证的前沿部署工程师(FDE),将 Claude 引入其为全球大型银行、航空公司、保险公司及政府机构运营的关键系统。内部部署中,Claude 已成为 DXC OASIS 平台的默认基础模型,该平台超 95% 代码由 Claude 编写,开发速度提升 10 倍。
BBVA 将 ChatGPT Enterprise 推广至 10 万名员工
BBVA 将 ChatGPT Enterprise 推广至 10 万名 员工,并与 OpenAI 达成合作,加速全球银行业 AI 驱动的转型。
03 🤖 模型与工具
字节豆包上线「任务模式」:定时执行、自动生成网页和 PPT
讲真,字节这波迭代速度有点快。6 月 12 日豆包大范围上线「任务模式」,支持定时执行、零代码网页生成、一键 PPT 生成、数据可视化分析——全链路 Agent 执行,不用你盯着。原「思考模式」升级为「专家模式」,调用 2.0 Pro 版本强化深度推理。App 顶部切换变为「快速、专家、任务」三档。基础免费,专业版最高 500 元/月。
xAI 推出 Grok Build Plugin Marketplace
xAI 发布 Grok Build 内置插件市场。插件将技能、斜杠命令、AI 智能体、钩子、MCP 服务器和 LSP 打包为可安装包,用户无需离开终端即可浏览、安装和更新。首发合作伙伴包括 MongoDB、Vercel、Sentry、Chrome DevTools、Cloudflare 和 Superpowers。
Gemini Omni Flash 视频任务达 SOTA
Gemini Omni Flash 在图像到视频、文本到视频和视频编辑方面达到 SOTA,即将通过 API 开放给开发者。
Perplexity Computer 集成 Deep Research
Perplexity 将 Deep Research 作为原生技能集成到 Computer 中,连接到驱动 Computer 的智能体框架,可访问搜索即代码生成、长运行沙箱、连接器、工具和授权数据。Pro 和 Max 订阅者已可用。
Cursor 推出 Auto-review:分类器智能体管控自身权限
Cursor 推出 Auto-review,通过一个专门的分类器智能体在工具调用前审查动作风险。分类器根据上下文判断动作是否与用户意图一致,高风险时阻止并返回解释给父智能体,低风险时放行。分类器采用小模型,运行在智能体循环内以避免额外延迟。
Codex 推出浏览器开发者模式 + 速率重置攒存
Codex 引入 Chrome DevTools 协议(CDP)来调试浏览器问题,可分析 JavaScript 性能、检查控制台输出、网络流量和页面状态。同时推出速率限制重置攒存功能,从 Go、Plus、Pro 和 Business 用户开始,每人提供一次免费重置。
Krea 2 推出生成式滑块:控制图像强度、复杂度和运动
Krea 2 推出生成式滑块,用户可控制生成的任何图像的强度、复杂度和运动。
Replit 与 Databricks 集成升级 + 自定义指令功能
Replit 与 Databricks 集成升级至公开预览,构建应用时每个用户只看到他们应该看到的内容。同时 Replit Agent 新增自定义指令与技能功能,让 Agent 学会用户的偏好和品牌指南,每个项目自动遵循。
OpenRouter 基准探索器上线:10 项帕累托曲线
OpenRouter 推出基准探索器,为 10 个不同基准绘制帕累托曲线,帮助开发者直观对比模型性能。
04 📡 行业动态
全自主无人机首次击毙人类士兵
这条看得人后背发凉。据《新科学家》6 月 10 日报道,全自主无人机首次击毙了人类士兵。不是遥控操作,不是人类扣的扳机——是机器自己做了决定。这是有记录以来第一次由完全自主运行的无人机执行致命攻击。
研究模拟:LLM 在 95% 的模拟中会使用战术核武器
倒吸一口凉气——一项模拟研究显示,大型语言模型在 95% 的模拟场景中会选择使用战术核武器。虽然没公布具体模型和版本,但这数字本身就够让人睡不着觉了。
Anthropic 首次公众调查:近半美国人盼 AI 治愈疾病,超六成担忧失业
Anthropic 对近 5.2 万 美国人调查显示:48% 将治愈癌症等疾病列为首要期望,36% 希望 AI 帮助残障人士。64% 担忧 AI 导致失业,56% 担忧认知依赖,52% 担忧信息误导。超 70% 支持政府监管,仅 15% 信任 AI 公司决策。
苹果 iOS 27 健康 App 大改:营养识别、围绝经期追踪
苹果在 iOS 27 中优化健康 App,将列表改为卡片布局。新增视觉智能营养识别,用户通过相机拍摄食物可获取加工程度、蛋白质、含糖量等信息及营养价值评级。经期追踪扩展支持围绝经期。Fitness+ 新增围绝经期课程。
05 💡 观点与技巧
OpenAI 推出新 Academy 课程:掌握实用 AI 技能与智能体工作流
OpenAI 发布三门 Academy 课程,帮助用户掌握实用 AI 技能、创建可重复工作流,并在日常工作中应用 AI 智能体。
Spec 驱动开发(SDD):三个 Skills 覆盖 Spec→Implement→Verify 闭环
邵猛分享 SDD 方法,用三个 Skills(/write-product-spec、/write-tech-spec、/validate-changes-match-specs)覆盖完整闭环。规格分两层:PRODUCT.md(用户故事、不变量)和 TECH.md(架构、实现策略),均放在 specs/ 目录。Skills 可移植,不绑定 Warp,开源仓库 warpdotdev/common-skills。
什么才是 LLM 网关?应用与 AI 模型之间缺失的一层
缺少 LLM 网关时,供应商中断直接变成用户可见错误,AI 支出也难以追踪。OpenRouter 从路由、合规性和设置时间三个维度比较了最佳方案。
Codex Goal 指令 Skill 发布:一句话需求转目标
针对如何给 Codex 写 Goal 指令的问题,开发者发布了一个 Skill,可将一句话需求自动转化为目标,实现「睡前写指令、模型自动开发、第二天收菜」。安装命令:`npx skills add joeseesun/qiaomu-goal-meta-skill`,源码免费开源。
> 感谢浏览,欢迎点赞评论加关注❤️,明天见👋
夜雨聆风