每周AI看啥 6.1 - 6.7|AI 开始给自己立规矩了

昨天，GitHub Spec Kit 成了上了热搜。它做的事不酷：先写清产品规格，再让 AI 去编码。

但放回过去这一周，这个动作刚好踩中了 AI 圈的主线。

AI 不再只比谁能一口气生成更多内容。更现实的问题变成了：任务开始前有没有规格，跑起来后有没有账单，拿到权限后有没有边界，长期使用时它到底记住了你什么。

这一周的热闹，表面是模型、工具和融资。落到普通用户、开发者和团队身上，其实是 AI 从“能干活”进入“要被管理”的阶段。

🚀 快讯速览

GitHub 开源 Spec Kit，把 AI 编码流程改成 Spec -> Plan -> Tasks -> Implement，支持 Copilot、Codex、Claude、Gemini 等 30 个集成。
Claude Code 上线 dynamic workflows，可以在任务中临时组织多智能体工作流，适合代码迁移、安全分析和长任务审查。
OpenAI 前沿模型和 Codex 正式进入 AWS，企业可通过 Bedrock、GovCloud、采购和治理流程部署。
Google 发布 Colab CLI，让本地终端和 AI Agent 直接调用远程 Colab GPU / TPU 运行脚本。
MiniMax M3 发布，主打 100 万 token 上下文、原生多模态和 Agent 编码，官方称 SWE-Bench Pro 得分 59.0%。
OpenAI 推出 ChatGPT Dreaming 新记忆系统，美国 Plus / Pro 先开，Free 和 Go 用户将在接下来几周逐步获得。5倍成本下降背后：OpenAI为什么敢把Dreaming V3下放给免费用户？
Cloudflare AI Gateway 加入花费上限，企业可以按模型、提供商、用户、团队或应用给 AI 请求设预算。
Anthropic 报告分析 832 个恶意 AI 账户，67.3% 用于编写恶意软件，并称攻击者正把 AI 用到更深的入侵阶段。
Anthropic 扩展 Project Glasswing 到约 150 个新组织，此前伙伴已发现超过 1 万个高危或严重漏洞。
OpenCV 5.0 发布，重写 DNN 引擎，ONNX 覆盖率超过 80%，开始原生支持 Transformer、VLM 和 LLM。

📊 深度解读

01｜AI 编程开始补“开工前的规矩”

过去一年，AI 编程最容易被包装成一句话：说需求，出代码。

Spec Kit 这周火起来，恰好是对这句话的修正。

它不是让 AI 更会写代码，而是把“写之前先说清楚”变成流程。先定义产品规格，再做技术计划，再拆任务，然后交给 Agent 实现。每一步都留下 Markdown 文件，变成下一步的上下文。

这对开发者很实用。很多 AI 返工，不是模型不会写，而是需求没有边界，错误路径被它一路执行下去了。

Claude Code dynamic workflows 也是同一个方向。复杂任务里，Claude 可以临时生成工作流，拉起子智能体，各自带独立上下文去做研究、审查或迁移。官方也提醒，这类任务更耗 token，适合高价值复杂任务。

GitHub Copilot App 则把多个 Agent 会话放到一个桌面控制台里，每个会话跑在独立 worktree。听起来像产品细节，但它解决的是同一个问题：AI 干活越多，人越需要看到它在做什么、改了什么、哪里需要人判断。

AI 编程这一周的变化，不是“让提示词更玄”，而是把软件工程里那些老东西捡回来：规格、任务拆分、隔离环境、审查记录。

02｜个人 AI 开始长期记住你

OpenAI 在 6 月 4 日推出 ChatGPT Dreaming 新记忆系统。

它的变化不是多存几条“我喜欢什么”，而是在后台把旧对话、保存记忆和偏好合成更及时的记忆状态。OpenAI 举的例子很直观：系统可以把“你 7 月要去新加坡”更新成“你 2026 年 7 月去过新加坡”。

对普通用户来说，影响很直接。

你让它继续写一个项目方案，它可能不用你从头解释背景。你让它推荐工具，它可能记得你之前说过预算、设备和口吻。你让它整理资料，它可能知道你上次卡在哪一步。

但方便的另一面，是边界变得更细。

OpenAI 说用户可以查看 memory summary，也可以调整、删除或控制记忆来源。这个入口以后会很关键。因为一个长期记住你的助手，已经不只是聊天框，更像私人工作台。

如果只是问天气、翻译句子，记忆没那么重要。可一旦你每天用它写方案、做项目、读邮件、整理文件，迁移成本就会慢慢出现。

03｜AI 账单终于开始被产品化

Cloudflare 这周的 AI Gateway 花费上限，是很典型的信号。

它不是再发一个模型，而是承认企业已经遇到一个现实问题：大家都在用 AI，但月底没人说得清是谁烧掉了预算。

新功能允许按模型、提供商、自定义用户、团队或应用设美元预算。超出预算后，可以直接拦截请求，也可以自动切到更便宜的模型。

这件事和 Google Colab CLI、OpenAI 上 AWS 放在一起看，更清楚。

AI 正在进入企业原有的运行环境。开发者希望 Agent 可以调远程 GPU，企业希望模型进入已有采购、权限和审计流程，财务希望看见每个人、每个 Agent、每个模型到底花了多少钱。

上一阶段大家问的是“能不能用最强模型”。现在会多一个问题：这件事有没有必要用最贵模型。

MiniMax M3 也在打同一张牌。官方说它在 100 万 token 上下文下，每 token 计算成本只有上一代的 1/20，预填充速度提升 9 倍以上，解码提升 15 倍以上。

Agent 任务越长，成本差异越刺眼。以后团队选模型，不只看榜单，还要看一次完整任务跑完要花多少、失败重跑几次、能不能自动降级。

04｜安全问题从“找漏洞”变成“管住 Agent”

Anthropic 这一周连续给了两个安全信号。

一份报告分析了 2025 年 3 月到 2026 年 3 月被封禁的 832 个恶意账户。最常见用途是写恶意软件，560 个账户涉及这一类，占 67.3%。更麻烦的是，AI 的使用正在从钓鱼、写脚本这类入口任务，走向账号发现、横向移动、权限提升等更深的入侵阶段。

另一边，Project Glasswing 从约 50 个初始伙伴扩展到约 150 个新组织。Anthropic 说，早期伙伴已经用 Mythos Preview 找出超过 1 万个高危或严重漏洞。

好消息是，AI 确实能帮防守方更快发现问题。

坏消息是，漏洞被发现之后，还要验证、披露、修补、上线。安全团队不是少干活，而是工作入口突然变多。

这也解释了为什么本周很多工具都在讲隔离、审计、预算和权限。Agent 一旦能读文件、跑命令、连远程服务，它就不再是“问答助手”，而是一段会行动的软件。

让它进生产环境前，团队要先回答三个问题：它能读什么，能写什么，出了错谁能停掉它。

📈 趋势观察

这一周可以压成三个词：规格、记忆、预算。

规格，是给 AI 干活前的轨道。没有清楚规格，Agent 越努力，返工越贵。

记忆，是把聊天工具变成长期助手的黏性。它越懂你，你越需要能检查它到底记了什么。

预算，是 AI 进入真实组织后的约束。以前大家怕模型不够强，现在开始怕强模型被随手乱用。

所以接下来别只盯“谁又强了几分”。

更值得盯的是：谁能把任务边界说清，谁能把长期上下文管好，谁能把成本和权限锁住。

如果这三件事做不到，AI 再能干，也很难放心放进核心流程。

以上就是今天的内容。我们会在 「AI小集市」持续分享AI与开源库的前沿应用。如果你对今天的内容感兴趣，点击关注，每天第一时间获取最新技术动态。

更多往期精选：

5倍成本下降背后：OpenAI为什么敢把Dreaming V3下放给免费用户？

ZEC 一天跌掉三成：一个修好的漏洞，为什么还让市场慌了

8 万 Star 的 MoneyPrinterTurbo，想把短视频生产线塞进一个开源项目