AI前沿日报 06.06|Supabase成vibe coding后端,Google为Gemini Enterprise租算力

AI前沿日报 06.06｜Supabase成vibe coding后端，Google为Gemini Enterprise租算力

01 今日速览

Supabase 完成 5 亿美元 Series F 融资，投前估值达到 100 亿美元。更值得拆的是产品数据：过去一年，Supabase 上数据库创建量增长超过 600%，其中超过 60% 来自某种 AI 工具；开发者用户接近 1000 万。Vibe coding 让更多人能生成应用，但应用真正跑起来，还要有数据库、鉴权、存储、备份和扩展能力。

Google 将向 SpaceX 支付每月 9.2 亿美元，从 2026 年 10 月到 2029 年 6 月租用约 11 万颗 NVIDIA GPU 及相关 CPU、内存和组件。Google 对外解释为 Gemini Enterprise Agent 平台需求高于预期，需要短期桥接算力。Agent 平台的产品体验不只取决于模型，也取决于能不能稳定给企业客户分配算力。

据 TechCrunch 转述 FT 报道，Anthropic 已派出约半打工程师协助 NSA 使用 Mythos 网络安全模型。Mythos 此前已经因为漏洞发现能力受到关注，现在开始进入政府网络安全场景。安全模型的产品边界会比普通代码模型更敏感，因为它既能帮防守方找漏洞，也可能帮攻击方找攻击面。

GitHub 正式介绍 Copilot 桌面 App，定位为 agent-native desktop experience。它把多个 Copilot Agent 会话、工作区、代码任务和后台自动化放到一个桌面入口里。AI Coding 正在从“编辑器里补代码”变成“多个 Agent 并行处理任务，开发者在一个控制台里管理”。

GitHub 今日趋势中，NousResearch 的 hermes-agent 继续升温。它强调内置学习循环：从经验中生成 skills、在使用中改进、主动保存知识、检索过去对话，并能部署在 VPS、GPU 集群或 serverless 环境中。Agent 产品开始把“会学习”从模型训练层拉到应用运行层。

Hugging Face 本周论文榜中，Crafter、COLLEAGUE.SKILL、GrepSeek、Harness-1、KVarN、SANA-Streaming 值得拆。它们分别对应科学图表生成、专家经验转 skill、搜索 Agent 直接操作语料库、搜索状态外置、KV Cache 量化和实时视频编辑。

国内方面，MiniMax M3 近期披露的技术路线继续围绕长上下文和 Agent 训练展开。M3 引入 MSA 架构，把上下文窗口提升到 100 万词元，并在编程和智能体训练中加入交互式用户模拟器，让模型在训练阶段接触更接近真实协作的反馈。

02 海外新产品 / 新业态

1. Supabase：vibe coding 让前端变快，后端反而成了新入口

Supabase 这轮融资本身不是重点。真正的产品信号在使用数据：数据库创建量一年增长超过 600%，超过 60% 的新数据库由 AI 工具触发，开发者用户接近 1000 万。Claude Code、Codex、Bolt、Figma、Lovable、Replit 这些工具都在把更多人带进“用自然语言生成应用”的流程。

Vibe coding 改变的是应用创建门槛。过去做一个产品原型，需要懂前端、后端、数据库、鉴权、部署。现在用户可以让 AI 先生成页面和逻辑，但应用只要从 demo 走向真实用户，就会立刻碰到后端问题：用户注册、权限、数据表、文件上传、读写性能、备份、扩展、连接数限制。

Supabase 抓住的是这个断层。它不是一个“AI 应用生成器”，而是 AI 应用生成之后最需要的后端底座。AI 帮用户生成页面后，需要一个地方存数据、管用户、跑边缘函数、处理 API。Supabase 的产品位置从“开源 Firebase 替代品”变成“vibe-coded apps 的默认后端”。

它新推出的 Multigres 也说明这个方向。Postgres 很强，但应用增长后会出现读副本、故障切换、连接限制、备份、扩容等维护问题。Multigres 被描述为 Postgres 的操作系统，目标是把这些复杂运维任务集中管理。也就是说，Supabase 不只是让新手启动数据库，更想在应用长大后继续留住用户。

这条线给 AI 产品一个很现实的提醒：AI 生成应用会扩大应用数量，但不会消灭后端复杂性。前端和原型变得便宜之后，新的瓶颈会出现在数据、权限、部署和运维。谁能把这些脏活做简单，谁就能吃到 AI 应用爆发后的基础设施需求。

2. Google 向 SpaceX 租算力：企业 Agent 平台的产品承诺要靠算力兑现

Google 与 SpaceX 的算力协议金额很大，但产品层面的关键信息是 Google 对外解释：Gemini Enterprise Agent 平台需求高于预期，需要短期桥接容量。协议覆盖约 11 万颗 NVIDIA GPU 及相关 CPU、内存和组件，时间从 2026 年 10 月到 2029 年 6 月。

Gemini Enterprise 这类平台卖的不是单次问答，而是企业工作流里的 Agent 能力。企业客户会让 Agent 查资料、读文档、生成报告、调用工具、跑长任务。一次任务可能不是一轮对话，而是几百次工具调用和大量上下文读取。用量上来以后，产品体验直接受算力约束。

对用户来说，算力不足表现为很具体的问题：额度被压缩，响应变慢，高峰时不可用，长任务中断，团队无法稳定部署。企业不会把核心流程交给一个“今天能跑、明天排队”的系统。Google 租外部算力，说明 Agent 平台要稳定交付，必须提前锁定容量。

这里也能看到 AI 产品和传统 SaaS 的差别。传统 SaaS 扩容主要是数据库、服务器、存储和带宽；AI Agent 还要考虑推理算力、上下文长度、模型并发、工具调用和缓存。产品经理设计一个 Agent 工作流时，不能只画用户路径，还要算这个路径会烧多少 token、占多少 GPU 时间、能不能在高峰期稳定跑完。

3. GitHub Copilot 桌面 App：代码 Agent 需要一个任务控制台

GitHub Copilot 桌面 App 的产品定位是 agent-native desktop experience。它不是另一个编辑器插件，而是把多个 Copilot Agent 会话、issues、pull requests、后台任务和工作区放在一个桌面入口里。

AI Coding 早期是补全。后来是聊天和代码修改。现在开始进入并行 Agent 阶段：一个 Agent 修 bug，一个 Agent 补测试，一个 Agent 改文档，一个 Agent 升级依赖。开发者面对的问题不再是“AI 会不会写代码”，而是“我怎么管理这些同时工作的 Agent”。

桌面 App 解决的是协调问题。多个 Agent 如果都在同一个仓库里工作，就需要隔离环境、独立分支、状态面板、冲突提醒、代码审查和合并规则。否则并行工作会变成并行制造冲突。

GitHub 的优势在于它直接站在代码协作系统上。Agent 生成的结果最终要变成 PR，要跑 CI，要过 review，要合并进主分支。把 Agent 控制台放在 GitHub 工作流旁边，比单独做一个聊天框更接近开发者真实流程。

这类产品也会改变 AI Coding 的收费和评估方式。以后团队可能不会问“每个开发者有几个 AI 席位”，而是问“每个项目同时跑几个 Agent、每个任务消耗多少 credits、每个 PR 是否通过测试、Agent 造成了多少返工”。

4. Anthropic Mythos 进入政府网络安全场景：安全模型的权限会越来越细

据报道，Anthropic 派出约半打工程师协助 NSA 使用 Mythos 网络安全模型。Mythos 此前的公开叙事集中在漏洞发现、防守辅助和高风险能力限制。进入政府网络安全场景后，它的产品边界更复杂。

网络安全模型和普通代码模型不同。普通代码模型写错代码，最多造成工程返工；网络安全模型如果能力足够强，既能帮防守方发现漏洞，也能帮助攻击者定位可利用路径。模型能力越强，客户准入、使用范围、审计日志和人工审批就越关键。

Mythos 这类模型会逼出一套更细的安全产品结构。不是所有用户都能调用所有能力，不是所有任务都能自动执行。产品要区分代码审计、漏洞验证、攻击路径模拟、补丁建议、红队测试、真实网络操作。不同能力对应不同权限、不同审批、不同日志保留。

安全 AI 的商业化不会像普通 SaaS 一样简单开放试用。真正的客户可能是云厂商、政府、银行、大型软件公司、安全团队。产品价值在于缩短漏洞发现和验证时间，但产品风险也来自同一个地方：它太会找问题。

03 新技术 / 技术底座

1. Crafter：科学图表生成不能只出图，还要能编辑

Crafter 是一个多 Agent 系统，用于从多种输入生成可编辑的科学图表。论文同时提出 CraftEditor，把栅格图转换成可编辑 SVG。SVG 是矢量图格式，图中的线、箭头、文字、图例和元素可以被单独修改。

科学图表和普通图片不一样。论文里的机制图、流程图、实验示意、架构图，通常由很多结构化元素组成。一个箭头方向错了，一个标签位置偏了，一个模块颜色不对，都需要局部修改。传统图像生成模型生成一张漂亮图片后，如果不能精确编辑，就很难进入论文和科研工作流。

Crafter 的产品意义在“可改”。研究者不需要一个一次性生成的图，而需要一个可以继续改的图。比如根据审稿意见改标签，根据新实验结果改流程，根据期刊格式调整布局。多 Agent harness 的作用，是把图表生成拆成规划、生成、检查、编辑几个环节，而不是让一个模型一次性赌对。

这类技术会进入科研写作工具、教育图解工具、技术文档、企业白皮书和产品说明图。未来图像生成产品要区分“灵感图”和“交付图”。灵感图只要好看，交付图必须可编辑、可复核、可导出。

2. COLLEAGUE.SKILL：把专家工作痕迹蒸馏成可安装的 Agent skill

COLLEAGUE.SKILL 研究的是自动生成 AI skills。它从某个人或某个岗位的材料中提炼技能包，分成两条轨道：capability track 记录实践方法、判断规则和决策经验；behavior track 记录沟通风格、互动规则和修正历史。

skill 可以理解成给 Agent 的任务说明书。但很多真实技能并没有写成说明书，而是散在文档、邮件、会议、代码评论、工作流和历史交付物里。一个资深销售怎么判断客户，一个投研分析师怎么写报告，一个工程经理怎么做代码 review，这些经验通常不在一份干净的 SOP 里。

COLLEAGUE.SKILL 的方向是把这些痕迹变成可检查、可修改、可回滚、可安装的 skill package。它不是把一个人的风格神秘地塞进 prompt，而是把能力、行为、版本和修正流程拆出来。

这类技术对应的产品形态很清楚：岗位 Agent 不必从零学习企业流程，而是可以从专家样本中生成初始 skill。销售、客服、法务、投研、HR、工程管理都可以把最佳实践沉淀成可复用技能包。产品难点在质量控制：生成的 skill 是否正确，是否过期，是否带入了个人偏见，谁有权限修改和分发。

3. GrepSeek 与 Harness-1：搜索 Agent 要学会管理证据，而不是只会发查询

GrepSeek 训练搜索 Agent 直接和语料库交互。它不依赖预先构建好的向量索引，而是让 Agent 用 shell 命令在文本语料中查找、过滤和组合证据。shell 命令可以理解成命令行里的搜索和处理工具，比如查某个关键词、筛某类行、组合多个结果。

这条路线适合一些需要精确文本定位的场景。比如代码库、日志、法规、合同、论文语料。向量检索擅长找语义相近内容，但有时会错过精确字符串、版本号、函数名、条款编号。直接操作语料库的搜索 Agent，更像一个会用 grep、awk、管道命令的研究助理。

Harness-1 则从另一个角度解决搜索 Agent 问题。它把候选文档、已选证据、验证记录、压缩观察和预算控制放到外部 harness 里，让模型专心做语义决策：查什么、保留什么、验证什么、什么时候停止。

这两个方向可以放在一起看。搜索 Agent 的关键不只是“调用搜索工具”，而是管理搜索状态。它要知道自己查过什么，哪些证据可信，哪些结论还没验证，哪些信息已经重复。把这些都塞进不断增长的聊天记录，会让模型越来越乱。外部搜索工作台会成为 Deep Research 类产品的底层组件。

4. KVarN：长推理和长任务的成本卡在 KV Cache 上

KVarN 研究 KV Cache 量化。KV Cache 可以理解成模型在生成过程中保存的历史计算结果。长对话、长文档、代码库分析、Agent 多步推理都会让 KV Cache 越来越大，显存压力随之上升。

量化就是用更低精度存这些计算结果，减少内存占用。问题是，长程自回归生成里，量化误差会随着时间累积。模型越生成越长，前面缓存里的误差会持续影响后面输出。KVarN 的做法是通过旋转和方差归一化，减少 token scale 错误，在 2-bit 精度下仍保持推理任务表现。

产品上，这类技术会影响长上下文 Agent 的成本。一个研究 Agent 要读几十份材料，一个代码 Agent 要跑几小时，一个客服 Agent 要记住整段客户历史，背后都会占用大量 KV Cache。缓存压得更小，长任务就更便宜、更容易并发。

这不是用户直接看到的功能，但会反映到产品体验里：更长上下文、更低延迟、更低价格、更少因为上下文太长而截断。Agent 产品能不能规模化，很多时候取决于这些看不见的推理系统优化。

5. SANA-Streaming：视频生成开始向实时编辑工具靠近

SANA-Streaming 研究实时视频到视频编辑。它要解决的不是“一次生成一段视频”，而是让用户在直播、游戏、创作工具里边看边改。论文称，该系统能在单张 RTX 5090 上实现 1280×704 分辨率、24 FPS 的端到端实时编辑。

普通 AI 视频工具更像抽卡：输入提示词，等结果，不满意再来。实时视频编辑要求模型在连续视频流中保持时间一致性，不能上一帧风格对，下一帧人物变形；也要有足够吞吐，不能用户动一下等几秒。

这类技术对应的是新一代创作工具。直播特效、游戏画面风格化、虚拟拍摄、视频会议背景、短视频实时后期，都需要低延迟。视频模型如果只能离线生成，就更适合素材生产；如果能实时编辑，就能进入交互式创作和消费级工具。

产品边界在算力和稳定性。RTX 5090 上实时运行，不代表普通用户设备都能跑；24 FPS 能做很多创作场景，但商业级直播、移动端、多人互动还要继续优化。视频模型产品化会从“画面质量”继续走向“延迟、可控性和编辑体验”。

04 开发者生态 / 开源项目

1. hermes-agent：Agent 应用开始把学习循环做进产品运行时

NousResearch 的 hermes-agent 标语是 “The agent that grows with you”。它强调内置学习循环：从经验中创建 skills，在使用中改进它们，主动保存知识，检索过去对话，并逐步建立对用户的长期模型。它可以跑在 5 美元 VPS、GPU 集群或空闲时几乎不产生费用的 serverless 基础设施上，也可以通过 Telegram 远程交互。

这个项目抓住的是 Agent 产品里的一个关键问题：用户不想每次从零教它。一个个人 Agent 如果今天帮你整理工作流，明天又完全忘记昨天的偏好，它就很难成为长期工具。学习循环的目标是把每次使用变成下次使用的资产。

它和普通 memory 插件的区别在于，不只是保存对话，还会生成 skills。比如用户反复让它按某种格式整理会议纪要，系统可以把这个流程变成技能；用户多次纠正某类搜索方式，系统可以调整后续策略。Agent 应用的积累不只在数据，也在流程。

这类产品的边界同样在可控学习。Agent 自动学习如果不透明，就会把错误习惯、过期偏好、敏感信息也长期保存。好的学习型 Agent 要让用户看到它学了什么、能修改什么、能删除什么、什么时候不要学。

2. Copilot SDK 与桌面 App：开发者工具开始争夺 Agent 编排层

GitHub Copilot SDK 已经进入一般可用状态，开发者可以把 GitHub Copilot 背后的 agentic engine 嵌入自己的应用、服务和开发者工具。它提供规划、工具调用、文件编辑、流式输出和多轮会话能力。

这说明 GitHub 不只想让 Copilot 留在编辑器里，也想把 Copilot 的 Agent runtime 开放成底层能力。开发者不必自己从零做任务规划、工具调用、文件修改和多轮上下文管理，可以直接接入一套成熟运行时。

桌面 App 和 SDK 是一前一后。桌面 App 给终端用户一个管理多个 Agent 的入口；SDK 给开发者一个把 Agent 嵌入自己产品的接口。前者管使用体验，后者管生态扩张。

Agent 产品的竞争会逐步从模型层下沉到运行时和编排层。谁掌握任务规划、文件修改、沙箱、权限、工具调用、上下文管理，谁就更容易成为开发者工作流的一部分。模型可以换，运行时一旦接进项目和团队流程，迁移成本会更高。

3. Supabase 与 Multigres：AI 应用生成越快，Postgres 运维越要产品化

Supabase 推出 Multigres，想把 Postgres 运行复杂度封装成更高层的操作系统。AI 工具让更多人生成应用，但这些应用一旦有用户，就会面对数据库连接、读副本、故障切换、备份、性能和扩容。

这类基础设施过去主要服务专业后端工程师。现在 AI 把更多非传统开发者带进应用创建，后端工具也必须变得更可理解、更自动化。一个 vibe-coded 应用的作者可能知道自己要什么产品，但不一定懂连接池、failover、replica lag。

Multigres 的产品方向是把数据库运维从命令行和专家经验里抽出来，变成更中心化、更自动化的管理层。它服务的不是“玩票 demo”，而是 AI 生成应用继续长大后的稳定性。

开发者工具市场会出现一批类似变化。AI 让应用创建速度提升后，部署、监控、数据库、安全、账单、权限都会变成新的瓶颈。谁把这些后端复杂性藏好，谁就能承接 AI 应用生成后的第二阶段需求。

05 商业化落地 / 国内动态

1. MiniMax M3：长上下文和交互式训练开始围绕 Agent 任务重做

MiniMax M3 近期披露的技术路线集中在长上下文、推理效率和 Agent 训练。报道提到，M3 通过 MSA 架构把上下文窗口提升到 100 万词元，在 100 万上下文规模下，单词元计算量约为上一代的二十分之一；底层推理算子性能较主流开源方案提升 4 倍以上。

长上下文不是为了让用户一次塞更多文章，而是为了让 Agent 保留更完整的信息链路。代码仓库、长报告、多轮协作、复杂办公流程，都需要模型在一次任务里记住大量上下文。上下文越长，成本越容易失控；如果计算量不降，产品很难高频使用。

M3 在编程和智能体训练中引入交互式用户模拟器框架。这个点比普通 benchmark 更贴近产品。真实开发者不会只给模型一次性题目，而会不断补充要求、指出错误、要求修改、改变目标。让模型在训练阶段就接触这种互动，可以提升它处理真实协作任务的能力。

国内大模型竞争开始从“模型答题能力”转向“能不能支撑 Agent 产品”。长上下文、低成本推理、交互式训练、工具调用稳定性，都会直接决定代码 Agent、研究 Agent、办公 Agent 能不能从 demo 走向日常使用。

2. 新华语典被外媒关注：垂直内容 Agent 的产品价值在权威语料和分发

Reuters 关注新华网拟投入 11.22 亿元建设“新华语典”项目。这个项目已经在前几天披露过，定位为权威时政资讯智能体，服务党政机关、科研院所、高校和国有企事业单位，用于理论学习、政策研读、政务文稿和舆情研判。

这条国内产品的形态很典型：它不是和通用聊天模型比开放能力，而是围绕权威内容、特定用户和特定工作流做垂直 Agent。政务场景更关心来源、口径、合规和可追溯，不会只看模型是否“聪明”。

垂直内容 Agent 的壁垒不在 UI，而在数据和分发。新华网有权威语料和政企客户网络，产品天然不是从零获客。它要解决的是如何把内容库变成可查询、可引用、可生成文稿、可辅助研判的工作系统。

这种路径会在更多行业出现。法律、医学、金融、工程、教育都需要垂直内容 Agent。通用模型提供底层能力，真正的产品差异来自高质量语料、权限体系、专业工作流和可信输出。