
AI前沿日报 06.06|Supabase成vibe coding后端,Google为Gemini Enterprise租算力
01 今日速览
Supabase 完成 5 亿美元 Series F 融资,投前估值达到 100 亿美元。更值得拆的是产品数据:过去一年,Supabase 上数据库创建量增长超过 600%,其中超过 60% 来自某种 AI 工具;开发者用户接近 1000 万。Vibe coding 让更多人能生成应用,但应用真正跑起来,还要有数据库、鉴权、存储、备份和扩展能力。
Google 将向 SpaceX 支付每月 9.2 亿美元,从 2026 年 10 月到 2029 年 6 月租用约 11 万颗 NVIDIA GPU 及相关 CPU、内存和组件。Google 对外解释为 Gemini Enterprise Agent 平台需求高于预期,需要短期桥接算力。Agent 平台的产品体验不只取决于模型,也取决于能不能稳定给企业客户分配算力。
据 TechCrunch 转述 FT 报道,Anthropic 已派出约半打工程师协助 NSA 使用 Mythos 网络安全模型。Mythos 此前已经因为漏洞发现能力受到关注,现在开始进入政府网络安全场景。安全模型的产品边界会比普通代码模型更敏感,因为它既能帮防守方找漏洞,也可能帮攻击方找攻击面。
GitHub 正式介绍 Copilot 桌面 App,定位为 agent-native desktop experience。它把多个 Copilot Agent 会话、工作区、代码任务和后台自动化放到一个桌面入口里。AI Coding 正在从“编辑器里补代码”变成“多个 Agent 并行处理任务,开发者在一个控制台里管理”。
GitHub 今日趋势中,NousResearch 的 hermes-agent 继续升温。它强调内置学习循环:从经验中生成 skills、在使用中改进、主动保存知识、检索过去对话,并能部署在 VPS、GPU 集群或 serverless 环境中。Agent 产品开始把“会学习”从模型训练层拉到应用运行层。
Hugging Face 本周论文榜中,Crafter、COLLEAGUE.SKILL、GrepSeek、Harness-1、KVarN、SANA-Streaming 值得拆。它们分别对应科学图表生成、专家经验转 skill、搜索 Agent 直接操作语料库、搜索状态外置、KV Cache 量化和实时视频编辑。
国内方面,MiniMax M3 近期披露的技术路线继续围绕长上下文和 Agent 训练展开。M3 引入 MSA 架构,把上下文窗口提升到 100 万词元,并在编程和智能体训练中加入交互式用户模拟器,让模型在训练阶段接触更接近真实协作的反馈。
02 海外新产品 / 新业态
1. Supabase:vibe coding 让前端变快,后端反而成了新入口
Supabase 这轮融资本身不是重点。真正的产品信号在使用数据:数据库创建量一年增长超过 600%,超过 60% 的新数据库由 AI 工具触发,开发者用户接近 1000 万。Claude Code、Codex、Bolt、Figma、Lovable、Replit 这些工具都在把更多人带进“用自然语言生成应用”的流程。
Vibe coding 改变的是应用创建门槛。过去做一个产品原型,需要懂前端、后端、数据库、鉴权、部署。现在用户可以让 AI 先生成页面和逻辑,但应用只要从 demo 走向真实用户,就会立刻碰到后端问题:用户注册、权限、数据表、文件上传、读写性能、备份、扩展、连接数限制。
Supabase 抓住的是这个断层。它不是一个“AI 应用生成器”,而是 AI 应用生成之后最需要的后端底座。AI 帮用户生成页面后,需要一个地方存数据、管用户、跑边缘函数、处理 API。Supabase 的产品位置从“开源 Firebase 替代品”变成“vibe-coded apps 的默认后端”。
它新推出的 Multigres 也说明这个方向。Postgres 很强,但应用增长后会出现读副本、故障切换、连接限制、备份、扩容等维护问题。Multigres 被描述为 Postgres 的操作系统,目标是把这些复杂运维任务集中管理。也就是说,Supabase 不只是让新手启动数据库,更想在应用长大后继续留住用户。
这条线给 AI 产品一个很现实的提醒:AI 生成应用会扩大应用数量,但不会消灭后端复杂性。前端和原型变得便宜之后,新的瓶颈会出现在数据、权限、部署和运维。谁能把这些脏活做简单,谁就能吃到 AI 应用爆发后的基础设施需求。
2. Google 向 SpaceX 租算力:企业 Agent 平台的产品承诺要靠算力兑现
Google 与 SpaceX 的算力协议金额很大,但产品层面的关键信息是 Google 对外解释:Gemini Enterprise Agent 平台需求高于预期,需要短期桥接容量。协议覆盖约 11 万颗 NVIDIA GPU 及相关 CPU、内存和组件,时间从 2026 年 10 月到 2029 年 6 月。
Gemini Enterprise 这类平台卖的不是单次问答,而是企业工作流里的 Agent 能力。企业客户会让 Agent 查资料、读文档、生成报告、调用工具、跑长任务。一次任务可能不是一轮对话,而是几百次工具调用和大量上下文读取。用量上来以后,产品体验直接受算力约束。
对用户来说,算力不足表现为很具体的问题:额度被压缩,响应变慢,高峰时不可用,长任务中断,团队无法稳定部署。企业不会把核心流程交给一个“今天能跑、明天排队”的系统。Google 租外部算力,说明 Agent 平台要稳定交付,必须提前锁定容量。
这里也能看到 AI 产品和传统 SaaS 的差别。传统 SaaS 扩容主要是数据库、服务器、存储和带宽;AI Agent 还要考虑推理算力、上下文长度、模型并发、工具调用和缓存。产品经理设计一个 Agent 工作流时,不能只画用户路径,还要算这个路径会烧多少 token、占多少 GPU 时间、能不能在高峰期稳定跑完。
3. GitHub Copilot 桌面 App:代码 Agent 需要一个任务控制台
GitHub Copilot 桌面 App 的产品定位是 agent-native desktop experience。它不是另一个编辑器插件,而是把多个 Copilot Agent 会话、issues、pull requests、后台任务和工作区放在一个桌面入口里。
AI Coding 早期是补全。后来是聊天和代码修改。现在开始进入并行 Agent 阶段:一个 Agent 修 bug,一个 Agent 补测试,一个 Agent 改文档,一个 Agent 升级依赖。开发者面对的问题不再是“AI 会不会写代码”,而是“我怎么管理这些同时工作的 Agent”。
桌面 App 解决的是协调问题。多个 Agent 如果都在同一个仓库里工作,就需要隔离环境、独立分支、状态面板、冲突提醒、代码审查和合并规则。否则并行工作会变成并行制造冲突。
GitHub 的优势在于它直接站在代码协作系统上。Agent 生成的结果最终要变成 PR,要跑 CI,要过 review,要合并进主分支。把 Agent 控制台放在 GitHub 工作流旁边,比单独做一个聊天框更接近开发者真实流程。
这类产品也会改变 AI Coding 的收费和评估方式。以后团队可能不会问“每个开发者有几个 AI 席位”,而是问“每个项目同时跑几个 Agent、每个任务消耗多少 credits、每个 PR 是否通过测试、Agent 造成了多少返工”。
4. Anthropic Mythos 进入政府网络安全场景:安全模型的权限会越来越细
据报道,Anthropic 派出约半打工程师协助 NSA 使用 Mythos 网络安全模型。Mythos 此前的公开叙事集中在漏洞发现、防守辅助和高风险能力限制。进入政府网络安全场景后,它的产品边界更复杂。
网络安全模型和普通代码模型不同。普通代码模型写错代码,最多造成工程返工;网络安全模型如果能力足够强,既能帮防守方发现漏洞,也能帮助攻击者定位可利用路径。模型能力越强,客户准入、使用范围、审计日志和人工审批就越关键。
Mythos 这类模型会逼出一套更细的安全产品结构。不是所有用户都能调用所有能力,不是所有任务都能自动执行。产品要区分代码审计、漏洞验证、攻击路径模拟、补丁建议、红队测试、真实网络操作。不同能力对应不同权限、不同审批、不同日志保留。
安全 AI 的商业化不会像普通 SaaS 一样简单开放试用。真正的客户可能是云厂商、政府、银行、大型软件公司、安全团队。产品价值在于缩短漏洞发现和验证时间,但产品风险也来自同一个地方:它太会找问题。
03 新技术 / 技术底座
1. Crafter:科学图表生成不能只出图,还要能编辑
Crafter 是一个多 Agent 系统,用于从多种输入生成可编辑的科学图表。论文同时提出 CraftEditor,把栅格图转换成可编辑 SVG。SVG 是矢量图格式,图中的线、箭头、文字、图例和元素可以被单独修改。
科学图表和普通图片不一样。论文里的机制图、流程图、实验示意、架构图,通常由很多结构化元素组成。一个箭头方向错了,一个标签位置偏了,一个模块颜色不对,都需要局部修改。传统图像生成模型生成一张漂亮图片后,如果不能精确编辑,就很难进入论文和科研工作流。
Crafter 的产品意义在“可改”。研究者不需要一个一次性生成的图,而需要一个可以继续改的图。比如根据审稿意见改标签,根据新实验结果改流程,根据期刊格式调整布局。多 Agent harness 的作用,是把图表生成拆成规划、生成、检查、编辑几个环节,而不是让一个模型一次性赌对。
这类技术会进入科研写作工具、教育图解工具、技术文档、企业白皮书和产品说明图。未来图像生成产品要区分“灵感图”和“交付图”。灵感图只要好看,交付图必须可编辑、可复核、可导出。
2. COLLEAGUE.SKILL:把专家工作痕迹蒸馏成可安装的 Agent skill
COLLEAGUE.SKILL 研究的是自动生成 AI skills。它从某个人或某个岗位的材料中提炼技能包,分成两条轨道:capability track 记录实践方法、判断规则和决策经验;behavior track 记录沟通风格、互动规则和修正历史。
skill 可以理解成给 Agent 的任务说明书。但很多真实技能并没有写成说明书,而是散在文档、邮件、会议、代码评论、工作流和历史交付物里。一个资深销售怎么判断客户,一个投研分析师怎么写报告,一个工程经理怎么做代码 review,这些经验通常不在一份干净的 SOP 里。
COLLEAGUE.SKILL 的方向是把这些痕迹变成可检查、可修改、可回滚、可安装的 skill package。它不是把一个人的风格神秘地塞进 prompt,而是把能力、行为、版本和修正流程拆出来。
这类技术对应的产品形态很清楚:岗位 Agent 不必从零学习企业流程,而是可以从专家样本中生成初始 skill。销售、客服、法务、投研、HR、工程管理都可以把最佳实践沉淀成可复用技能包。产品难点在质量控制:生成的 skill 是否正确,是否过期,是否带入了个人偏见,谁有权限修改和分发。
3. GrepSeek 与 Harness-1:搜索 Agent 要学会管理证据,而不是只会发查询
GrepSeek 训练搜索 Agent 直接和语料库交互。它不依赖预先构建好的向量索引,而是让 Agent 用 shell 命令在文本语料中查找、过滤和组合证据。shell 命令可以理解成命令行里的搜索和处理工具,比如查某个关键词、筛某类行、组合多个结果。
这条路线适合一些需要精确文本定位的场景。比如代码库、日志、法规、合同、论文语料。向量检索擅长找语义相近内容,但有时会错过精确字符串、版本号、函数名、条款编号。直接操作语料库的搜索 Agent,更像一个会用 grep、awk、管道命令的研究助理。
Harness-1 则从另一个角度解决搜索 Agent 问题。它把候选文档、已选证据、验证记录、压缩观察和预算控制放到外部 harness 里,让模型专心做语义决策:查什么、保留什么、验证什么、什么时候停止。
这两个方向可以放在一起看。搜索 Agent 的关键不只是“调用搜索工具”,而是管理搜索状态。它要知道自己查过什么,哪些证据可信,哪些结论还没验证,哪些信息已经重复。把这些都塞进不断增长的聊天记录,会让模型越来越乱。外部搜索工作台会成为 Deep Research 类产品的底层组件。
4. KVarN:长推理和长任务的成本卡在 KV Cache 上
KVarN 研究 KV Cache 量化。KV Cache 可以理解成模型在生成过程中保存的历史计算结果。长对话、长文档、代码库分析、Agent 多步推理都会让 KV Cache 越来越大,显存压力随之上升。
量化就是用更低精度存这些计算结果,减少内存占用。问题是,长程自回归生成里,量化误差会随着时间累积。模型越生成越长,前面缓存里的误差会持续影响后面输出。KVarN 的做法是通过旋转和方差归一化,减少 token scale 错误,在 2-bit 精度下仍保持推理任务表现。
产品上,这类技术会影响长上下文 Agent 的成本。一个研究 Agent 要读几十份材料,一个代码 Agent 要跑几小时,一个客服 Agent 要记住整段客户历史,背后都会占用大量 KV Cache。缓存压得更小,长任务就更便宜、更容易并发。
这不是用户直接看到的功能,但会反映到产品体验里:更长上下文、更低延迟、更低价格、更少因为上下文太长而截断。Agent 产品能不能规模化,很多时候取决于这些看不见的推理系统优化。
5. SANA-Streaming:视频生成开始向实时编辑工具靠近
SANA-Streaming 研究实时视频到视频编辑。它要解决的不是“一次生成一段视频”,而是让用户在直播、游戏、创作工具里边看边改。论文称,该系统能在单张 RTX 5090 上实现 1280×704 分辨率、24 FPS 的端到端实时编辑。
普通 AI 视频工具更像抽卡:输入提示词,等结果,不满意再来。实时视频编辑要求模型在连续视频流中保持时间一致性,不能上一帧风格对,下一帧人物变形;也要有足够吞吐,不能用户动一下等几秒。
这类技术对应的是新一代创作工具。直播特效、游戏画面风格化、虚拟拍摄、视频会议背景、短视频实时后期,都需要低延迟。视频模型如果只能离线生成,就更适合素材生产;如果能实时编辑,就能进入交互式创作和消费级工具。
产品边界在算力和稳定性。RTX 5090 上实时运行,不代表普通用户设备都能跑;24 FPS 能做很多创作场景,但商业级直播、移动端、多人互动还要继续优化。视频模型产品化会从“画面质量”继续走向“延迟、可控性和编辑体验”。
04 开发者生态 / 开源项目
1. hermes-agent:Agent 应用开始把学习循环做进产品运行时
NousResearch 的 hermes-agent 标语是 “The agent that grows with you”。它强调内置学习循环:从经验中创建 skills,在使用中改进它们,主动保存知识,检索过去对话,并逐步建立对用户的长期模型。它可以跑在 5 美元 VPS、GPU 集群或空闲时几乎不产生费用的 serverless 基础设施上,也可以通过 Telegram 远程交互。
这个项目抓住的是 Agent 产品里的一个关键问题:用户不想每次从零教它。一个个人 Agent 如果今天帮你整理工作流,明天又完全忘记昨天的偏好,它就很难成为长期工具。学习循环的目标是把每次使用变成下次使用的资产。
它和普通 memory 插件的区别在于,不只是保存对话,还会生成 skills。比如用户反复让它按某种格式整理会议纪要,系统可以把这个流程变成技能;用户多次纠正某类搜索方式,系统可以调整后续策略。Agent 应用的积累不只在数据,也在流程。
这类产品的边界同样在可控学习。Agent 自动学习如果不透明,就会把错误习惯、过期偏好、敏感信息也长期保存。好的学习型 Agent 要让用户看到它学了什么、能修改什么、能删除什么、什么时候不要学。
2. Copilot SDK 与桌面 App:开发者工具开始争夺 Agent 编排层
GitHub Copilot SDK 已经进入一般可用状态,开发者可以把 GitHub Copilot 背后的 agentic engine 嵌入自己的应用、服务和开发者工具。它提供规划、工具调用、文件编辑、流式输出和多轮会话能力。
这说明 GitHub 不只想让 Copilot 留在编辑器里,也想把 Copilot 的 Agent runtime 开放成底层能力。开发者不必自己从零做任务规划、工具调用、文件修改和多轮上下文管理,可以直接接入一套成熟运行时。
桌面 App 和 SDK 是一前一后。桌面 App 给终端用户一个管理多个 Agent 的入口;SDK 给开发者一个把 Agent 嵌入自己产品的接口。前者管使用体验,后者管生态扩张。
Agent 产品的竞争会逐步从模型层下沉到运行时和编排层。谁掌握任务规划、文件修改、沙箱、权限、工具调用、上下文管理,谁就更容易成为开发者工作流的一部分。模型可以换,运行时一旦接进项目和团队流程,迁移成本会更高。
3. Supabase 与 Multigres:AI 应用生成越快,Postgres 运维越要产品化
Supabase 推出 Multigres,想把 Postgres 运行复杂度封装成更高层的操作系统。AI 工具让更多人生成应用,但这些应用一旦有用户,就会面对数据库连接、读副本、故障切换、备份、性能和扩容。
这类基础设施过去主要服务专业后端工程师。现在 AI 把更多非传统开发者带进应用创建,后端工具也必须变得更可理解、更自动化。一个 vibe-coded 应用的作者可能知道自己要什么产品,但不一定懂连接池、failover、replica lag。
Multigres 的产品方向是把数据库运维从命令行和专家经验里抽出来,变成更中心化、更自动化的管理层。它服务的不是“玩票 demo”,而是 AI 生成应用继续长大后的稳定性。
开发者工具市场会出现一批类似变化。AI 让应用创建速度提升后,部署、监控、数据库、安全、账单、权限都会变成新的瓶颈。谁把这些后端复杂性藏好,谁就能承接 AI 应用生成后的第二阶段需求。
05 商业化落地 / 国内动态
1. MiniMax M3:长上下文和交互式训练开始围绕 Agent 任务重做
MiniMax M3 近期披露的技术路线集中在长上下文、推理效率和 Agent 训练。报道提到,M3 通过 MSA 架构把上下文窗口提升到 100 万词元,在 100 万上下文规模下,单词元计算量约为上一代的二十分之一;底层推理算子性能较主流开源方案提升 4 倍以上。
长上下文不是为了让用户一次塞更多文章,而是为了让 Agent 保留更完整的信息链路。代码仓库、长报告、多轮协作、复杂办公流程,都需要模型在一次任务里记住大量上下文。上下文越长,成本越容易失控;如果计算量不降,产品很难高频使用。
M3 在编程和智能体训练中引入交互式用户模拟器框架。这个点比普通 benchmark 更贴近产品。真实开发者不会只给模型一次性题目,而会不断补充要求、指出错误、要求修改、改变目标。让模型在训练阶段就接触这种互动,可以提升它处理真实协作任务的能力。
国内大模型竞争开始从“模型答题能力”转向“能不能支撑 Agent 产品”。长上下文、低成本推理、交互式训练、工具调用稳定性,都会直接决定代码 Agent、研究 Agent、办公 Agent 能不能从 demo 走向日常使用。
2. 新华语典被外媒关注:垂直内容 Agent 的产品价值在权威语料和分发
Reuters 关注新华网拟投入 11.22 亿元建设“新华语典”项目。这个项目已经在前几天披露过,定位为权威时政资讯智能体,服务党政机关、科研院所、高校和国有企事业单位,用于理论学习、政策研读、政务文稿和舆情研判。
这条国内产品的形态很典型:它不是和通用聊天模型比开放能力,而是围绕权威内容、特定用户和特定工作流做垂直 Agent。政务场景更关心来源、口径、合规和可追溯,不会只看模型是否“聪明”。
垂直内容 Agent 的壁垒不在 UI,而在数据和分发。新华网有权威语料和政企客户网络,产品天然不是从零获客。它要解决的是如何把内容库变成可查询、可引用、可生成文稿、可辅助研判的工作系统。
这种路径会在更多行业出现。法律、医学、金融、工程、教育都需要垂直内容 Agent。通用模型提供底层能力,真正的产品差异来自高质量语料、权限体系、专业工作流和可信输出。
夜雨聆风