AI日报 | 2026年5月8日编程基准全员零分 · 生图几何控制突破

AI日报 | 2026年5月8日编程基准全员零分 · 生图几何控制突破 · 流式视频生成新方法

今天先跟你说个扎心的事：你每天用的那些AI编程工具，在真正的"从零造一个完整软件"这件事上，集体交白卷了。

别急，这不是说AI不中用——恰恰相反，这说明我们对AI能力边界有了更清醒的认识，而且今天的内容里，解决方案已经在路上了。

编程篇

ProgramBench：9款顶级模型全线溃败，完整通过率0%

Meta FAIR联合斯坦福大学、哈佛大学发布了全新编程基准ProgramBench，测试AI从零构建完整软件系统的能力。结果令人震惊：Claude Opus 4.7、GPT-5.5、Gemini 3.1 Pro等9款最强AI模型，完整通过率全部为0%。

表现最好的Claude Opus 4.7平均通过率也仅51.2%，且只有3%的任务接近完成。ProgramBench要求AI从零重写200个真实软件项目，涵盖从需求分析到架构设计再到代码实现的完整流程，难度远超此前所有编程基准——SWE-bench测的是"改Bug"，ProgramBench测的是"造房子"。

市场影响： 这份基准的意义不在于"AI不行"的噱头，而在于给行业画了一条清晰的能力边界。当前AI在碎片化任务（代码补全、Bug修复）上表现惊艳，但在完整软件工程的系统规划和大局观上仍是短板。这意味着未来AI编程工具的产品形态将从"帮你写代码"向"帮你管项目"演进。

Anthropic MSM：让AI先"读员工手册"再上岗，失控率从68%降至5%

Anthropic发布**模型规范中期训练（MSM）**方法，核心思路简单粗暴：在预训练和后续对齐训练之间，插入一个"规范理解"环节，让模型先学行为准则背后的原理，而非机械记忆合规案例。

实验数据惊人：在通义千问32B模型上，失控率从54%-68%降至5%-7%，所需对齐微调数据量仅为原来的1/40至1/60。这一方法大幅提升了AI安全泛化能力——模型在从未见过的场景中也能自主做出正确判断。

使用建议： MSM如果落地到实际产品中，意味着未来AI Agent的"靠谱度"将大幅提升。开发者可以期待更少出现AI擅自操作、越权执行等"翻车"事件。

Subquadratic：13人团队发布1200万Token上下文模型

美国迈阿密初创公司Subquadratic，仅13人，发布全球首个基于SSA架构的SubQ模型，支持1200万Token上下文，计算量较Transformer减少千倍，推理成本仅为Claude Opus的5%。1M Token场景下比FlashAttention快52倍。公司刚获得2900万美元种子轮融资。

使用建议： 如果SubQ的架构能经受住独立验证，它将对长上下文场景（如全代码库分析、超大文档处理）产生颠覆性影响。但当前数据遭到业内部分质疑，建议开发者保持关注，先让子弹飞一会儿。

生图篇

浙大&哈佛开源UniGeo：高保真相机可控图像编辑，全面SOTA

浙江大学ReLER实验室联合哈佛大学发布UniGeo框架，专门解决图像编辑中的"几何碎片化"难题——即AI在编辑图像视角时经常出现的结构扭曲和视角不一致。

UniGeo通过视频模型的连续视角先验与统一几何引导，在表示层、架构层和损失函数层三个层面系统性注入几何约束，有效克服了相机可控编辑中的结构退化问题。在DL3DV、RealEstate10K等基准上全面超越现有方法，取得SOTA成绩。

市场影响： 这项研究的落地价值在于——AI图像编辑正从"换脸换背景"的粗浅玩法，进化到"精确控制相机视角"的专业级别。对于游戏美术、影视预视觉化和电商视觉设计等行业，这意味着AI生成素材的可控性又上了一个台阶。

视频篇

Stream-R1／Stream-T1：流式视频生成迎来双重突破

Hugging Face连续发布两篇关于流式视频生成的论文。Stream-R1提出基于可靠性-困惑度感知的奖励蒸馏方法，在保证视频质量的同时大幅降低推理成本；Stream-T1则探索了测试时计算缩放（Test-Time Scaling）在流式视频生成中的应用，让模型在生成过程中能"多想想再输出"。

两篇论文的同步发布，标志着流式视频生成——即实时生成而非离线渲染——正成为一个独立的研究方向。这与当前AI视频工具普遍采用的"一段一段渲染、最后拼接"的工作模式形成了技术对比。

市场影响： 如果流式视频生成技术成熟，AI视频工具将从"花几分钟等一段视频"进化到"边想边播"的实时模式。这对直播、实时互动视频等场景将产生直接推动。

Vivix估值13亿美元，推出AI数字人产品7verse

AI数字人公司Vivix以13.2亿美元估值推出首款产品7verse，提供AI实时数字人互动能力。用户可通过文字或照片生成数字人直播间、AI互动短剧游戏。目前产品仍处于实验阶段。

使用建议： 数字人生意持续火爆，但Vivix目前还处于"秀肌肉"阶段。对于有直播需求的内容创作者，现阶段更推荐使用HappyHorse、HeyGen等成熟工具。

小编说

今天的新闻有个共同点：对AI能力的理解正在从"它能做什么"走向"它不能做什么"。

ProgramBench告诉我们，AI在完整软件工程上还远没到能独立干活的地步。MSM告诉我们，AI的安全对齐路线正在从"撞墙式试错"转向"原理式学习"。UniGeo和Stream-R1则在提醒我们，AI生成内容的质量天花板还远没到顶。

对创作者和开发者来说，今天最重要的信息是：别把AI当万能工具，但也不要低估它的进化速度。 知道边界在哪儿，才能在边界内把AI的价值榨干。

今日金句

"我们高估了AI一年的变化，低估了十年的变化。" —— 凯文·凯利