AI前沿日报 05.01|科学Agent上新,AI进入国防场景-夜雨聆风

AI前沿日报 05.01|科学Agent上新,AI进入国防场景

“——本栏目将在每晚更新过去24h全球AI圈发生的大事件”

01 今日速览

Hugging Face 今日论文榜第一是 Eywa，UIUC 等机构提出让语言模型与领域科学基础模型协作的 heterogeneous agentic framework。
一篇视觉生成综述上榜，把视觉生成分成五级，从 atomic generation 到 world-modeling generation。
Claw-Eval-Live发布，面向真实工作流Agent评测，105个任务中最强模型通过率为 66.7%。
HackerRank 开放 Orchestrate题库，要求参赛者在24小时内构建终端型客服Agent，回答必须基于给定语料，不能联网编造。
Karpathy 的 Sequoia AI Ascent 访谈继续扩散，关键词是从 “vibe coding” 到 “agentic engineering”。
Andrew Ng 推出 AI Prompting for Everyone，把提示工程重新包装成普通用户和职场人的AI基础能力课程。
美国防部与多家AI公司达成机密网络部署协议，OpenAI、Google、Nvidia、Microsoft、AWS、SpaceX、Reflection 入列，Anthropic 缺席。
美国海军与 Domino Data Lab 合作，用AI加速水雷识别模型训练和部署。
Reddit 因AI广告工具带动业绩预期上涨，AI copywriter、自动图片裁剪等工具被写入广告增长逻辑。
SenseTime SenseNova U1 继续受到关注，统一多模态模型开源，主打理解、推理和生成的一体化架构。

02 模型 / 产品 / 开发者更新

1. SenseTime 开源 SenseNova U1，统一理解与生成的多模态模型

商汤科技发布并开源 SenseNova U1，定位为原生统一多模态模型系列。官方介绍中，SenseNova U1 基于 NEO-Unify 架构，把多模态理解、推理和生成放进单一模型框架中，并强调可用于复杂信息图生成、连续图文创作、空间智能和视觉推理等场景。当前开源的是轻量版 SenseNova U1 Lite，包含 8B-MoT 和 A3B-MoT 两个配置。

这类模型的重点在于减少传统多模态系统里“视觉编码器—语言模型—生成模块”之间的割裂。官方称 U1 取消了视觉编码器和 VAE，转向统一表示空间，试图让视觉和文本信号在同一上下文里完成理解与生成。

2. HackerRank Orchestrate，把Agent能力放进可验证客服任务

HackerRank 开放了 Orchestrate 24-hour hackathon的 starter repo。参赛者需要构建一个终端型AI Agent，用给定语料处理来自 HackerRank、Claude、Visa 三个产品生态的真实风格客服工单。输出字段包括状态、产品分类、用户回复、判断依据和请求类型。

这个任务有几个硬约束：Agent 只能使用题库提供的 support corpus，不能通过实时联网补答案；遇到高风险、敏感或语料不支持的问题时必须升级处理；回答不能编造政策或 unsupported claims。评分维度则包括 agent design、输出准确率、AI Judge interview 和 AI fluency。

这比普通“做一个客服机器人”的 demo 更有价值，因为它强制要求可验证、可追踪、可拒答。对Agent产品来说，能否基于限定语料稳定回答、正确升级、避免幻觉，比“看起来聪明”更接近真实商业场景。

3. DeepLearning.AI 推出 AI Prompting for Everyone

DeepLearning.AI 新上线 AI Prompting for Everyone，课程由 Andrew Ng 教授，面向没有技术背景但希望更好使用 ChatGPT、Claude、Gemini 等AI工具的人。课程模块包括信息查找、Web搜索、Deep Research、AI作为思考伙伴、上下文、推理、写作和AI critique 等。

03 开源关注度异动

1. TradingAgents

GitHub Trending 今日榜显示，TauricResearch / TradingAgents仍排在前列，项目描述为 “Multi-Agents LLM Financial Trading Framework”，今日新增 2,115 stars。

2. jcode

GitHub Trending 显示，1jehuang / jcode的描述是 “Coding Agent Harness”，今日新增 404 stars。

从项目描述看，它是一个用于组织 coding agent 的执行框架或测试外壳。AI Coding 的开源关注点正在从“单个模型写代码”扩展到 harness、evaluation、workflow、context control。

04 论文雷达

1. Eywa：让语言模型和科学基础模型协作

Hugging Face 今日 #1 论文是 Heterogeneous Scientific Foundation Model Collaboration，来自 UIUC 等机构。论文提出 Eywa，一个 heterogeneous agentic framework，用语言模型作为推理接口，把领域科学基础模型接入Agent系统，让专业模型参与非语言数据上的推理、决策和协作。

论文页面显示，Eywa 可作为单Agent pipeline 的替代方案，也可进入多Agent系统，还能通过 planner 动态协调传统Agent与领域科学Agent。实验覆盖物理、生命和社会科学等不同领域。

这篇论文的重要性在于，它没有假设一个通用大模型可以硬解所有科学任务，而是把LLM放在协调和解释的位置，让领域基础模型负责专业预测与分析。这个方向对科学AI、产业仿真、生物医药、材料和工程研发都值得继续观察。

2. Visual Generation in the New Era：视觉生成从“好看”走向“能理解”

Hugging Face 今日 #2 论文是 Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling。论文提出五级视觉生成框架：Atomic Generation、Conditional Generation、In-Context Generation、Agentic Generation 和 World-Modeling Generation。

论文认为，当前视觉生成模型虽然在照片真实感、文字渲染、指令跟随和交互编辑上进步很快，但仍然在空间推理、状态保持、长时序一致性和因果理解方面存在不足；现有评测也容易高估进展，因为过于关注视觉质量而忽略结构、时间和因果失败。

3. Claw-Eval-Live：真实工作流Agent评测继续补齐

Hugging Face 今日论文中，Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows提出一个可持续刷新的工作流Agent评测。当前 release 包含 105 个任务，覆盖受控业务服务和本地工作区修复，并通过执行轨迹、审计日志、服务状态和运行后文件进行评估。

论文结果显示，13个前沿模型中，最强模型通过率为 66.7%，没有模型超过 70%；HR、管理和多系统业务流程仍是瓶颈，本地工作区修复相对更容易，但也没有完全解决。

4. InteractWeb-Bench：多模态Agent能不能摆脱网页生成里的盲执行

Hugging Face 今日榜还出现 InteractWeb-Bench: Can Multimodal Agent Escape Blind Execution in Interactive Website Generation?。这类工作关注的是多模态Agent在网页生成和交互式界面任务中的表现。

网页和GUI是Agent落地的高频场景。未来模型不仅要能写HTML/CSS，还要能理解页面状态、用户意图和交互结果。

05 X动向 / 大V观点

1. Andrej Karpathy：从“vibe coding”转向“agentic engineering”

Sequoia AI Ascent 2026 上，Andrej Karpathy 与 Sequoia 合伙人 Stephanie Zhan 的对谈继续在 X 上扩散。Stephanie Zhan 的 X 帖子概括称，去年 Karpathy 提出“vibe coding”，今年他强调自己“从未像现在这样觉得作为程序员落后”，核心变化是：vibe coding raised the floor，agentic engineering raises the ceiling。

Karpathy 自己也发布了相关视频内容，讨论从 vibe coding 到 agentic engineering 的变化；Sequoia 的视频介绍中提到，他把 Software 3.0、verifiability、agentic engineering、人类品味与判断放在一起讨论。

Karpathy 的价值在于他经常给行业阶段命名。这里的重点不是“vibe coding过时了”，而是开发者开始意识到：用AI写代码只是第一步，真正困难的是如何组织上下文、验证结果、管理长期工程复杂度。

2. Simon Willison：关注开源项目对AI生成贡献的治理边界

Simon Willison 在4月30日写到 Zig 项目的 anti-LLM contribution policy。Zig 的规则很严格：issues、PR、bug tracker评论都不接受LLM生成内容，包括翻译。Willison 认为，Zig 社区的解释是他目前看到过最清楚的“为什么开源项目要禁止LLM辅助贡献”的论证之一。

这篇文章引用的核心逻辑是：成熟开源项目不只是接收代码，而是在培养长期可信贡献者；如果PR主要由LLM生成，维护者花时间review并不能帮助他们识别和培养可靠贡献者。

AI Coding 热度上升后，开源社区会更频繁面对“LLM生成贡献是否可接受”的问题。对开发者工具创业者来说，这也是产品设计问题：AI生成内容需要更清楚地标注、验证和审计。

3. Andrew Ng：把“提示能力”重新定义为大众AI使用能力

Andrew Ng 在 X 上提到，2026年的提示AI方式已经不同于2022年ChatGPT刚发布时，并推出 AI Prompting for Everyone课程。课程页显示，内容覆盖 Web search、Deep Research、上下文、推理、写作、AI critique 等更完整的使用流程。

Andrew Ng 的内容通常面向更广泛的学习者。他把 prompt 从“技巧”转成“AI工作方法”，说明AI教育市场正在从开发者课程扩展到普通知识工作者。

4. Jim Fan：继续押注 Large World Models 与机器人基础能力

NVIDIA 的 Jim Fan 在 X 主页近期观点中明确写到，他相信 2026 年会是 Large World Models 为机器人和多模态AI奠定真实基础的第一年。他本人是 NVIDIA Senior Research Scientist 和 AI Agents Initiative 负责人，长期关注虚拟世界、机器人和具身智能。

如果说文本Agent现在更接近软件和办公自动化，那么 Jim Fan 这条线代表的是“Agent进入物理世界”的长期方向。日报层面先记录观点，不展开成具身智能深度分析。

06 公司 / 应用 / 政策动态

1. 美国防部与多家AI公司达成机密网络部署协议，Anthropic缺席

5月1日，美国防部宣布与 SpaceX、OpenAI、Google、Nvidia、Reflection、Microsoft 和 Amazon Web Services 达成协议，将这些公司的AI能力集成进机密网络环境，用于“lawful operational use”。The Guardian 报道称，这些协议将进入 Impact Levels 6 和 7 网络环境，目标包括数据综合、态势理解和作战决策辅助。

The Verge 报道补充称，Anthropic 没有进入这批名单。此前 Anthropic 因拒绝放宽关于国内大规模监控和完全自主武器的红线，与美国防部发生争议，并被标记为供应链风险。

这是AI进入高安全级别政府网络的明确进展。后续重点看各家公司模型如何部署、数据隔离如何处理、Anthropic 与防务部门的争议是否出现转圜。

2. 美国海军与 Domino Data Lab 合作，用AI加速水雷识别

Reuters 5月1日报道，美国海军向 Domino Data Lab 授予最高约1亿美元合同，用于强化水雷识别能力。该合同属于 Project AMMO，即 Accelerated Machine Learning for Maritime Operations，目标是让无人水下航行器更快识别新型或未知水雷。

报道称，Domino 的软件整合侧扫声呐、视觉成像等多传感器数据，并监控不同AI检测模型在现场的表现。过去更新识别模型可能需要六个月，Domino 称可将周期缩短到数天。

这是AI进入军事感知任务的具体案例。它和大模型聊天无关，更接近高风险场景里的模型训练、治理、部署和快速迭代。

3. Reddit AI广告工具带动业绩预期，股价上涨

Reuters 5月1日报道，Reddit 股价上涨超过12%，原因是公司给出强劲季度收入展望，并强调AI驱动的广告工具带来增长。Reddit 一季度收入同比增长69%，日活跃独立访客达到1.268亿，全球ARPU同比增长44%。

Reddit 的广告平台使用AI改善广告创建和管理，包括面向 Reddit 广告的 AI copywriter，以及自动优化不同广告位图片比例的 creative asset cropper。Reuters 还提到，Reddit 的内容库也成为AI公司训练大模型时关注的数据资产。