AI前沿日报 05.01|科学Agent上新,AI进入国防场景
01 今日速览
-
Hugging Face 今日论文榜第一是 Eywa,UIUC 等机构提出让语言模型与领域科学基础模型协作的 heterogeneous agentic framework。 -
一篇视觉生成综述上榜,把视觉生成分成五级,从 atomic generation 到 world-modeling generation。 -
Claw-Eval-Live发布,面向真实工作流Agent评测,105个任务中最强模型通过率为 66.7%。 -
HackerRank 开放 Orchestrate题库,要求参赛者在24小时内构建终端型客服Agent,回答必须基于给定语料,不能联网编造。 -
Karpathy 的 Sequoia AI Ascent 访谈继续扩散,关键词是从 “vibe coding” 到 “agentic engineering”。 -
Andrew Ng 推出 AI Prompting for Everyone,把提示工程重新包装成普通用户和职场人的AI基础能力课程。 -
美国防部与多家AI公司达成机密网络部署协议,OpenAI、Google、Nvidia、Microsoft、AWS、SpaceX、Reflection 入列,Anthropic 缺席。 -
美国海军与 Domino Data Lab 合作,用AI加速水雷识别模型训练和部署。 -
Reddit 因AI广告工具带动业绩预期上涨,AI copywriter、自动图片裁剪等工具被写入广告增长逻辑。 -
SenseTime SenseNova U1 继续受到关注,统一多模态模型开源,主打理解、推理和生成的一体化架构。
02 模型 / 产品 / 开发者更新
1. SenseTime 开源 SenseNova U1,统一理解与生成的多模态模型
商汤科技发布并开源 SenseNova U1,定位为原生统一多模态模型系列。官方介绍中,SenseNova U1 基于 NEO-Unify 架构,把多模态理解、推理和生成放进单一模型框架中,并强调可用于复杂信息图生成、连续图文创作、空间智能和视觉推理等场景。当前开源的是轻量版 SenseNova U1 Lite,包含 8B-MoT 和 A3B-MoT 两个配置。
这类模型的重点在于减少传统多模态系统里“视觉编码器—语言模型—生成模块”之间的割裂。官方称 U1 取消了视觉编码器和 VAE,转向统一表示空间,试图让视觉和文本信号在同一上下文里完成理解与生成。
2. HackerRank Orchestrate,把Agent能力放进可验证客服任务
HackerRank 开放了 Orchestrate 24-hour hackathon的 starter repo。参赛者需要构建一个终端型AI Agent,用给定语料处理来自 HackerRank、Claude、Visa 三个产品生态的真实风格客服工单。输出字段包括状态、产品分类、用户回复、判断依据和请求类型。
这个任务有几个硬约束:Agent 只能使用题库提供的 support corpus,不能通过实时联网补答案;遇到高风险、敏感或语料不支持的问题时必须升级处理;回答不能编造政策或 unsupported claims。评分维度则包括 agent design、输出准确率、AI Judge interview 和 AI fluency。
这比普通“做一个客服机器人”的 demo 更有价值,因为它强制要求可验证、可追踪、可拒答。对Agent产品来说,能否基于限定语料稳定回答、正确升级、避免幻觉,比“看起来聪明”更接近真实商业场景。
3. DeepLearning.AI 推出 AI Prompting for Everyone
DeepLearning.AI 新上线 AI Prompting for Everyone,课程由 Andrew Ng 教授,面向没有技术背景但希望更好使用 ChatGPT、Claude、Gemini 等AI工具的人。课程模块包括信息查找、Web搜索、Deep Research、AI作为思考伙伴、上下文、推理、写作和AI critique 等。
03 开源关注度异动
1. TradingAgents
GitHub Trending 今日榜显示,TauricResearch / TradingAgents仍排在前列,项目描述为 “Multi-Agents LLM Financial Trading Framework”,今日新增 2,115 stars。
2. jcode
GitHub Trending 显示,1jehuang / jcode的描述是 “Coding Agent Harness”,今日新增 404 stars。
从项目描述看,它是一个用于组织 coding agent 的执行框架或测试外壳。AI Coding 的开源关注点正在从“单个模型写代码”扩展到 harness、evaluation、workflow、context control。
04 论文雷达
1. Eywa:让语言模型和科学基础模型协作
Hugging Face 今日 #1 论文是 Heterogeneous Scientific Foundation Model Collaboration,来自 UIUC 等机构。论文提出 Eywa,一个 heterogeneous agentic framework,用语言模型作为推理接口,把领域科学基础模型接入Agent系统,让专业模型参与非语言数据上的推理、决策和协作。
论文页面显示,Eywa 可作为单Agent pipeline 的替代方案,也可进入多Agent系统,还能通过 planner 动态协调传统Agent与领域科学Agent。实验覆盖物理、生命和社会科学等不同领域。
这篇论文的重要性在于,它没有假设一个通用大模型可以硬解所有科学任务,而是把LLM放在协调和解释的位置,让领域基础模型负责专业预测与分析。这个方向对科学AI、产业仿真、生物医药、材料和工程研发都值得继续观察。
2. Visual Generation in the New Era:视觉生成从“好看”走向“能理解”
Hugging Face 今日 #2 论文是 Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling。论文提出五级视觉生成框架:Atomic Generation、Conditional Generation、In-Context Generation、Agentic Generation 和 World-Modeling Generation。
论文认为,当前视觉生成模型虽然在照片真实感、文字渲染、指令跟随和交互编辑上进步很快,但仍然在空间推理、状态保持、长时序一致性和因果理解方面存在不足;现有评测也容易高估进展,因为过于关注视觉质量而忽略结构、时间和因果失败。
3. Claw-Eval-Live:真实工作流Agent评测继续补齐
Hugging Face 今日论文中,Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows提出一个可持续刷新的工作流Agent评测。当前 release 包含 105 个任务,覆盖受控业务服务和本地工作区修复,并通过执行轨迹、审计日志、服务状态和运行后文件进行评估。
论文结果显示,13个前沿模型中,最强模型通过率为 66.7%,没有模型超过 70%;HR、管理和多系统业务流程仍是瓶颈,本地工作区修复相对更容易,但也没有完全解决。
4. InteractWeb-Bench:多模态Agent能不能摆脱网页生成里的盲执行
Hugging Face 今日榜还出现 InteractWeb-Bench: Can Multimodal Agent Escape Blind Execution in Interactive Website Generation?。这类工作关注的是多模态Agent在网页生成和交互式界面任务中的表现。
网页和GUI是Agent落地的高频场景。未来模型不仅要能写HTML/CSS,还要能理解页面状态、用户意图和交互结果。
05 X动向 / 大V观点
1. Andrej Karpathy:从“vibe coding”转向“agentic engineering”
Sequoia AI Ascent 2026 上,Andrej Karpathy 与 Sequoia 合伙人 Stephanie Zhan 的对谈继续在 X 上扩散。Stephanie Zhan 的 X 帖子概括称,去年 Karpathy 提出“vibe coding”,今年他强调自己“从未像现在这样觉得作为程序员落后”,核心变化是:vibe coding raised the floor,agentic engineering raises the ceiling。
Karpathy 自己也发布了相关视频内容,讨论从 vibe coding 到 agentic engineering 的变化;Sequoia 的视频介绍中提到,他把 Software 3.0、verifiability、agentic engineering、人类品味与判断放在一起讨论。
Karpathy 的价值在于他经常给行业阶段命名。这里的重点不是“vibe coding过时了”,而是开发者开始意识到:用AI写代码只是第一步,真正困难的是如何组织上下文、验证结果、管理长期工程复杂度。
2. Simon Willison:关注开源项目对AI生成贡献的治理边界
Simon Willison 在4月30日写到 Zig 项目的 anti-LLM contribution policy。Zig 的规则很严格:issues、PR、bug tracker评论都不接受LLM生成内容,包括翻译。Willison 认为,Zig 社区的解释是他目前看到过最清楚的“为什么开源项目要禁止LLM辅助贡献”的论证之一。
这篇文章引用的核心逻辑是:成熟开源项目不只是接收代码,而是在培养长期可信贡献者;如果PR主要由LLM生成,维护者花时间review并不能帮助他们识别和培养可靠贡献者。
AI Coding 热度上升后,开源社区会更频繁面对“LLM生成贡献是否可接受”的问题。对开发者工具创业者来说,这也是产品设计问题:AI生成内容需要更清楚地标注、验证和审计。
3. Andrew Ng:把“提示能力”重新定义为大众AI使用能力
Andrew Ng 在 X 上提到,2026年的提示AI方式已经不同于2022年ChatGPT刚发布时,并推出 AI Prompting for Everyone课程。课程页显示,内容覆盖 Web search、Deep Research、上下文、推理、写作、AI critique 等更完整的使用流程。
Andrew Ng 的内容通常面向更广泛的学习者。他把 prompt 从“技巧”转成“AI工作方法”,说明AI教育市场正在从开发者课程扩展到普通知识工作者。
4. Jim Fan:继续押注 Large World Models 与机器人基础能力
NVIDIA 的 Jim Fan 在 X 主页近期观点中明确写到,他相信 2026 年会是 Large World Models 为机器人和多模态AI奠定真实基础的第一年。他本人是 NVIDIA Senior Research Scientist 和 AI Agents Initiative 负责人,长期关注虚拟世界、机器人和具身智能。
如果说文本Agent现在更接近软件和办公自动化,那么 Jim Fan 这条线代表的是“Agent进入物理世界”的长期方向。日报层面先记录观点,不展开成具身智能深度分析。
06 公司 / 应用 / 政策动态
1. 美国防部与多家AI公司达成机密网络部署协议,Anthropic缺席
5月1日,美国防部宣布与 SpaceX、OpenAI、Google、Nvidia、Reflection、Microsoft 和 Amazon Web Services 达成协议,将这些公司的AI能力集成进机密网络环境,用于“lawful operational use”。The Guardian 报道称,这些协议将进入 Impact Levels 6 和 7 网络环境,目标包括数据综合、态势理解和作战决策辅助。
The Verge 报道补充称,Anthropic 没有进入这批名单。此前 Anthropic 因拒绝放宽关于国内大规模监控和完全自主武器的红线,与美国防部发生争议,并被标记为供应链风险。
这是AI进入高安全级别政府网络的明确进展。后续重点看各家公司模型如何部署、数据隔离如何处理、Anthropic 与防务部门的争议是否出现转圜。
2. 美国海军与 Domino Data Lab 合作,用AI加速水雷识别
Reuters 5月1日报道,美国海军向 Domino Data Lab 授予最高约1亿美元合同,用于强化水雷识别能力。该合同属于 Project AMMO,即 Accelerated Machine Learning for Maritime Operations,目标是让无人水下航行器更快识别新型或未知水雷。
报道称,Domino 的软件整合侧扫声呐、视觉成像等多传感器数据,并监控不同AI检测模型在现场的表现。过去更新识别模型可能需要六个月,Domino 称可将周期缩短到数天。
这是AI进入军事感知任务的具体案例。它和大模型聊天无关,更接近高风险场景里的模型训练、治理、部署和快速迭代。
3. Reddit AI广告工具带动业绩预期,股价上涨
Reuters 5月1日报道,Reddit 股价上涨超过12%,原因是公司给出强劲季度收入展望,并强调AI驱动的广告工具带来增长。Reddit 一季度收入同比增长69%,日活跃独立访客达到1.268亿,全球ARPU同比增长44%。
Reddit 的广告平台使用AI改善广告创建和管理,包括面向 Reddit 广告的 AI copywriter,以及自动优化不同广告位图片比例的 creative asset cropper。Reuters 还提到,Reddit 的内容库也成为AI公司训练大模型时关注的数据资产。
夜雨聆风