AI前沿日报 05.04|视频生成论文上新,Cerebras冲刺IPO
01 今日速览
-
Hugging Face 今日论文榜第一是 UniVidX,用统一多模态框架处理视频生成相关任务,重点在跨模态一致性和多任务复用。 -
Web2BigTable 进入今日论文榜,提出双层多Agent架构,用于互联网规模的信息搜索、抽取和表格化整理。 -
Map2World 关注从分割图和文本生成3D世界,强调更稳定的尺度一致性和用户可控性。 -
Learning while Deploying 提出机器人在部署过程中继续学习的框架,用16台双臂机器人验证长周期任务改进。 -
Open Design 在开源设计工具方向继续走热,主打本地优先、BYOK、设计系统、skills 和多种编码Agent CLI接入。 -
holaOS 出现在今日开源关注列表中,它把电脑重新组织成“人和Agent共享的工作环境”,重点是浏览器、文件、应用、记忆和运行时。 -
Karpathy-Inspired Claude Code Guidelines 继续扩散,一个 CLAUDE.md文件把 Karpathy 对LLM写代码问题的观察整理成四条工程规则。 -
Cerebras 计划通过美国IPO融资35亿美元,目标估值最高约266亿美元,AI芯片公司进入公开市场定价阶段。 -
Anthropic 据报接近与 Blackstone、Goldman Sachs、Hellman & Friedman 等华尔街机构成立15亿美元AI合资公司。 -
印度证券监管机构SEBI将发布AI风险提示,关注 Anthropic Mythos 等AI工具对市场中介机构带来的新风险。
02 模型 / 产品 / 开发者更新
1. Open Design 走热,本地优先的开源设计Agent开始补位
Open Design 今日在 Trendshift 的 GitHub rising engagement 列表中排在前列。项目把自己定位为 Claude Design 的开源替代方案,仓库显示已有约2.17万 stars、2.4k forks。它的核心思路是把 Claude Code、Codex CLI、Cursor Agent、Gemini CLI、Qwen Code、GitHub Copilot CLI 等本地或命令行Agent接入同一个设计工作流,并提供设计系统、skills、沙盒预览和HTML/PDF/PPTX/MP4等导出能力。
它的README里提到,项目内置129个设计系统、31个skills,覆盖原型、SaaS landing page、dashboard、mobile app、social carousel、deck、finance report、invoice、kanban board 等场景。用户输入设计需求后,系统会先收集brief,再选择视觉方向、生成todo计划,并在沙盒iframe中渲染最终artifact。
这类工具说明设计Agent正在从“生成一张图”进入“生成可编辑artifact”。本地优先、BYOK和多Agent CLI接入降低了闭源平台绑定,也给设计、产品、市场和运营材料生成提供了更完整的工作流。
2. holaOS 把Agent放进一个共享电脑环境
holaOS 今日在 Trendshift 的日度列表中出现。项目仓库把自己描述为 “An Open Agent Computer for ANY digital work”,核心是让人类和AI Agent在同一个桌面环境中使用浏览器、文件和应用。仓库README写到,系统希望让memory、execution和goals保持连续,不让工作在不同工具之间反复丢失状态。
holaOS 的结构包含 desktop、runtime、sdk、workspace 和 docs 等模块,支持本地安装。README还强调,Agent在这个环境中可以持续运行,并通过roles和templates形成更稳定、可重复的工作方式。
3. Karpathy-Inspired Claude Code Guidelines 成为CLAUDE.md热度样本
forrestchang/andrej-karpathy-skills 今日在 Trendshift 列表中排名靠前,GitHub仓库显示约11万 stars。项目是一个面向 Claude Code 的 CLAUDE.md 文件,把 Karpathy 对LLM coding失败模式的观察整理成四条规则:先思考再编码、保持简单、做外科手术式改动、以目标和验证循环驱动执行。
README引用的失败模式很具体:模型容易替用户做错误假设、隐藏困惑、缺少澄清、过度抽象、产生臃肿代码、顺手改动无关代码。对应的解决方式是把工作从“直接执行”改成“先明确权衡、保持最小改动、用测试和成功标准闭环”。
03 开源关注度异动
1. Open Design
Open Design 在 Trendshift 日度榜中位列靠前,项目说明为本地优先的 Claude Design 开源替代方案。它把13类coding-agent CLI、129个设计系统、31个skills、媒体生成、设备frame、SQLite持久化和本地daemon放在同一套工作流里,当前仓库显示约2.17万 stars。
它的产品形态比单一“AI设计助手”更重,接近一个可部署的设计artifact生成平台。封面、原型、PPT、移动端页面、运营材料、发票、看板和团队OKR等都被拆成不同skills,Agent执行时有brief表单、视觉方向、todo进度和沙盒预览。
2. holaOS
holaOS 在Trendshift日度榜中显示约4.6k stars。项目采用MIT license,仓库结构包含desktop、runtime、sdk、docs等模块,README将其定义为开放Agent电脑。它强调人和Agent共享浏览器、文件和应用,也强调长周期记忆、运行时状态和工作连续性。
当前Agent桌面类项目在增加,核心差别在于谁能真正把环境、记忆、权限、文件和执行闭环做好。holaOS的描述比较明确:Agent不是只在聊天窗口里运行,而是在一个有工作区和状态的电脑环境中持续协作。
3. The Agency
msitarzewski/agency-agents 在Trendshift日度榜中靠前,GitHub仓库显示约9.19万 stars、1.51万 forks。项目是一个AI agent人格与工作流集合,README把它描述为“AI agency”,里面的Agent覆盖前端、Reddit社区、增长、支持、UX研究、项目管理等角色。
这个项目呈现的是另一种Agent产品形态:不先搭复杂系统,而是先沉淀可复用的角色、流程和交付标准。README中给出的示例包含8个Agent一起评估软件机会,并产出市场验证、技术架构、品牌策略、增长、支持、UX和项目执行方案。
04 论文雷达
1. UniVidX 统一多模态视频生成框架
Hugging Face 今日 #1 论文是 UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors。论文提出一个统一多模态框架,用视频扩散模型先验处理多种视频生成任务。它通过 Stochastic Condition Masking、Decoupled Gated LoRA 和 Cross-Modal Self-Attention,在共享多模态空间中处理不同输入和输出。
UniVidX 在两个方向做了实例化:UniVid-Intrinsic 处理RGB视频与反照率、辐照度、法线等 intrinsic maps;UniVid-Alpha 处理混合RGB视频与RGBA层。论文称模型在少于1000个视频训练样本下,也能在多任务上达到有竞争力的效果。
视频生成正在从“单一文本到视频”扩展到更多图形和视频编辑任务。统一框架的意义在于降低为每个任务单独训练模型的成本,也让RGB、alpha、normal、albedo等不同模态之间保持更稳定的结构关系。
2. Web2BigTable 用多Agent做互联网规模信息抽取
Web2BigTable: A Bi-Level Multi-Agent LLM System for Internet-Scale Information Search and Extraction 是今日上榜论文。它把Agentic Web Search拆成两类任务:一种是围绕单一目标做深度推理,另一种是跨很多实体和异构网页做宽表式抽取。论文提出双层架构,上层orchestrator负责拆分任务,下层worker agents并行执行,并通过run-verify-reflect循环和外部记忆持续改进。
论文报告称,Web2BigTable 在 WideSearch 上达到 Avg@4 Success Rate 38.50,是第二名的7.5倍;Row F1达到63.53,Item F1达到80.12;在XBench-DeepSearch上达到73.0 accuracy。
这篇论文对投研和商业分析很有参考价值。很多研究任务都不是“搜一个答案”,而是把大量公司、产品、价格、融资、功能、客户、政策信息整理成结构化表格。多Agent信息抽取如果能稳定工作,会直接改变行业研究、竞品分析和数据整理流程。
3. Map2World 从分割图和文本生成3D世界
Map2World: Segment Map Conditioned Text to 3D World Generation 关注3D世界生成。论文提出用用户定义的segment maps和文本条件生成3D世界,重点解决大场景里对象尺度不一致和布局受限的问题。它还引入detail enhancer network,在保持全局结构的同时生成更细粒度的世界细节。
论文称,Map2World 相比已有方法在用户可控性、尺度一致性和内容连贯性上有明显提升,并能利用asset generator priors在有限训练数据下泛化到不同场景。
3D世界生成和视频生成一样,都在往更强的可控性走。segment map 提供了明确的结构约束,文本提供风格和内容方向,这类方法会继续影响游戏、影视预演、自动驾驶仿真和空间设计。
4. Learning while Deploying 让机器人在部署中继续学习
Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies 提出 LWD 框架,用机器人部署过程中收集到的真实经验、自动rollouts和人类干预数据,持续改进通用机器人策略。实验使用16台双臂机器人,覆盖8个真实操作任务,包括语义化杂货补货和3到5分钟的长周期任务。
论文称,LWD 结合 Distributional Implicit Value Learning 和 Q-learning via Adjoint Matching,在机器人fleet经验积累后,单一通用策略平均成功率达到95%,长周期任务提升最明显。
机器人策略的难点一直在真实世界分布漂移、长尾失败和数据成本。部署后继续学习,可以让机器人从现场失败、人类修正和多机经验里更新策略,这比单纯依赖离线示范数据更接近实际规模化部署。
5. SSL 表示法把Agent skills从文本变成结构
北京大学相关论文 From Skill Text to Skill Structure: The Scheduling-Structural-Logical Representation for Agent Skills 提出 SSL 表示法,把Agent skills中的调度信号、执行结构、逻辑动作和资源使用证据拆开表示。论文指出,当前很多skills仍然被写成SKILL.md式文本,机器可用证据大多嵌在自然语言描述里。
实验中,SSL 在 Skill Discovery 任务中把 MRR 从0.573提升到0.707,在 Risk Assessment 中把 macro F1 从0.744提升到0.787。论文作者认为,结构化表示能让skills更容易搜索、审查和复用。
这篇论文和今天开源侧的 CLAUDE.md 热度可以放在一起看。Agent skill 生态正在从“写提示词”走向“管理可检索、可审计、可复用的能力资产”。
05 X动向 / 大V观点
1. Andrej Karpathy 相关观点继续被整理成Claude Code规则
Karpathy 对LLM coding失败模式的几条观察被整理成 andrej-karpathy-skills 项目。项目README引用的核心问题包括:模型会替用户做错误假设、不会主动暴露困惑、容易过度复杂化代码、会改动自己没理解的无关部分。对应规则是先思考、保持简单、最小改动、用目标和测试闭环。
这件事本身比“又一个skills仓库”更具体。Karpathy提出的问题已经被开发者转译成可安装的 Claude Code plugin 和 per-project CLAUDE.md,说明大V观点正在进入工程规范层,而不是停留在社交媒体转发。
2. Simon Willison 的LLM工具重构继续指向多模态和工具调用
Simon Willison 在近期发布的 LLM 0.32a0 中,提到旧版本主要围绕“文本prompt输入、文本response输出”建模,而现在需要支持工具调用、多模态输入和更复杂的会话结构。他还提到,希望未来把会话建模成graph,以更好保存和复用不断扩展的对话上下文。
3. Ethan Mollick 继续强调test-time scaling背后的成本曲线
Ethan Mollick 近期在 X 上提到,test-time scaling 让模型可以用更高推理成本换取更好的benchmark分数。这个观点放在当前模型对比里很重要,因为同一个模型在不同推理预算下的表现会差很多,排行榜结果开始和延迟、价格、上下文、工具调用次数绑定在一起。
模型能力正在变成一条成本曲线。对用户来说,问题不只是“哪个模型最强”,还包括在某个价格、延迟和任务成功率下,哪个模型组合最划算。
4. Andrew Ng 继续推动提示能力大众化
Andrew Ng 近期在 X 上推广 AI Prompting for Everyone,强调2026年的AI提示方式已经不同于2022年ChatGPT刚发布时。课程覆盖Web search、Deep Research、上下文、推理、写作和AI critique等内容。
这类课程把prompt从技巧集合推进到工作方法。AI使用能力正在进入企业培训、学生学习、研究助理和知识工作者日常流程,提示、搜索、上下文管理和批判性检查会被打包成基础素养。
06 公司 / 应用 / 政策动态
1. Cerebras 计划IPO,目标估值最高约266亿美元
Reuters 报道,AI芯片公司 Cerebras 计划在美国IPO中出售2800万股,定价区间为每股115到125美元,融资目标为35亿美元,对应最高约266.2亿美元估值。这是Cerebras第二次尝试上市,去年10月曾撤回IPO文件。
Cerebras主打 wafer-scale engine chips,用于加速大模型训练和推理。Reuters 报道还提到,公司此前完成10亿美元融资,估值约230亿美元;今年还与OpenAI达成超过200亿美元的多年期合作,OpenAI将部署750兆瓦的Cerebras高速AI算力。
这次IPO会给AI基础设施公司一个新的公开市场参照。市场要看的不只是AI芯片叙事,也包括收入增长、客户集中度、毛利率、资本开支需求和对NVIDIA生态的实际替代能力。
2. Anthropic 正要与华尔街机构成立15亿美元合资公司
Reuters 转述《华尔街日报》报道称,Anthropic 正要与 Blackstone、Goldman Sachs、Hellman & Friedman 等华尔街机构成立约15亿美元合资公司,目标是向私募股权支持的企业销售AI工具。报道称,Anthropic、Blackstone 和 Hellman & Friedman预计各投入约3亿美元,Goldman Sachs预计投入约1.5亿美元。Reuters表示尚无法独立核实该报道。
这类合作把模型公司和金融机构的关系从“客户/投资人”推进到“共同分发企业AI工具”。私募股权公司手里有大量被投企业,Anthropic可以借助这些渠道进入运营、财务、客服、销售、采购、人力和法务等企业流程。
3. 印度SEBI将发布AI风险提示
Reuters 报道,印度证券监管机构 SEBI 将向市场中介机构发布关于AI新兴风险的 advisory,关注 Anthropic Mythos 等AI工具。SEBI主席称,监管机构正在与利益相关方沟通AI相关威胁。
金融监管开始直接点名AI工具,说明AI进入交易、投研、客户服务、合规、风控之后,市场操纵、错误建议、幻觉输出、自动化决策和责任归属会成为监管议题。印度这次动作也会给其他市场提供参考样本。
4. Musk曾在庭审前接触OpenAI寻求和解
Reuters 报道,根据新法院文件,Elon Musk 在 Oakland 联邦法院庭审开始前两天联系 OpenAI 总裁 Greg Brockman,询问是否有兴趣和解。Brockman建议双方都撤销诉求后,Musk据称回应称如果坚持下去,Brockman和Sam Altman会在当周结束前成为“美国最被讨厌的人”。
这场诉讼围绕OpenAI从非营利结构转向营利结构展开。Musk要求改变OpenAI领导层,并向OpenAI和微软索赔1500亿美元。庭审已于4月28日开始,预计持续数周,Altman、Brockman和微软CEO Satya Nadella预计将在本月晚些时候作证。
5. F1团队加速引入AI合作
Reuters 报道,过去六个月内,F1相关团队签下了8项新的AI合作。Williams与Anthropic合作,使用Claude支持团队运营和比赛策略;Aston Martin与CoreWeave合作;Google与McLaren的合作也从Pixel转向Gemini。Ampere Analysis和SponsorUnited的数据还显示,AI和机器学习品牌已经进入F1新增赞助投资的前列。
F1是一个高频决策和高约束环境。AI在这里承担的任务包括规则解释、数据理解、工程决策辅助、运营管理和策略支持。它的商业价值不只来自车身曝光,更来自团队把AI工具嵌入真实竞赛和运营流程后的可展示案例。
夜雨聆风