
技术进展
字节跳动与北京大学合作提出In-Place TTT训练框架
字节跳动Seed团队与北京大学合作提出原地测试时(In-Place TTT)训练框架,该方法的核心理念是无需修改现有Transformer架构或重新训练模型,而是直接“征用”模型中MLP模块的最终投影矩阵作为可动态更新的“快速权重”,在推理过程中根据输入上下文实时调整参数,实现即插即用的能力增强。通过引入分块更新机制和语言建模对齐的目标函数,显著提升了计算效率。
普林斯顿刘壮团队研发开源通用视觉推理强化学习框架
普林斯顿刘壮团队研发开源通用视觉推理强化学习框架Vero,主张仅通过单阶段强化学习(无需依赖私有“思考”数据)即可激发基础视觉语言模型的通用推理能力。团队从59个数据集中精心构建了包含60万个样本的 Vero-600K 数据集,并将样本均衡分为图表OCR、STEM、空间与动作等六大类别,以提供广泛的数据覆盖。同步提出任务路由奖励机制,能根据任务类型(如选择题、数学题、开放描述)将模型输出自动路由至相应的验证器(如选项匹配、数学校验、大模型裁判)来计算差异化奖励。基于此框架训练的模型在30项基准测试中的23项上超越经过专门微调的基线模型。
产品与应用动向
阿里研发HappyHorse-1.0视频生成模型
阿里巴巴正式认领此前以匿名形式登顶权威评测平台Artificial Analysis Video Arena的AI视频生成模型HappyHorse-1.0。该模型由阿里ATH事业群旗下创新事业部研发,其核心特点是采用150亿参数统一Transformer架构,原生支持音视频联合生成,一次推理即可直接输出带唇形同步的完整视频,无需后期拼接。模型支持中英日韩等七种语言的精准唇形同步,在单张H100上生成5秒1080p视频仅需38秒,效率远超行业主流方案。目前该模型已开始内测,预计4月30日开放API服务。
京东开源图像模型JoyAI-Image-Edit
京东开源以“空间智能”为核心架构的一体化图像模型JoyAI-Image-Edit,通过耦合一个80亿参数的多模态语言模型与一个160亿参数的多模态扩散Transformer,实现理解、生成与编辑的闭环协作。功能聚焦于精准的空间编辑,用自然语言指令(如偏转、俯仰、缩放)进行的“相机控制”,可生成透视与遮挡关系正确的新视角图像。支持逻辑连贯的多视角“物体旋转与空间漫游”,以及可精细操控单个物体的位置、角度与比例,保持场景整体结构稳定的“物体空间关系操控”。
灵初智能发布策略模型 Psi-R2 与 世界模型 Psi-W0
灵初智能(PsiBot)发布其具身智能核心系统,包括策略模型 Psi-R2 与 世界模型 Psi-W0。Psi-R2 只做必要的输入输出维度对齐,把人类关节通过运动学映射到机器人关节,图像尽量不做处理,直接喂给模型原始数据。该模型可同时输出未来视频预测和机器人动作,从近 10万小时人类操作数据中直接学习任务知识,仅需少量真机数据微调即可完成长程精细操作。Psi-W0 则额外使用失败数据进行训练,专注于建模反事实与失败可能性,用于评估和通过强化学习优化 Psi-R2 生成的轨迹。该系统在MolmoSpaces基准测试中取得领先(Oracle Success Rate 46.4),并通过工程优化将推理时间降至100毫秒以内。
小马智行发布PonyWorld世界模型2.0
小马智行发布PonyWorld世界模型2.0,赋予AI自我诊断与定向进化能力。能通过结合车端模型的意图语义,自动回溯、归因分析驾驶决策,精准定位自身短板;进而主动生成定向数据采集任务(如指定在特定路口采集逆光行人数据)和针对性训练场景,引导研发团队进行高效补强。该模型已经应用在小马智行L4级无人驾驶车队和研发体系中。
行业融资动态
众擎机器人完成2亿美元B轮融资
具身智能公司深圳众擎机器人科技股份有限公司完成2亿美元B轮融资,估值突破百亿人民币,由河南投资集团汇融基金和立讯精密联合领投,基石资本、中创智领战投等跟投,老股东黄浦江资本等继续加码。公司聚焦于具身智能与人形机器人领域,构建了自研的关节技术体系(掌握行星准直驱、谐波力控、滚珠丝杠直线三大技术路线,实现高扭矩、高精度的直膝行走)和梯度化产品矩阵(包括旗舰型T800、轻量化PM01及开源科研型SA01,覆盖工业、服务、科研等多场景)。本轮融资资金将主要用于深化技术研发、扩大产能、拓宽应用场景及构建产业生态。
深朴智能完成数亿元新一轮融资
具身智能公司北京深朴智能科技有限公司完成数亿元新一轮融资,由线性资本、普华资本领投,老股东钧山资本、顺为资本、BV百度风投持续加码。公司专注于家庭场景通用具身智能机器人,依托来自清华、中科大等高校的核心技术团队,构建了“模型-数据-本体-场景”的全栈技术体系。已和中旅酒店集团、香港理工大学达成酒店具身智能服务战略合作,通过“热循环”机制持续回收真机作业数据以驱动模型进化。本轮融资资金将重点投入“具身机器人大脑”与机器人本体的研发。
科漫智能完成近千万美元融资
AI交易平台公司杭州科漫智能科技有限公司连续完成天使轮和天使+轮融资,总额近千万美元,投资方分别为创新工场和启赋资本。公司聚焦于构建AI时代的“智能体经济”基础设施,其核心产品“A2H Market”是一个为Agent与Agent、Agent与人类之间提供个性化服务交易的平台。创始人兼CEO刘杨是前滴滴网约车产品负责人,滴滴产品委员会轮值主席,后加入字节跳动先后负责飞书主端产品和商业化增长。
模速生态与企业
生数科技完成近20亿元B轮融资
生数科技完成近20亿元B轮融资,由阿里云领投,中网投、星连资本等跟投,BV百度风投、卓源亚洲等原有股东持续追加投资。公司深耕视频生成领域,其Vidu Q3视频生成模型可实现最长16秒声画同出,支持多镜头切换、运镜控制、BGM与音效生成,以及多语种对话,在Artificial Analysis中位居第一。同时前瞻性布局世界模型赛道,开源的Motus世界行动模型,基于统一架构实现了语言、视频与动作的协同生成,在多任务场景中的成功率较国际主流VLA模型Pi0.5提升约40%。
上海人工智能实验室发布“书安”智能体操作系统
上海人工智能实验室发布“书安”智能体操作系统,构建了“底层隔离(硬件级沙箱A3S-Box)—流程守护(旁路监控系统ClawSentry与200余项安全探针)—认知进化(安全大脑双螺旋自进化引擎)”三层协同的安全机制,通过国产化适配的安全内核A3S-Code与AHP协议,实现对智能体从任务规划、代码执行到最终输出的全生命周期、可审计的动态安全监控与风险阻断,从而在确保高效执行的同时,提升智能体的内生安全能力。
MiniMax发布音乐模型MiniMax Music 2.6
MiniMax发布音乐模型MiniMax Music 2.6,新增 “Cover” 功能,可基于用户上传的歌曲精准提取旋律骨架并进行任意风格与编曲的重塑。增强对音乐段落结构和复杂指令的理解与执行能力,允许通过prompt精确控制BPM、Key、情绪走向及“开局-过渡-爆发”等结构,首包生成延迟降至20秒以内。此外,为开发者同步开源包括 minimax-music-gen 在内的三款 Music Skill,并与 MMX-CLI 深度集成,使AI Agent能原生调用这些音乐生成能力。

夜雨聆风