🎬 火山引擎 Seedance 2.0 API 开放,带来全球 SOTA 级视频生成能力
据《科技日报》等权威媒体报道,字节跳动旗下火山引擎于2026年4月14日正式全面开放其视频生成模型 Seedance 2.0 的API服务。该模型被官方定义为视频生成领域的全球SOTA(特定任务下最佳)模型,支持文本、图片、音频、视频四种模态输入,集成了业界最全面的多模态内容参考和编辑能力。在复杂交互和运动场景下,其物理准确度、逼真度和可控性显著增强,更贴合工业级创作需求。为保障合规与安全,火山引擎为模型建立了肖像与版权安全标准,并提供了包括人脸验证授权和超过1万个高质量虚拟人像库在内的配套方案。企业和个人开发者现在可以通过火山引擎调用其能力,探索全新的产品形态和应用场景。
🌍 Skywork AI 发布 Matrix-Game 3.0,实现 720p 40 帧实时高清 “世界生成”
据《站长之家》等媒体报道,Skywork AI团队于近日发布了 Matrix-Game 3.0 系统,在交互式世界模型领域取得重大突破,首次在 720p 分辨率下实现了 40帧/秒 的实时高清视频生成。该系统通过引入“相机感知的记忆检索机制”,有效解决了AI视频生成中长期存在的“长效记忆缺失”问题,使生成的虚拟场景能在长达数分钟的连续交互中保持高度一致性。其背后采用了端到端框架,整合了基于虚幻引擎5(UE5)的合成数据引擎、记忆增强的扩散Transformer(DiT)模型训练,以及通过量化与蒸馏优化的推理部署流程。这一突破标志着交互式世界模型向可部署的工业级应用迈出了关键一步。
🚗 特斯拉春季更新有多项改进
据《IT之家》、《凤凰网》等多家媒体报道,特斯拉于2026年4月14日公布了其2026年春季软件更新,这是该公司迄今为止功能密度最高的季节性版本推送。本次更新包含十二项明确的功能改进。核心升级包括:为搭载AI4硬件的车型提供了全新改版的自动驾驶应用界面,支持车主在车内一键订阅FSD功能,并可实时查看FSD使用数据。车载AI助手Grok迎来重大升级,用户可通过“嘿,Grok”语音唤醒,并新增基于位置的提醒服务。此外,行车记录仪的循环录制时长从1小时大幅延长至最长24小时,并支持任意片段永久保存;“狗狗模式”也更名为“宠物模式”,支持自定义宠物图标和名称。
📚 五部门联合部署将 AI 纳入教资考试与公共必修课
据《中华人民共和国教育部》官网及《人民网》等权威媒体报道,教育部、国家发展改革委、工业和信息化部、科技部、国家数据局等五部门于2026年4月联合印发了《“人工智能+教育”行动计划》。该计划明确提出,将人工智能纳入教师资格考试和认证内容,并推动其成为高校公共基础课程。在基础教育阶段,要求确保开齐开足开好人工智能相关课程;在高等教育阶段,将人工智能纳入公共基础课程体系,推动全体学生掌握人工智能知识。此举旨在系统性提升全民智能素养,目标是在2030年基本形成人工智能与教育深度融合的格局。
🎥 爱奇艺龚宇预测 3 至 6 个月内或产出 AI 商业大片
据《新浪网》、《北京电视艺术家协会》等媒体报道,爱奇艺创始人、CEO龚宇在近期多次公开场合预测,完全由AI生成的商业大片最快可能在3至6个月内面世。龚宇表示,随着Seedance 2.0等视频生成大模型的推出,AI影视制作已从“单点技术突破”走向“全链条多点开花”,技术性障碍基本消除。他认为,目前由AI生成的影视作品已达到商用水平,但要产出兼具强艺术性的大片,可能还需要一段不长的时间。在爱奇艺2025年第四季度财报电话会上,龚宇也将“构建AIGC生态系统”列为公司2026年的核心战略目标之一,并明确表示AI主导生成的商业大片将在近2-3年内出现。
🤖 阿里巴巴曝光首款具身机器人
据《中国证券网》、《腾讯网》等权威媒体报道,阿里巴巴旗下高德地图的具身业务部即将发布其首款四足机器人产品,这也将成为阿里巴巴集团推出的首个具身机器人产品。高德相关负责人确认,公司已在具身智能领域深入布局,并积极探索四足机器人、人形机器人等硬件产品形态,预计近期将发布首款四足机器人。该产品计划在2026年北京亦庄举行的机器人半马赛事上首次公开亮相,并将在开放环境下通过自主感知、决策与交互完成一系列任务挑战。此前,高德已于3月31日全量开源了全球首个基于统一架构的机器人具身操作基座模型ABot-M0。
🎭 研究人员推出 LPM1.0 模型
据《新浪财经》、《中国证券网》等媒体报道,米哈游创始人蔡浩宇在新加坡创立的AI公司Anuttacon,于2026年4月10日在arXiv上发布论文,正式公开了其新一代视频生成模型 LPM 1.0(Large Performance Model)。这是一个基于170亿参数扩散Transformer架构的视频模型,专注于“角色表演生成”这一细分场景。与传统视频生成模型不同,LPM 1.0旨在实现角色在视频中的连续表达,包括说话、倾听和实时反应,更注重于“表演”。它可以根据输入图像生成具有稳定身份特征的视频角色,在对话过程中保持外观与行为一致,同时完成语音驱动、表情变化和动作反馈,目标是为对话智能体、虚拟直播角色以及游戏NPC提供视觉引擎。目前该模型仅供非商业学术研究使用。
📊 谷歌 Gemini 推出交互式可视化图像生成功能
据《新浪网》、《环球网》等媒体报道,谷歌近期为其AI助手Gemini推出了一项全新的交互式可视化图像生成功能。当用户在提示中加入“向我展示”或“帮助我可视化”等指令时,Gemini能够生成可操作的动态模拟程序,而不仅仅是静态图片。例如,在演示“月球绕地运行”时,用户可以通过滑块实时调节轨道速度并变换观测视角;在解释“汽车引擎工作原理”时,可以手动拆解、调整视图以观察每一个机械步骤。这项功能基于谷歌的Nano Banana技术,旨在以更直观的方式帮助用户理解复杂概念和物理过程。目前,该功能正面向全球范围内的Gemini专业版(Pro)用户逐步推出。
夜雨聆风