“最没人味的AI,做出了最有人味的短片”——视频生成大爆发

当一段视频里，一个人从画面左边走到右边，衣服没有忽大忽小、背景没有突然扭曲、影子没有消失——你可能觉得这很正常。

但如果你知道，这段视频是AI在几秒内凭空生成的，你还会觉得“正常”吗？

2026年4月，可灵AI推出业内首个原生4K直出功能，一键生成院线级质感画面。就在同一个月，Vidu Q3在Artificial Analysis评测中超越Runway Gen-4.5、Google Veo3.1和OpenAI Sora 2，排名中国第一、全球第二。2025年全年，我国AI生成视音频内容超20亿条，同比增长超14倍。

AI生成视频，已经从“实验室玩具”变成了“生产力引擎”。但作为产品经理，我们真正该关心的不是参数有多高、分数有多好，而是：这东西到底能怎么用？边界在哪？对我的产品意味着什么？

今天，我就从一个产品经理的视角，翻译一篇硬核技术文章（Lilian Weng《Diffusion Models for Video Generation》），聊聊AI视频生成正在怎样改变我们的工作和生活。

原文链接：https://lilianweng.github.io/posts/2024-04-12-diffusion-video/

一、先别说术语：扩散模型做视频，到底是个啥？

扩散模型就像一张“雪花屏”照片，模型一步步学习“怎么把雪花去掉”，最后还原出清晰的画面。以前这招用来画图，现在用来做视频。

做视频比画图难在哪？

视频是一帧一帧的，但帧与帧之间必须连贯。人物不能瞬移、颜色不能突变、动作要符合物理规律。

视频需要模型理解世界：重力、光影、遮挡、运动轨迹。这不是简单拼图，得有点“常识”。

训练数据太稀缺。相比几十亿张图文对，高质量的视频-文本对少得可怜。

技术怎么破？

两种主流思路：

一是从头训练一个视频专用模型；

二是“膨胀”已有的图片生成模型——给它加上处理“时间”的能力，让会画图的变成会拍电影的。Sora用的就是第二种，底层架构是Transformer。

二、大模型的最新战报：2025—2026年发生了什么？

过去一年半，AI视频生成赛道发生了根本性变化。2025年被从业者视为行业“分水岭”——技术从“能做什么”的探索期，进入了“如何帮我赚钱”的价值兑现期。

OPENAI SORA 2：从参数竞争到应用生态

2026年9月底，OpenAI正式发布Sora 2（另有报道说是9月30日发布，存在不同时间口径），彻底打破了此前的长度限制，支持15至25秒视频生成，并首次引入同步音视频生成和角色客串功能。更让行业震动的是，OpenAI同步推出了以角色客串功能为核心的社交应用Sora，允许用户将自己的形象和声音以“惊人保真度”插入AI生成的场景中，打造类似TikTok的短视频分享平台。Sora 2生成的运动轨迹更符合真实物理规律，能够捕捉如奥运会体操动作或篮球动作这类传统模型难以处理的复杂场景。此外，2026年3月，Sora 2API还引入了角色一致性、20秒时长和横竖屏双输出三大升级，进一步解决了批量视频生产中的一致性痛点。

可灵AI：从单季3.4亿到原生4K

快手可灵AI是2025—2026年商业化最迅猛的玩家之一。2025年第四季度，可灵AI单季营收达到3.4亿元，年化收入运行率超过3亿美元，全球用户规模突破6000万，累计生成视频超6亿个，服务企业客户超3万家。

技术迭代同样惊人：

2025年12月，可灵2.6上线，带来里程碑式的“音画同出”能力——支持中英双语对白生成、歌唱演绎以及环境音效的同步输出。

2026年1月，“动作控制”功能引爆全球社交媒体。AIGC生成的小狗、猫咪跳舞视频播放量最高突破2亿，点赞数超百万，a16z投资合伙人在X上直呼其为“视频界的Nano Banana”。

2026年4月，可灵推出业内首个原生4K直出功能，无需复杂后期处理即可直接生成符合影视行业标准的高分辨率画面，标志着AI视频生成在专业影像领域实现里程碑式升级。

可灵的商业成功也体现了一个重要趋势：视频生成赛道的付费意愿明显强于通用大模型，形成了B端（影视工业、广告营销）和C端（专业创作者）双轮驱动的业务结构。

VIDU Q3：全球首个16秒音视频直出

2026年1月30日，生数科技正式发布Vidu Q3，这是全球首个支持16秒音视频直出的AI视频模型。其意义不止于“变长了”——16秒跨越了叙事阈值，足以完成一次完整的情绪起承转合，可以作为漫剧、短剧及影视剧中的独立叙事单元直接被使用。同时，音画实现端到端直出，剪辑节奏、情绪呼吸点与叙事重点在模型内部完成对齐。

在国际权威AI评测Artificial Analysis榜单中，Vidu Q3超越Runway Gen-4.5、Google Veo 3.1和OpenAI Sora 2，排名中国第一、全球第二。

腾讯混元：从视频到视听一体

2025年8月，腾讯混元团队开源了端到端视频音效生成模型HunyuanVideo-Foley，首次实现了“看懂画面、读懂文字、配准声音”的专业级音效生成能力。随后，混元又开源了HunyuanVideo-Avatar——仅凭单张人物图片与一段音频即可生成包含自然表情、唇形同步及全身动作的高动态视频，将数字人创作门槛降至“零训练数据”级别。

通义万相：从2.6到2.7

2025年12月，阿里发布万相2.6系列，作为国内首个支持角色扮演功能的视频模型，支持单人、多人、人与物合拍以及多镜头自动切换。2026年4月，万相2.7-Video系列模型进一步扩展至文生视频、图生视频、参考生视频和视频编辑四大模型，支持文本、图像、视频、音频全模态输入，最多支持5个视频主体参考，为业内最多。

市场数据：AI视频正在成为主流

根据2026年4月发布的《中国网络视听发展研究报告（2026）》，2025年我国AI生成视音频内容超20亿条，同比增长超14倍，当前网络视听用户对AI生成内容的接触度已突破半数。超过四成用户认为AI生成的内容新奇有趣。此外，《中国AI影视发展报告（2025-2026）》指出，AI已覆盖影视创意、拍摄、后期、宣发、运营全流程，六个主要商业模式已初步跑通。

三、产品经理视角：从技术文章，我们读到了什么产品密码？

回到Lilian Weng这篇技术文章，看技术文章，不能只看“能做什么”，更要看**“不能做什么”以及“为什么不能”**。

1. 当前技术的能力边界——直接影响产品设计

技术限制	对产品的实际影响
时间连续性难保证	长视频容易出现闪动、变形。产品需要设计分段生成+智能拼接，让用户体验平滑。
训练数据稀缺	模型对罕见动作、特定题材可能效果不佳。产品层面需要引导用户使用“常见场景”提示词。
计算成本高	生成一段视频的算力是图片的几十倍。定价策略、免费额度、排队机制都需要重新设计。
多镜头一致性难	同一角色在多个镜头切换时可能变脸变装。2026年Sora 2API的角色一致性和万相2.6的分镜控制正在逐步解决这一痛点。

2. 隐藏的产品机会——你可能没读出来的信息

提示工程，将成为产品的核心竞争力

这篇文章提到Tune-A-Video：用一个视频就能微调模型。2026年，这一能力已在可灵的动作控制和万相的参考生视频中大规模落地——用户只需上传参考动作视频和需要动起来的主体图片，AI即可自动完成动作和表情迁移。未来产品拼的不是“能生成多高清”，而是“用户能不能精准控制”。那些能设计出好用的风格迁移、动作迁移功能的产品，会胜出。

多模态输入，正在成为新的产品范式

Gen-1模型把“结构”和“内容”分离的思路，在2026年已经被大规模商用——万相2.7支持多模态统一输入，可灵正在集成图片、视频、动作、镜头等多种输入模态。对产品设计的启示：组合控制比纯文字控制更强大。

四、对我们未来的生活和工作，到底有什么影响？

🎬 内容创作：短视频、广告、影视 —— 门槛跳水

过去，一条30秒的短视频要写脚本、拍摄、剪辑、配音，折腾一两天。现在，几分钟就能生成一条“以假乱真”的片段。2025年，一家影视公司与可灵合作，利用动作捕捉能力将真人表演“叠加”生成鬼怪角色，直接拓展了AI在影视创作中的边界。根据《中国AI影视发展报告（2025-2026）》，AI已覆盖影视创意、拍摄、后期、宣发、运营全流程，六个主要商业模式初步跑通。

今年清明节，两个年轻人用“可灵AI”在三天内制作了一部5分钟短片《纸手机》，讲述小男孩想给奶奶烧“纸手机”的故事。不少网友看哭，有评论说：“最没人味的AI却制作了最有人味的短片。”当AI能包揽99%的技术时，决定作品灵魂的，是那1%的“活人感”。

🛒 电商与营销：千人千面的广告，来了

联想百应智能体接入通义万相2.6后，成为国内首个落地原生视频生成能力的L3级企业AI智能体，企业只需输入文字指令即可自动生成包含开场、主体、收尾的完整叙事短片。

💼 职场人：会用AI vs 不会用，差距会拉大

2025年12月，可灵AI月收入突破2000万美元（约1.4亿元人民币），商业化提速肉眼可见。已经有产品经理用AI视频工具做副业。但也不用过分焦虑：AI目前还搞不定复杂的物理模拟和多镜头一致性。它改变的是工作方式，而不是岗位存在性。快手高级副总裁马宏彬说得好：“当AI能包揽99%的技术时，决定作品灵魂的，是那1%的‘活人感’”。

🎮 游戏·教育·社交：体验重塑

社交：Sora 2的配套社交App已经让用户可以在AI生成的场景中实现“客串”，插入自己的形象和声音。

教育：老师用一句话生成“洋流运动”10秒演示视频，学生秒懂。

游戏：理论上可以根据玩家选择实时生成剧情过场动画。

⚠️ 不得不提的风险

假视频更难分辨：“AI生成视音频内容超20亿条”的同时，确权和版权保护成为行业新挑战。中国网络视听节目服务协会网络版权工作委员会筹备负责人表示，法律上难以区分AI简单指令生成的内容和“人机协同”的深度创作。

内容同质化：这反而会逼着真正有创意的人去制造差异化。

五、现在该做的三件事

1. 不再只盯着技术参数刷分

A16Z最近有个洞察：视频模型的进步不再是“参数变强”，而是多样化和专业化。“在某一个点上做到极致”比“各方面都还行”更容易跑出来。可灵用“动作控制”撬动全球市场就是最好的例证。

2. 思考“AI视频能力”怎么融进你现有产品

不要从零造一个视频生成App。想想：你的电商平台能不能让商家一键生成商品视频？你的教育App能不能让老师快速生成教学动画？联想百应智能体的思路值得参考——将AI视频生成融入营销全链路，让企业从“图文时代”全面迈向“原生视频时代”。

3. 保持对行业动态的敏感

2025年12月到2026年4月，国产视频大模型几乎每个月都有重磅更新：可灵2.6→3.0→原生4K，Vidu Q2→Q3，通义万相2.6→2.7，混元Foley→Avatar。国内生态正从“工具性应用”走向“生态性重构”。

AI生成视频，过去一年半走完了“从能用到赚钱”的质变。快手可灵AI在2025年第四季度单季收入3.4亿元，这个数字本身就说明了一切——视频生成不再是纯烧钱的赛道，而是真正找到了付费场景的高价值工具。

作为产品经理，我们的职责不是恐惧技术，而是驾驭技术，设计出那些让普通人也能爆发的产品。快手高级副总裁马宏彬的那番话值得反复品味：当AI能包揽99%的技术时，决定作品灵魂的，是那1%的“活人感”。

毕竟，真正的产品创新，从来不是技术有多牛，而是技术解决了谁的什么问题。

最后，用快手党委书记马宏彬的这句话结尾——“最没人味的AI却制作了最有人味的短片。”这可能就是AI视频生成最好的注脚。

你对AI视频生成最期待的应用场景是什么？欢迎在评论区聊聊。

如果这篇文章对你有启发，点个“在看”，让更多产品同行看到。