一个营销人今天做了一件事
今天,我想给两个品牌——面向国内的明道云,和面向海外的 nocoly——搭一套 AI 视频生产流水线。
需求很具体:脚本、分镜、生图、生视频,全程 AI 驱动,我只管创意方向和最终审片。
没有预算雇视频团队,外包太慢,而内容需求是持续性的。所以这条路,我必须走通。
我不会想到,这件小事会在今天撞上一个比它大得多的故事。
工具选型:为什么选港大的 ViMax?
编排层我选了 ViMax,港大 HKU-IDS 出品的开源多智能体视频框架。理由很清楚:
它把视频生产拆成 Director、Screenwriter、Cinematographer 等多个 Agent 分工协作,和真实的视频制作流程是对应的,有工程骨气,不是把所有事情糊在一个 prompt 里的那种做法。完全开源,遇到问题能看源码,这对我这种要深度定制的需求至关重要。
生图和视频接的是即梦(火山引擎)API。
踩了几个坑,跑通了一套流水线

AI 生成的 nocoly 剧情视频分镜图:员工正在向老板介绍一个新的无代码产品
花了大半天,踩了几个有代表性的坑:
第一个坑:AI 的「文化默认值」。 Prompt 里写"现代办公室",第一次跑出来是竹林流水、东方庭院。必须加硬约束:No Asian architecture. No outdoor scenes.——排除法比描述法更管用。
第二个坑:人物一致性靠「按角色分配参考图」。 我的剧情有两个角色,一开始用同一张图做所有镜头的参考,所有人都长成一个样。正确做法:先为每个角色单独生成 portrait,再按镜头出现的角色路由。

第三个坑:图生视频(i2v)和文生视频(t2v)是两套不同的 API,权限、模型名、请求格式全不一样。 文档里没写,只能靠报错慢慢试。
这些坑踩完,流水线跑通了,生图效果基本达到预期。
然后我遇到了今天的核心问题:视频没有声音。
一堵墙,和一个行业真相
解决声音问题,我的第一个方向是即梦官方刚推出的 Dreamina CLI——它有个命令叫 multimodal2video,能输入图片加音频,用 Seedance 2.0 直接生成带声音的视频。听起来完美。
安装、扫码、登录。提示:
请先成为即梦高级会员后体验 Dreamina CLI 功能。
最高级会员,每月 600 多块。
这堵墙让我去搜了一圈背景,然后发现了一个比我今天这件事大得多的故事。
为什么视频生成贵成这样?
大概 1 块钱一秒——这不是哪家公司的定价歧视,是底层成本决定的。
视频 = 大量连续帧,每帧相当于一张高质量图片,还要帧帧保持一致,运动流畅。现在的顶级视频模型参数通常在百亿级别,生成 5 秒 720P 视频,H100 要跑数十秒,算下来电费加折旧,市场价就是这个数。
字节之所以能在这个成本结构里形成垄断,背后有三层护城河:
数据护城河:Douyin/TikTok 是全球体量最大的短视频平台,几十亿条视频,训练数据质量无人能及。
算力自建:字节是国内最大的 GPU 算力自营方之一,边际成本远低于所有竞争对手。
分发闭环:Seedance 的视频直接在即梦平台变现,B 端定价高,C 端用户同时产生新的训练数据,飞轮自转。
这个结构,让字节在 AI 视频领域形成了「数据 × 算力 × 分发」的三重垄断。
然后圈内的情绪开始浮出来。「天下苦 Seedance 久矣」——这句话,说的是质量缩水、价格疯涨、市场上没有任何一个平价替代品。
就在这时,HappyHorse 出现了。
一个没有公司名的模型,悄悄爬上了全球排行榜第一
4 月 7 日,Artificial Analysis 的视频模型排行榜上出现了一个陌生的名字:HappyHorse-1.0。
没有发布会,没有公司名,没有技术论文。Artificial Analysis 在备注里用了「pseudonymous」——他们知道是谁,但没公开。
ELO 1412 分,全球第一。Dreamina Seedance 2.0,1358 分,第二。

Artificial Analysis 视频模型排行榜,HappyHorse-1.0 以 1412 分位居第一,Seedance 2.0 以 1358 分位居第二
不是小胜,54 分的差距在这个榜单上是非常大的差距。
张迪:一个人的完整轨迹,一场才华的流转

HappyHorse 官网显示:由 Taotian Group(阿里淘天集团)Future Life Lab 开发,负责人 Zhang Di
然后身份曝光了:阿里巴巴淘天集团旗下的「未来生活实验室」,负责人张迪。
这个名字背后,有一条很有意思的故事线。
2010 年,张迪从上海交通大学计算机系硕士毕业,直接进了阿里巴巴,加入阿里妈妈做搜索广告和精准投放的底层架构。做了将近 10 年,是公认的技术实力派,但当时名气还没出来。
2020 年,他跟着自己在阿里的老领导盖坤一起跳槽去了快手——后来的事情很多人知道了:他在快手主导建起了可灵 AI,从 2023 年开始快速迭代,一年内跑了超过 30 个版本,把运动一致性和视频质量做到了那时候圈内公认的最高水平。圈子里叫他「可灵之父」。快手可灵 2025 年二季度营收超 2.5 亿,同比涨幅 67%。
2025 年 8 月 15 日,快手发内部公告,张迪原来的职位被他的前领导盖坤接管,张迪正式离职。
细节很微妙:快手 CEO 程一笑没有发任何全员信,也没有公开表彰他的贡献——对于一个 VP 级别、主导了公司最重要 AI 产品的核心高管来说,这种离职方式相当罕见,也相当冷淡。
2025 年 9 月,他短暂加入了 B 站,出任技术负责人。
两个月后就走了。
坦白说,B 站给不了他真正需要的东西——顶级算力和足够大的资源盘,让他继续做大模型方向的事。两个月,够了解清楚了。
2025 年 11 月 4 日,消息传出:张迪回归阿里,担任淘天集团未来生活实验室负责人,P11 级,向阿里妈妈 CTO 郑波汇报。

2025 年 11 月 4 日,媒体报道张迪加入阿里,出任未来生活实验室负责人
这一次回来,已经不是 10 年前那个刚毕业的工程师。他带着在快手建立的方法论、团队经验、以及外部对他的信任,重新进场——这次手里有阿里的资源,有充足的算力,还有一个足够大的舞台。
5 个月后,HappyHorse 出现在排行榜第一名。
阿里为什么选择开源?这才是战略核心

HappyHorse 确认将完全开源:GitHub 和模型权重近期发布,创建账号免费
HappyHorse 宣布完全开源,这个选择本身比模型性能更值得拆解。
打破定价垄断:开源之后,Seedance 的高价失去合理性。开发者有了真实的选择,不再被任何一家平台定价绑架。
复制 Meta Llama 的打法:Meta 把 Llama 开源,直接瓦解了 OpenAI 闭源商业模式的定价逻辑,用生态和社区反制。阿里对字节做同样的事。
阿里云的隐性收益:开源模型本身免费,但大量开发者自研部署会用阿里云的 GPU,阿里云业务受益。开源是赔本买卖是假的,只是利润来自不同地方。
张迪的本能:他在快手时主导的可灵也走了相对开放的路线,他熟悉开源社区的规则,也知道开源信任对于一个新品牌意味着什么。
这不是慈善,是一笔非常精准的商业账。
从我今天做的这件小事,看到了什么
说实话,做完这一天,我有点震撼。
一个营销人想批量做广告视频,用 AI 替代传统制作链路——这件事在五年前是不可能的,三年前是很难的,今天我一个人一台电脑跑了大半天就初步跑通了。
这才是 AI 真正在做的事:把原来需要一个团队、一笔预算、几个月周期才能完成的工作,压缩成一个人可以独立完成的流程。
视频制作这个行业,不会是最后一个被这样重塑的领域。
还有一点让我振奋:我们通常说 AI 这件事中国在追赶,说的主要是文本大模型。但在视频生成这个维度,画面完全不同——Sora 震惊了全世界,但到今天它没有公开 API,普通开发者用不上;真正在全球排行榜上打头阵、可以真实接入使用的,是 Seedance 和 HappyHorse,都是中国团队。
Douyin 和 Kuaishou 是全球体量最大的短视频平台,训练数据的优势是结构性的。中国在视频 AI 这个维度走在全球前列,是真的,不是营销话术。
即将到来的 Launch 日
据社区消息,HappyHorse 将在近期正式公布 API 定价和接入方案。
我的视频流水线后端是可插拔的——如果 HappyHorse API 定价合理,换掉即梦后端理论上改一个配置就行。
更重要的是:HappyHorse 是视频和音频一次推理同时生成,如果接进来,我现在那套「生视频 → 单独 TTS → moviepy 混合」的链路可以大幅简化。
字节用 Seedance 封锁了 AI 视频的高质量出口。
阿里这匹快马来了。
关于作者
老雷(Andy),明道云 & Nocoly CMO,SaaS 行业从业十余年。骨子里是个产品人和技术迷,乔布斯的信徒,相信好的产品能改变世界。深度关注 AI、商业与科技趋势,目前在深度使用和实践 Claude Code,专注探索 AI 如何重塑产品形态和商业逻辑。不聊概念,只聊真实发生的事。
「雷码工坊笔记」,持续记录 AI 工具实战和行业观察。
夜雨聆风