AI视频|可灵AI认知篇:必读的工具背景与核心优势
光
锥
里
子
Light Cone Essence Plan

作 者丨 张 宁
编 辑丨 黑 妞
【导读】可灵AI作为快手自研的视频生成大模型,正成为创作者的新选择。本篇将带你了解其团队背景、发展历程与核心优势,帮助你快速建立对这款工具的全面认知,为后续实操打下基础。
📌 本章内容概括:
-
可灵背后的技术靠山是谁?
-
它是如何一步步进化到现在的?
-
它到底具备哪些不可替代的核心优势?
01
引言:AI视频时代为何可灵是绕不开的名字?
从2024年“文生视频”“图生视频”概念爆发至今,AI视频赛道早已从“尝鲜期”进入了“应用期”。
对于创作者而言,工具的更迭速度往往让人眼花缭乱。但在众多选择中,快手可灵AI(Kling)始终是一个无法忽视的存在。
在国产AI视频大模型的阵营里,可灵是极少数能够与OpenAI的Sora在技术层面“掰手腕”的产品,更是真正大规模落地、服务于百万创作者的生产力工具。
在本章中,我们将暂时放下具体的参数调节,转而向深处挖掘。
我们将一起回顾可灵AI截止到目前的团队成员、成长历程以及核心优势。
02
出身名门:可灵AI背后的“技术天团”
可灵(KLING)是快手AI团队自主研发的视频生成大模型,2024年6月6日正式上线。彼时距离OpenAI发布Sora过去了四个月。
在技术圈层,快手拥有世界级的AI研发实力。可灵AI正是快手AI团队多年技术积累的集中爆发。
这支团队在计算机视觉、深度学习、多媒体处理等领域有着深厚的沉淀,曾攻克过无数视频处理的技术难关。
因此,可灵AI从诞生之初,就具备了工业级的稳定性与高质量。

盖坤 快手高级副总裁、可灵AI事业部负责人
盖坤是典型的技术极客出身,拥有清华大学博士学位,曾是阿里巴巴“阿里星”计划的顶尖人才。
2020年加入快手后,入职初期,他专注于推荐算法的优化与升级,主导了快手推荐大模型的技术落地,通过推荐技术改革,显著提升了快手的人均时长和用户粘性。
战略眼光上,在2023年大多数大厂还在卷文字大模型之时,敏锐察地判断视频生成式下一个风口,带领团队克服资源限制,2024年率先发布了可灵AI 1.0,这是全球首个面向普通用户开放的DiT架构视频生成模型。
回想当Sora在2024年初发布并展示了DiT架构的潜力后,盖坤便迅速带领团队跟进,在春节后仅用几天时间就完成了技术路线的对齐,并决定全面转向DiT架构。
这种“看准了就全力投入”的决策力,是可灵能够迅速追赶并比肩国际顶尖水平的关键。

张迪 原快手副总裁、可灵大模型与多媒体技术团队负责人
现阿里巴巴淘天集团旗下“未来生活实验室”负责人
张迪,本硕毕业于上海交通大学计算机专业,是可灵AI从0到1的核心构建者与技术掌舵人。
于2010年加入阿里巴巴,担任资深技术专家,负责阿里妈妈大数据与机器学习工程架构。
2020年加入快手,担任技术副总裁。
2023年初,被任命为大模型与多媒体技术团队负责人,聚焦大模型、视觉生成模型和多模态模型等方向。
2024年起,作为技术负责人牵头可灵AI的底层架构研发与应用落地,主导了可灵AI的多次版本迭代。
2025年4月,张迪作为快手副总裁、可灵AI负责人发布了可灵2.0大师版。
同年7月,张迪在全球数字经济大会演讲中披露了可灵AI的收入情况。2025年8月,张迪卸任快手可灵AI技术负责人职务并离职。
同年9月初,张迪加入哔哩哔哩担任技术条线负责人,但一个多月后即离开。
2025年11月,张迪离开哔哩哔哩,重返阿里巴巴,加入淘天集团未来生活实验室并担任负责人,职级为P11,向淘天集团首席科学家郑波汇报。其领导的团队研发的HappyHorse-1.0模型在AI视频生成榜单登顶。

可灵AI
除了领军人物,可灵团队其他人的整体“人才密度”也极高。
团队成员主要来自清华大学、中国科学技术大学、上海交通大学等国内顶尖高校,以及谷歌、微软、Meta等国际科技巨头的核心实验室。
这支“建制化”的精英团队,在视频理解、图像生成、物理模拟等细分领域都有着极深的造诣。
同时战略地位上也是公司级的“一号工程”,可灵AI在快手内部的地位极高,这直接决定了其资源投入的强度。
负责人直接向快手创始人兼CEO程一笑汇报,这种高规格的组织架构,确保了团队在算力资源、人才招募和产品迭代上拥有最高的优先级。
在快手看来,可灵AI不仅是技术展示,更是公司从“短视频平台”向“AI驱动的内容生态”转型的核心引擎。
03
进化之路:从1.0到3.0的“狂飙”发展史
2024年6月6日起——Video1.0时代
可灵AI的初代版本,作为全球首个面向用户开放的视频大模型,以其出色的物理模拟能力引发关注。
可灵AI的出现,既是时代的产物,也推动了时代的发展。
可灵AI官网正式上线,成为全球首个面向普通用户开放的真实影像级视频生成大模型。
它以惊人的画质和物理模拟能力,一举打破了Sora发布后市场的沉寂,抢占了国产视频大模型的市场先机。
2025年4月15日起——Video2.0时代
这一年,可灵进入功能爆发期。
从2.0到2.1系列模型的迭代,不仅带来了“多图参考”、“视频音效”、“灵动画布”等创新功能,更将产品定位从单一的视频生成工具,升级为集创意、制作、后期于一体的一站式生产力引擎。
还重点增强了音画同步生成能力,让视频不仅“好看”,还能“好听”。
2026年2月5日起——Video3.0时代
进入2026年,春节之后可灵发布3.0系列模型,以 All-in-One 的一体化架构重塑视频模型体系,实现多模态输入与输出的高度统一。
通过在角色一致性、镜头语言和多模态融合等维度的底层突破,可灵 3.0 全面打通了涵盖生成、编辑及后期的影视级全制作链路。
同年在12月,可灵2.6中,在动作控制的精准度、角色的一致性、音画同步的协调性等方面实现了重大突破。它不再仅仅是生成一段“好看的动画”,而是开始真正贴近专业影视工业流程,成为创作者手中可靠的“数字制片厂”。
04
硬核实力:可灵AI的四大核心优势
一、原生多模态架构 (AIO – All-in-One)
可灵3.0的核心是AIO(All-in-One)原生多模态架构。这不仅仅是功能的堆叠,而是实现了输入与输出的高度统一。
输入端进化:不仅仅是文字,支持将图片、视频等非文本文件作为“特殊词(Special Tokens)”融入指令流。这意味着用户可以通过视觉素材精准表达文字难以描述的意图(如特定人物形象、细微动作)。
输出端进化:实现了音画同步原生生成。模型不仅能生成高质量视频,还能同时生成匹配的音频(音效、背景乐甚至口型同步),打通了影视级制作的全链路。
二、重新定义“模态”:将“动作”变为可编程语言
这是可灵区别于其他模型的关键创新。可灵团队认为,动作(Motion)本身就是一种模态。
动作控制:不依赖学术界主流的“火柴人”方案,而是将动作抽象化。用户不再需要找参考视频“喂”给AI,而是可以直接与“动作模态”交互,指令如“快乐地奔跑”。
核心价值:解决了AI视频生成中长期存在的“动作不可控、容易崩坏”的痛点,实现了从“抽卡式生成”到“导演式创作”的跨越。
三、极致的一致性解决方案
为了解决电影级叙事中对“一致性”的严苛要求,可灵采用了分层解决的思路:
人物一致性:通过主体库技术,确保同一角色在不同镜头下的形象稳定。
场景一致性:针对切镜头后场景结构变化的问题,提出了3D堆叠+表观细节生成的综合方案。即用粗糙的3D模型作为骨架,叠加生成模态的表观细节,以实现任意视角下场景的绝对一致(这是解决史诗级叙事的关键)。
四、世界模拟器的底层逻辑
可灵不仅仅是一个视频生成器,它的底层逻辑是“世界模拟器”。
物理规则内化:模型在训练中学习了真实世界的物理规律(如流体、光影、重力),因此生成的画面具有真实的质感,而非虚假的“塑料感”。
数据即算法:可灵的核心壁垒在于其处理数据的能力。由于自然界不存在天然的“文-视频”高质量对齐数据,可灵团队通过自研的视频理解模型去“制造”高质量数据,这种“材料科学”般的底层投入,决定了模型上限的厚度。
05
结语:从认知到实践
可灵AI的突围之路,本质上是一场关于“技术理想主义”与“工程现实主义”的博弈与融合。
回顾其发展历程,两年多前,在Sora惊艳世界却迟迟不落地的真空期,快手可灵凭借超强的战略直觉与执行力,抢先发布了全球首个用户可用的DiT大模型。
从2024年6月一鸣惊人的1.0版本,到如今2026年2月引领工业级叙事标准的3.0版本,可灵不仅仅是在刷新参数榜单,更是在重塑AIGC的底层逻辑。
它用“原生多模态架构”打破了音画分离的桎梏,用“动作即模态”的创新重新定义了可控性,用“3D堆叠”的构想为无限长视频的一致性铺平了道路。
在国产AI大模型千帆竞发的当下,可灵AI给出的答案掷地有声:真正的护城河,不在于单纯的“算力堆叠”,而在于对创作者痛点的极致洞察与对影视工业流程的深刻理解。
如果说Sora开启了人们对AI视频“能不能”实现的想象,那么可灵AI则通过一次次“敢不敢”的自我挑战——敢做全自研架构、敢啃动作控制硬骨头、敢向电影级叙事发起冲锋——将这种想象落地为触手可及的生产力。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
—— 完 ——
未经「光锥里子计划」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「光锥里子计划」后台留言取得授权,转载时需标注来源并插入本公众号名片。
一键关注 👇 点亮星标
AI世界见
夜雨聆风