AI视频|可灵AI认知篇:必读的工具背景与核心优势-夜雨聆风

AI视频|可灵AI认知篇:必读的工具背景与核心优势

光

锥

里

子

Light Cone Essence Plan

作者丨张宁

编辑丨黑妞

【导读】可灵AI作为快手自研的视频生成大模型，正成为创作者的新选择。本篇将带你了解其团队背景、发展历程与核心优势，帮助你快速建立对这款工具的全面认知，为后续实操打下基础。

📌 本章内容概括：

可灵背后的技术靠山是谁？
它是如何一步步进化到现在的？
它到底具备哪些不可替代的核心优势？

引言：AI视频时代为何可灵是绕不开的名字？

从2024年“文生视频”“图生视频”概念爆发至今，AI视频赛道早已从“尝鲜期”进入了“应用期”。

对于创作者而言，工具的更迭速度往往让人眼花缭乱。但在众多选择中，快手可灵AI（Kling）始终是一个无法忽视的存在。

在国产AI视频大模型的阵营里，可灵是极少数能够与OpenAI的Sora在技术层面“掰手腕”的产品，更是真正大规模落地、服务于百万创作者的生产力工具。

在本章中，我们将暂时放下具体的参数调节，转而向深处挖掘。

我们将一起回顾可灵AI截止到目前的团队成员、成长历程以及核心优势。

出身名门：可灵AI背后的“技术天团”

可灵（KLING）是快手AI团队自主研发的视频生成大模型，2024年6月6日正式上线。彼时距离OpenAI发布Sora过去了四个月。

在技术圈层，快手拥有世界级的AI研发实力。可灵AI正是快手AI团队多年技术积累的集中爆发。

这支团队在计算机视觉、深度学习、多媒体处理等领域有着深厚的沉淀，曾攻克过无数视频处理的技术难关。

因此，可灵AI从诞生之初，就具备了工业级的稳定性与高质量。

盖坤快手高级副总裁、可灵AI事业部负责人

盖坤是典型的技术极客出身，拥有清华大学博士学位，曾是阿里巴巴“阿里星”计划的顶尖人才。

2020年加入快手后，入职初期，他专注于推荐算法的优化与升级，主导了快手推荐大模型的技术落地，通过推荐技术改革，显著提升了快手的人均时长和用户粘性。

战略眼光上，在2023年大多数大厂还在卷文字大模型之时，敏锐察地判断视频生成式下一个风口，带领团队克服资源限制，2024年率先发布了可灵AI 1.0，这是全球首个面向普通用户开放的DiT架构视频生成模型。

回想当Sora在2024年初发布并展示了DiT架构的潜力后，盖坤便迅速带领团队跟进，在春节后仅用几天时间就完成了技术路线的对齐，并决定全面转向DiT架构。

这种“看准了就全力投入”的决策力，是可灵能够迅速追赶并比肩国际顶尖水平的关键。

张迪原快手副总裁、可灵大模型与多媒体技术团队负责人

现阿里巴巴淘天集团旗下“未来生活实验室”负责人

张迪，本硕毕业于上海交通大学计算机专业，是可灵AI从0到1的核心构建者与技术掌舵人。

于2010年加入阿里巴巴，担任资深技术专家，负责阿里妈妈大数据与机器学习工程架构。

2020年加入快手，担任技术副总裁。

2023年初，被任命为大模型与多媒体技术团队负责人，聚焦大模型、视觉生成模型和多模态模型等方向。

2024年起，作为技术负责人牵头可灵AI的底层架构研发与应用落地，主导了可灵AI的多次版本迭代。

2025年4月，张迪作为快手副总裁、可灵AI负责人发布了可灵2.0大师版。

同年7月，张迪在全球数字经济大会演讲中披露了可灵AI的收入情况。2025年8月，张迪卸任快手可灵AI技术负责人职务并离职。

同年9月初，张迪加入哔哩哔哩担任技术条线负责人，但一个多月后即离开。

2025年11月，张迪离开哔哩哔哩，重返阿里巴巴，加入淘天集团未来生活实验室并担任负责人，职级为P11，向淘天集团首席科学家郑波汇报。其领导的团队研发的HappyHorse-1.0模型在AI视频生成榜单登顶。

可灵AI

除了领军人物，可灵团队其他人的整体“人才密度”也极高。

团队成员主要来自清华大学、中国科学技术大学、上海交通大学等国内顶尖高校，以及谷歌、微软、Meta等国际科技巨头的核心实验室。

这支“建制化”的精英团队，在视频理解、图像生成、物理模拟等细分领域都有着极深的造诣。

同时战略地位上也是公司级的“一号工程”，可灵AI在快手内部的地位极高，这直接决定了其资源投入的强度。

负责人直接向快手创始人兼CEO程一笑汇报，这种高规格的组织架构，确保了团队在算力资源、人才招募和产品迭代上拥有最高的优先级。

在快手看来，可灵AI不仅是技术展示，更是公司从“短视频平台”向“AI驱动的内容生态”转型的核心引擎。

进化之路：从1.0到3.0的“狂飙”发展史

2024年6月6日起——Video1.0时代

可灵AI的初代版本，作为全球首个面向用户开放的视频大模型，以其出色的物理模拟能力引发关注。

可灵AI的出现，既是时代的产物，也推动了时代的发展。

可灵AI官网正式上线，成为全球首个面向普通用户开放的真实影像级视频生成大模型。

它以惊人的画质和物理模拟能力，一举打破了Sora发布后市场的沉寂，抢占了国产视频大模型的市场先机。

2025年4月15日起——Video2.0时代

这一年，可灵进入功能爆发期。

从2.0到2.1系列模型的迭代，不仅带来了“多图参考”、“视频音效”、“灵动画布”等创新功能，更将产品定位从单一的视频生成工具，升级为集创意、制作、后期于一体的一站式生产力引擎。

还重点增强了音画同步生成能力，让视频不仅“好看”，还能“好听”。

2026年2月5日起——Video3.0时代

进入2026年，春节之后可灵发布3.0系列模型，以 All-in-One 的一体化架构重塑视频模型体系，实现多模态输入与输出的高度统一。

通过在角色一致性、镜头语言和多模态融合等维度的底层突破，可灵 3.0 全面打通了涵盖生成、编辑及后期的影视级全制作链路。

同年在12月，可灵2.6中，在动作控制的精准度、角色的一致性、音画同步的协调性等方面实现了重大突破。它不再仅仅是生成一段“好看的动画”，而是开始真正贴近专业影视工业流程，成为创作者手中可靠的“数字制片厂”。

硬核实力：可灵AI的四大核心优势

一、原生多模态架构 (AIO – All-in-One)

可灵3.0的核心是AIO（All-in-One）原生多模态架构。这不仅仅是功能的堆叠，而是实现了输入与输出的高度统一。

输入端进化：不仅仅是文字，支持将图片、视频等非文本文件作为“特殊词（Special Tokens）”融入指令流。这意味着用户可以通过视觉素材精准表达文字难以描述的意图（如特定人物形象、细微动作）。

输出端进化：实现了音画同步原生生成。模型不仅能生成高质量视频，还能同时生成匹配的音频（音效、背景乐甚至口型同步），打通了影视级制作的全链路。

二、重新定义“模态”：将“动作”变为可编程语言

这是可灵区别于其他模型的关键创新。可灵团队认为，动作（Motion）本身就是一种模态。

动作控制：不依赖学术界主流的“火柴人”方案，而是将动作抽象化。用户不再需要找参考视频“喂”给AI，而是可以直接与“动作模态”交互，指令如“快乐地奔跑”。

核心价值：解决了AI视频生成中长期存在的“动作不可控、容易崩坏”的痛点，实现了从“抽卡式生成”到“导演式创作”的跨越。

三、极致的一致性解决方案

为了解决电影级叙事中对“一致性”的严苛要求，可灵采用了分层解决的思路：

人物一致性：通过主体库技术，确保同一角色在不同镜头下的形象稳定。

场景一致性：针对切镜头后场景结构变化的问题，提出了3D堆叠+表观细节生成的综合方案。即用粗糙的3D模型作为骨架，叠加生成模态的表观细节，以实现任意视角下场景的绝对一致（这是解决史诗级叙事的关键）。

四、世界模拟器的底层逻辑

可灵不仅仅是一个视频生成器，它的底层逻辑是“世界模拟器”。

物理规则内化：模型在训练中学习了真实世界的物理规律（如流体、光影、重力），因此生成的画面具有真实的质感，而非虚假的“塑料感”。

数据即算法：可灵的核心壁垒在于其处理数据的能力。由于自然界不存在天然的“文-视频”高质量对齐数据，可灵团队通过自研的视频理解模型去“制造”高质量数据，这种“材料科学”般的底层投入，决定了模型上限的厚度。

结语：从认知到实践

可灵AI的突围之路，本质上是一场关于“技术理想主义”与“工程现实主义”的博弈与融合。

回顾其发展历程，两年多前，在Sora惊艳世界却迟迟不落地的真空期，快手可灵凭借超强的战略直觉与执行力，抢先发布了全球首个用户可用的DiT大模型。

从2024年6月一鸣惊人的1.0版本，到如今2026年2月引领工业级叙事标准的3.0版本，可灵不仅仅是在刷新参数榜单，更是在重塑AIGC的底层逻辑。

它用“原生多模态架构”打破了音画分离的桎梏，用“动作即模态”的创新重新定义了可控性，用“3D堆叠”的构想为无限长视频的一致性铺平了道路。

在国产AI大模型千帆竞发的当下，可灵AI给出的答案掷地有声：真正的护城河，不在于单纯的“算力堆叠”，而在于对创作者痛点的极致洞察与对影视工业流程的深刻理解。

如果说Sora开启了人们对AI视频“能不能”实现的想象，那么可灵AI则通过一次次“敢不敢”的自我挑战——敢做全自研架构、敢啃动作控制硬骨头、敢向电影级叙事发起冲锋——将这种想象落地为触手可及的生产力。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

—— 完 ——

未经「光锥里子计划」授权，严禁以任何方式在网页、论坛、社区进行转载！

公众号转载请先在「光锥里子计划」后台留言取得授权，转载时需标注来源并插入本公众号名片。

一键关注 👇 点亮星标

AI世界见