乐于分享
好东西不私藏

写文档就能做视频!Adobe发布Doki,用文本原生界面重构AI视频创作全流程

写文档就能做视频!Adobe发布Doki,用文本原生界面重构AI视频创作全流程

字数 2960,阅读大约需 15 分钟

写文档就能做视频!Adobe发布Doki,用文本原生界面重构AI视频创作全流程

每个想做视频的创作者,几乎都被同样的问题困住过:
想把脑海里的故事变成视频,先要学复杂的非线性剪辑软件,在时间线、多轨道、素材库之间反复横跳;用AI视频工具,只能生成几秒的单镜头片段,想保持人物、场景、风格的一致性,要在每个Prompt里重复写大段描述;从脚本撰写、素材生成、剪辑拼接,到音频配乐,要在五六个工具之间来回切换,创意的热情全被繁琐的操作消耗殆尽。

有没有一种可能,做视频能像写文档一样简单?

Adobe Research最新发布的这项研究,给出了颠覆性的答案。团队推出了Doki——一个完全文本原生的生成式视频创作界面,把视频创作的全流程:资产定义、场景结构、镜头生成、剪辑精修、音频添加,全部浓缩到了一个文本文档里。你写的每一句话,既是故事脚本,也是可执行的视频生成指令;你定义的每一个角色、场景、风格,能在全片自动保持一致,再也不用重复写Prompt。

在为期一周的用户研究中,10位从专业电影人到零经验新手的参与者,用Doki产出了46支视频,系统可用性评分(SUS)平均高达81.2,达到了“优秀”级别。它不仅让零经验的创作者第一次做出了自己的动画故事,也让专业创作者实现了15分钟产出1分钟视频的效率飞跃。

一、行业痛点:AI视频时代,我们依然被工具困住了

论文开篇就戳破了当下AI视频创作的核心困境:尽管文生视频模型已经能生成高保真的短片,但创作工具的交互范式,依然停留在传统剪辑的框架里。

团队通过分析大量创作者的工作流,总结出了三个行业普遍存在的核心痛点:

  1. 1. 工具与格式的碎片化:哪怕做一支简单的短视频,创作者也要在文本编辑器、文生图工具、视频生成模型、音频软件、剪辑软件之间反复切换,脚本、素材、工程文件散落在不同格式里,频繁的上下文切换彻底打断了创作流。
  2. 2. Prompt工程优先于故事创作:为了保持多镜头的一致性,创作者要在每个镜头的Prompt里重复描述人物、场景、风格,30个镜头就要写30段冗长的Prompt,精力全放在了Prompt调优上,反而没有心力打磨叙事本身。
  3. 3. 一致性与连贯性的失控:仅靠参考图无法保障长故事的视觉连贯性,随着项目规模扩大,人物形象、场景风格、叙事节奏必然会出现漂移,而现有工具没有提供结构性的解决方案。

更关键的是,现有工具几乎都采用了“便当盒”式的多面板界面,把脚本、画布、故事板、时间线拆分在不同窗格中,创作者需要不断在多个视图之间 reconcile,产生了极高的认知负荷。而Doki选择了一条完全相反的路:把所有创作环节统一到一个文本原生的单一表示中,让写故事的过程,就是做视频的过程

图2 界面范式对比:(a)传统“便当盒”多面板界面,创作分散在多个独立视图中;(b)Doki的文本原生范式,文档本身就是核心创作界面

二、Doki的核心设计:文档即视频,文本即创作

Doki的核心设计,是一套三层层级的结构化文本表示,完美对齐了人类的写作习惯和电影制作的底层逻辑:

文档即视频,段落即序列,句子即镜头

  • • 最高层:整个文档对应一个完整的视频项目,文本的排列顺序直接决定了视频的结构;
  • • 中间层:每个段落对应电影中的一个场景/序列,围绕一个连续的叙事单元组织多个镜头;
  • • 最底层:每个句子对应一个独立的镜头,是视频的最小创作单元。

在此基础上,Doki用**@提及(Mentions)** 和**#标签(Hashtags)** 构建了一套参数化定义系统,从根本上解决了多镜头一致性的行业难题。

定义类型
符号
核心用途
示例
角色/场景/道具/参考帧
@
定义故事中的实体元素,一次定义,全文档复用
Character @Pandi = 一只戴墨镜穿西装的可爱小熊猫
风格/镜头/构图/氛围
#
定义视觉与镜头语言规则,支持全局生效或局部指定
Style #all = 吉卜力动画风格

#WideShot 全景镜头

表 Doki核心参数化定义体系

你只需要在文档开头用一行文本定义好角色、场景、全局风格,后续的故事里只需要用@和#引用,Doki就会自动把定义注入到每个镜头的生成中,同时自动引用前序镜头的画面作为参考,从结构上保障了全片的视觉连贯性。修改定义时,所有引用的镜头会自动标记为待更新,一键就能完成全片的风格迭代,彻底告别了逐个修改Prompt的繁琐。

除此之外,Doki的极简交互设计,让创作门槛降到了极致:

  • • 斜杠菜单:输入/就能呼出全部创作工具,新建镜头、定义资产、添加音频,无需记忆任何指令;
  • • 行内镜头预览:每个镜头的生成预览直接嵌入在文本中,点击就能播放、剪辑、重新生成,不用离开文档就能完成精修;
  • • 双AI代理体系:侧边栏对话代理可以基于全文档上下文完成大规模修改,行内代理能选中文本直接做润色、转定义、自定义修改,AI的每一步操作都直接体现在文档里,完全透明可编辑;
  • • 原生音频支持:用方括号就能在文本中插入旁白、背景音乐、音效,和视频生成深度同步。

图4 Doki镜头创建流程:在文本中插入镜头节点,后续的描述就是生成Prompt,系统先生成预览图,再生成视频片段,全程在文档内完成

三、用户研究:10位创作者,46支视频,验证文本原生的创作力

为了验证Doki的实际价值,团队开展了为期一周的日记式用户研究,招募了10位不同背景的参与者,涵盖专业电影人、动画师、设计师、软件工程师,以及零视频创作经验的新手。

参与者ID
职业
视频创作频率
生成式AI使用经验
系统可用性SUS评分
1
UX设计师
一年几次
一年几次
87.5
2
电影制作人
每天
每天
77.5
3
产品设计师
每周
几乎不用
75.0
4
软件工程师
一年几次
每天
90.0
5
动画师
每天
几乎不用
80.0
6
项目经理
一年几次
每天
72.5
7
动画师
每天
一年几次
62.5
8
产品设计师
每天
每天
87.5
9
平面设计师
每周
每月
90.0
10
内容创作者
每周
一年几次
87.5

表1 参与者背景与系统可用性评分,平均SUS得分81.2,达到“优秀”级别

研究结果展现出了文本原生范式的强大生命力:

  1. 1. 极致的创作效率:参与者平均单次使用时长91.7分钟,每分钟能产出0.6张预览图、0.3条视频,平均15分钟就能完成1分钟的完整视频,而传统手工作业,1分钟动画往往需要数天的制作周期。
  2. 2. 新手被彻底赋能:4位没有视频创作经验的参与者表示,Doki让他们第一次做出了属于自己的动画故事,原本需要专业技能的视频创作,变成了人人都能上手的写作。
  3. 3. 专业创作者的新工具:专业电影人和动画师并没有把Doki当成专业工具的替代品,而是将其作为快速原型、故事板创作的互补工具。一位动画师表示,手工制作1分钟动画需要2个月,而用Doki1小时就能完成故事版动态预览,效率提升是颠覆性的。
  4. 4. AI自动化与创作所有权的完美平衡:8位参与者会优先用AI生成初稿,甚至全程依赖AI代理完成大部分工作,但所有人都表示自己依然拥有强烈的创作所有权,他们把自己的角色比作“导演”,而AI是执行的团队——文档作为人机协同的共同基础,让人类始终掌握着叙事的最终决策权,AI的每一步操作都透明、可追溯、可修改。

图11 参与者用Doki创作的视频关键帧,涵盖故事叙事、教学、广告、音乐视频等多种类型

四、范式革命:文本,是人机协同创作的最佳共同基础

这篇论文的价值,远不止于推出了一款新的AI视频工具,而是重新定义了生成式AI时代的创作交互范式。

当下绝大多数AI创作工具,都遵循“Prompt输入-黑盒生成-成品输出”的模式,创作者很难在生成过程中介入和修改,AI的操作是不透明的,一旦生成结果不符合预期,只能推倒重来。而Doki提出了一个全新的思路:用文档作为人机协同的中间表示,它既是人类可读可编辑的故事脚本,也是AI可理解可执行的生成指令

在这个范式里,人类和AI不再是“指令-执行”的单向关系,而是在同一个文档空间里协同创作。AI的所有修改都直接体现在文本中,人类可以随时打断、修改、调整,创作的主动权永远掌握在人手里,同时又能充分利用AI的生成能力。

当然,论文也坦诚了当前方案的局限性:线性的文本文档,在表达时间并发、跨镜头转场、音画精准同步等精细的时间控制上,依然存在短板。未来团队会通过轻量级的时间原语,进一步完善文档的时间表达能力。

但不可否认的是,Doki为生成式视频创作,打开了一条全新的道路。它让我们看到,AI时代的创作工具,不该是用复杂的界面复刻传统剪辑的流程,而应该回归创作的本质——让创作者专注于故事本身,把技术的繁琐交给AI。

当写文档就能做视频,当每个人都能把脑海里的故事,轻松变成可看可感的视频,创作的边界,将会被无限拓宽。

https://arxiv.org/pdf/2603.09072
新闻可信度评估RAG迎来权威基准!TREC DRAGUN赛道开源,自动评估与人类排序一致性达87.2%
AI代码评审的残酷真相:高召回率背后,是开发者的效率灾难
LLM写代码总翻车?ESAA架构:用事件溯源重构AI编程智能体,可审计、可复现、零越权