再聊AI – Image2+SeeDance2.0,为时尚早,还是一步之遥?-夜雨聆风

再聊AI – Image2+SeeDance2.0,为时尚早,还是一步之遥?

大家好，五一快乐。

以往这个时候我应该在爆肝一款游戏，但今年的选择有了偏移，尤其是前几天没太花时间，稍微试了试Image2+SeeDance2.0就出了还不错的效果以后，我非常想知道，现在这两个工具的上限在哪里。

随着AI模型能力越来越强，“个人利用AI能撬动多大杠杆”这件事情，成了我工作和生活中一项必不可少的研究方向，太多以前想都不敢想的事情，现在“顺手”好像就可以做掉了。

但使用AI的“迷惑性”恰恰也在这里，每当一个新的模型出现，我们总是觉得自己好像可以瞬间变得无所不能，但只有真的花钱花时间仔细测测，才知道事情并没有想象的那么简单，起码目前这几波跟下来，对我来说，总是这样。

这三天，总计30多个小时，大概氪了不到500块钱（SeeDance 2.0是真的贵）我带着自己的一个个问题，把能试的全试了个遍，我想搞清楚：

目前这个东西直出的“声音（音效+音乐）”到底行不行？（语音确实不太行）
一个纯外行想做能一段能看的，像样的视频，在现在这个年代，要氪多少钱，能薅多少羊毛，要跨多少座桥？
针对目前对这些东西的测试也理解，我们可以预判一下，旧范式被替代的时间，还有多远？

截止目前，我打完了所有弹药，氪不动了，休息一会儿，码码字回回血。

还好，不管怎么样，这个时代，有一句话枭哥的话是不会错的，你想成为什么，直接成为，干就完了，听懂掌声。

音乐与音效

为什么先测这个？为什么不测语音？

语音：我看了蛮多AI视频的，里面语音能用的概率感觉不超过30%，很多视频还是存在生硬，机械，一耳朵AI的问题，当然肯定有更好的模型解决了这些问题，但我们这里只聊SD2.0直出的效果，我给到一个拉。
音乐：其实测试的意义也不大，因为很明显Suno摆在那里，而Suno现在已经可以胜任某些风格的编曲了，用SD2.0测试的意义在于，它懂不懂“根据视觉匹配音乐”，也就是ACE搞的那套对点音乐的路子，结果如下（不好意思，这个视频只有4s，虽然测了很多段子，但我也懒得一个个上传了，只意思一下传了比较典型两个）：

虽然时间短，但我们可以看出一些有趣的方向：

它知道“开门到镜头快速推进”需要一个filler，完全匹配镜头推进的时间
它知道“镜头推进的时候给一个whoosh”，你用好一点的监听可以听到，手机扬声器不明显
它知道“进入Club之后音乐情绪要起来”以及“这个美术风格大概可以配什么样的音乐”，这里卡的还不错

我手上还有十几段类似的视频，最长不超过15s，时间一长缺陷就很明显了，音乐已经从“大概能卡上”到基本卡不上了，而且不管是可听性，复杂度还是音质，都完全无法和Suno相比，区区15s的时长，SD2.0出的音乐就已经完全不能用了。

结论：它“懂”卡点，知道“匹配画面风格”，要求不高也能用，但我们肯定有更好的选择，给我选，我是不会用的，我依然给到拉到NPC之间。

音效：这个其实我最感兴趣，因为如果AI大模型可以根据视频匹配音效并且做的还不错，想一下我们平时的工作流？分层+设计+进Wwise先不谈，贴片这个事情还能存在多久？：

依然只有5s，但从这个片子来看，完成度是超过我预期的：

不管是手机扬声器还是监听，一耳朵过去，画面里该抓的声音几乎都抓到了
这么多东西，生成时间大概是2-3m（即梦VIP），音效基本是附带的，美术效果才是算力大头，不好讲算力全用在音频上会不会有质变
我觉得可以直接用，没毛病，当然你说不能用就是你对

但同样的，可能是因为这个画面比较简单，logo类的东西能学习的素材比较多，分镜提示词（下一段着重讲）也给的还可以，所以完成度比较高，我手上更加复杂的画面就明显要差一大截，基本还是不太能用的（比如上面那个15s的，就惨不忍睹）。

结论：它能抓画面细节，知道根据画面匹配音效，甚至还有点频率设计的思路，结合我对它的低期待，我给到人上人。

当然，用主要焦点在视频的大模型做音频测试，结果只能是个添头，这次测试的重头戏还是在Image2的文生图以及SD2.0的视频生成上，这部分真的是痛并快乐着，时常让我在极度兴奋和极度沮丧之间反复横跳，可能是我没有氪够，所以还不够强的原因吧。

让我们好好说说。

视觉设计与视频生成

先比较快的给大家一个大概的结论：

我测试了可灵，Veo3和SeeDance2.0以及Comfyui的一些本地视频模型比如最新的LTX2.3（这个就不说的，因为我的显卡显存“只有”12GB，只能跑蒸馏版本的，而且ComfyUI的上手还是有一定深度的，暂时就没太细研究）
目前市面上的视频生成模型，SD2.0是断档领先（任何能掀起一阵风潮的大模型，果然都有点东西）这里的断档不止体现在生成视频的质量上，主要是体现在模型对分镜的理解上，除了SD2.0，没有任何一个模型能“完全看懂”你的分镜到底想干嘛，而这个，我的朋友，你都不用玩多少天，只要一下午，就知道比生成视频的质量本身重要得多
同样的结果给到Image2，不管是生图的质量，图片风格和领域的广泛程度还是易用性，Image2都结结实实的有点“吓到我了”（强到我让订阅了一年的Gemini瞬间下岗，立即重回OpenAI的怀抱，AI时代的我们就是这么冷酷无情），我不知道本地ComfyUI折腾各种工作流能不能有接近或者超过Image2的效果，但我觉得即使有，学习成本和效率都赶不上自然语言说几句话直出（但这里依然有坑，ComfyUI应该还有很多存在的价值，稍后细讲）

按照我的理解，要把一段故事或者一个想法影视化，至少需要以下元素：

一个“动机”，可以是一个故事，一个画面，一个声音，甚至是一种“感觉”
剧本或者分镜脚本，有的导演拍戏没剧本，有的不画分镜，那是人家脑子里有这些东西，对我个人来说，两者都非常必要，写作帮我理清动机的思路，分镜帮我视觉化想要呈现的内容，现在我们可以直接甩给AI去细化这些东西（但有认知债的坑，这个一会儿细聊）
执行，如果是传统剧组，这个时候应该要找钱找人找场地开干了，但AI完全替代了这一部分，从想法到拍摄，没有这么长的摩擦和缓冲期，有点像是上一个十年搞音乐，不再需要真的去找一支乐队了，你想成为音乐人，一台电脑可以让你直接成为
剪辑与后期处理，玩票的话，后期这部分其实不需要太在意，网上能爆的视频也不是因为这部分做的好，严肃创作另说，剪辑非常重要，虽然Agent貌似可以做这个活儿了，但自己做还是有一些乐趣，也是整个阶段“人”目前参与度最高的一部分
不同内容，对内容的不同熟悉和把控程度，极大影响了这几个步骤中“人机协作”的比例，拿我这几天尝试的不同风格来说，我在意的，喜欢的，熟悉的，都是自己尽量描述清楚剧本+分镜内容，然后AI辅助，反过来则只提一个点子然后给AI穷举，通过“直接成为”来测试结果，看看有没有我想要的东西

然后，我们来聊一些非常小白，但深度使用过之后才能刻进基因的，目前这个阶段人机协作的“指导原则”，不仅仅是生图生视频，这是我目前深度使用不同AI工具后，一个整体的感觉：

AI是一个拥有巨量知识和无限体力，但暂时“缺了一块什么”的助手，这个缺失主要影响的是信息真实度，表达精度和比较玄学的“质感”，这在某些时候是致命的
创作需要的是精准的表达，目前这个阶段，人比AI精准
在我们传统的浪漫叙事里，“创新/创作”总是天然正义的一方，永远大于“追随/模仿”，但在real world，真正的，原始的创新是极少的（所以才显得可贵），绝大部分生存模式，不管是企业还是艺术，一定是以“追随/模仿”为主要方法论，而这件事，AI可以秒做

所以，只要你不差钱，AI适合分配“穷举/模仿”类的活儿，对人类适合分配“指导，筛选，调试，精修”类的活儿，然后我们反过来拆，我们之前聊的步骤里，哪些可以被穷举/模仿解决，或者穷举/模仿能带来更大可能性即可：

“想法/设定”阶段 – 非常适配AI，给他一个想法/风格方向，让他从不同角度解读，会给你很多新的点子，人机合作程度给到夯，我现在几乎做什么都会先AI过一轮，遇事不决找AI,在Image2出现后，不管是逻辑类的想法，还是视觉类的呈现，我都会习惯性的让他做成图片：

想“复活一只宠物”，直接复活

想“营造一种感觉”，直接营造

想“模仿一场Live的构图”，直接模仿

想“创造个性的角色”，直接创造

“Demo”阶段 – 非常适配AI，把上一个环节确认好的想法和一些能带到这个环节的，你很确信需要表达的东西抛给AI，如果可以，给一些具体的参考方向，再让它执行不同方案，然后我们再去对比，调参，精修即可：

Image2画 StoryBoard 是真的厉害

“执行”阶段 – 看个人本事和表达内容，从“完全依赖AI”到“只靠AI填充必要内容”都可能存在，于我（和大部分的AIGC视频生成选手）来说这部分是变革最大的，我不能画分镜，没有时间和资源去找团队拍摄，以前这个事情是不可能完成的，现在变得可能了

感谢即梦团队，贫穷让我的思维变得更精准

“后期和剪辑”阶段 – 很多AI目前其实前后期打通了，参考图和提示词给好的话，出来的就是成品，剪辑这一块，影视飓风都没上AI，而且很多时候你在“生成”时其实已经有了“剪辑”思维，知道自己需要哪方面的素材，有点类似歌手用软音源编曲，你先不说他编的好坏，他在编曲阶段选择的乐器和音色，一定是某种程度上忠实还原他的认知和想法的，虽然其实找个更专业的人合作，往往能达到更专业的结果

所以，目前这个阶段，小白用AI能不能出能看的东西，肯定能，否则不会满世界AI视频了，但是我个人尝试过程中，也时常遇到一些问题，我们仔细聊聊：

首先，并不是所有AI都能理解和还原你的意图，生成高质量的结果，相反，目前，在上手容易的几个民用大模型里，只有Image2和SeeDance2.0有能力“精准理解”，别的要么是无法理解（除了这两个模型之外的其他模型），要么是需要巨量的前置知识和试错（折腾过WebUI，ComfyUI和本地硬件的都懂）

但即使这样，也不是“所有细节都能理解的”，这个分镜，非常清楚地展示了“扭头”这个动作

结构抽卡抽到一堆什么美国恐怖故事？

再比如这个，AI没法理解“吉他装到包里”的效果是什么，而且前后逻辑也不连贯：

再来，当AI无法理解你的意图并且你想要精细调整的时候，无论是代码，还是生图生视频，抽卡无法避免，认知债越大，抽卡概率越低，而现在，视频抽卡是非常昂贵的，而且抽卡非常消耗时间却毫无任何成长/成就可言，是我目前最讨厌的部分,但还好，应该很快，Agent就可以帮我们抽卡了

即使喂了人设，限制了提示词，还是会出现风格跑偏，而且说实话，还是少了非常多的细节，比如这个视频中，分镜已经给的很清楚了，图像清晰度也够，但出来的人物的动作，发丝，就是僵硬的，这种“细节的缺失”依然会让人觉得目前这个东西“不太能用”或者“AI感”有点浓（可能和风格以及抽卡次数有关）

最后，人物，场景一致性的问题，解决了一些，但没有完全解决：

场景一致性比人物更麻烦，但现在可以生成360视图，让AI在不同角度理解空间关系了，效果比之前好很多，要求不高的话可以用，也省掉了blender或者UE里建白模

结语

本次测试，大概也算是补上了年初没有即使跟的那阵风，结果还不算差劲。

对我来说，不管是音乐，图片或者视频还是Coding，AI目前的阶段在我这里都挺接近的：

它确实可以“破壁”，以前此生不敢想的事情，现在好像都可以试试了，只要你愿意
它可以非常快的，以惊人的效率出一个50-80分的东西，然后你需要花费巨量时间和金钱去想办法找后面那缺失的一块，如果要求不高，找到的概率还是挺大的，但也要做好因为认知债和成本，这一块就是无法拼起来的结果
考虑到它的进化程度，我对它找到这最后“一块拼图”的能力和需要的时间，抱有乐观态度

这一轮测下来，不管是Agent还是SeeDance和Image2.0，最大的感触依然还是那两点：

AI时代，工具的迭代会迅速让之前积累的知识贬值甚至变得没有作用，举个最简单的例子，我还在折腾ComfyUI工作流，想着怎么生人设，好不容易有点名堂出来，Image2来了，一句话解决，这个体验，实在是太过酸爽
虽然AI时代“每天惊诧，周周AGI，月月人类灭亡近在咫尺”，但只要你花点时间体验和测试，会发现能掀起一股风潮的工具，真的或多或少有点东西。

怎么说呢，就只能继续陪跑吧，陪到人类的价值只剩抽卡那一天？（我希望永远不要来到）可能就真的要想象各种形而上学的东西了。