再聊AI – 留给旧范式的,还有多少时间?-夜雨聆风

再聊AI – 留给旧范式的,还有多少时间?

大家好，好久没有聊AI了，今天聊聊，憋了好久了，就聊一些暴论吧。

这短短几个月里，如果你多少都在跟最新的AI风潮，那么你大概做了以下事情：

用SeeDance 2.0生成了几个视频，惊叹于几句自然语言可以达到的效果
用各种虾兵蟹将Agent做了各种和工作生活相关的小程序，甚至蒸馏了自己
试了试ACE的Video Composer，看看AI是否能攻破对点音乐这个护城河
用Image2.0实现了“设计自由”，配合SeeDance做出了自己的“游戏demo”

掐指一算，从我第一次被TTS，GPT3.5和StableDiffusion“震撼”写下这个系列的第一篇公众号开始，三年半过去了（AI语音初探 – 第一期），很多当时或者在写这个系列的某一篇文章时觉得可能是“未来五年”才能攻破的问题，其实早就在这三年内实现，并且远远被甩在后面了。

AI能力进步的速度滚滚向前，带来的“惊诧”依然以月，以周，甚至以天为单位在进化着。你说不好哪一天的哪个更新会真的改变一些什么，但我好像渐渐感觉到了属于AI发展速率的“摩尔定律”，这是我今天要聊的第一个观点，即：如果你认为目前的已经AI能找对方向，那么不论现在的结果看上去多么简陋不堪，最终它一定能实现目标，而且实现的时间可能比我们想象的还要快。

记住这个“定律”，这只是暴论的开始，今天，我们会一步步的recall这个事情，然后再过三年，回来看看这篇文字，看看AI能带我们走向哪里。

我们先来聊一个所有人都知道的，AIGC圈子的烂梗，来说明这个事情，Will Smith eating spaghetti：

要知道，在当时，这些鬼畜的生成效果是被作为梗和“AI还差得远”的佐证，被一次次提及的，大家当然知道AI可能可以，但以当时的效果，你不敢想，只需要三年，就可以变成这样：

这是我用Image 2生成首帧，用Nano Banana 2学会风格后生成尾帧，然后配合分镜提示词直接用Seedance 2.0生成的“欧美写实风格竖屏游戏Demo”，前后用时大概20m，几个小细节：

在2023年入场AIGC，如果你不做MJ的付费用户，你至少需要一套配置不差的电脑，不错的网路环境和语言能力，以及一颗不怕折腾的心，才能用SD生成一些很简陋的图片
今天，只要你能说话，能订阅ChatGPT或者用国内的节点通过各种办法使用到Image2，再搭配一个SeeDance 2.0的免费账号，会打字，就能做上面一模一样的东西，甚至更好
如果你的GPT账号额度有限（比如我），那么你可以只用Image 2.0生首帧，然后用别的生图模型生成其他帧，比如这样：

图一和图二，是我用同一套提示词，在不同模型下生成的效果比对，图三则是我用更好的那一个作为参考，用更差的模型生成尾帧。

我举这个例子，当然不仅仅是为了说明模型的区别，众所周知，AI底层的训练参数和艺术感觉有云泥之别，越新的模型，在能力上大跃进的可能性就越大，我要说的是其实是另一个事情，就是哪怕是不太行的模型，抄作业的速度都是很快的。

这个事情再往下想，其实揭示了这样一个现实：在AI模型模仿能力爆棚的今天，只要工具趁手，“原创”的稀缺性就会被最大限度的稀释，我们一直寄予厚望的“审美”其实无限接近于一个伪命题，以前他行你不行，是因为你抄不来，抄不像，抄不快，现在没有这个问题了，或者起码在很多领域，即将没有了。

如果你非要说，很多人连什么是好的，要抄什么都不知道，那我觉得知道的人+AI的产能，可以完全填补这片空白。

而且，SeeDance 2.0是可以音画同步，直出音效和音乐的哦。（当然，类似的功能，Suno早在几个版本前就解决了，只不过目前有些风格还是抄的不太像而已）

让我们第一次recall我们的定律，如果你认为目前的已经AI能找对方向，那么不论现在的结果看上去多么简陋不堪，最终它一定能实现目标，而且实现的时间可能比我们想象的还要快。

再回想一下，这半年来，我们的工作中，是否或多或少出现了这些状况：

你有没有过导演或者策划拿着做好音乐音效的片子，直接和你聊怎么执行的经历？
你有没有策划生成一些参考图，对着画面找音乐，找好甩给你说我就要这个的经历？
你有没有做独立游戏的朋友问你，有没有和直接生成语音音乐一样，放一段视频就能直出音效的经历？

Ok,如果有，一个很直接的问题，你觉得，目前这个人机结合，会用AI可以或多或少提升生产力的阶段，还剩多少时间？

我们的护城河是什么？是超越AI的Sound Design和Composing能力？这点我觉得很多人能做到，但效率和性价比呢？

是Wwise？Game Engine？MCP+Agent速度现在是慢，token现在是贵，受限于WAPPI有些事情也确实做不了，但人家可以24小时待机，睡一觉起来几万个音频文件全检查一遍啊。

这两天最炸的除了Image2，就是DeepSeek V4在华为芯片上跑通并且token价格大幅下降了吧。

让我们第二次recall我们的定律，你觉得token会一直贵下去吗？英伟达会一直垄断吗？除了华为，Intel，AMD难道不想突围吗？Cuda一鱼几吃的日子还能过多久？

如果我们仅仅眼睛盯着自己的职业，那路还是走窄了，音频还是小庙，杀到我们这里一般来说会比视觉晚一段时间，虽然，在多模态的大模型面前，其实前面挡着的是什么，主都不在乎。

AI终将会无视一切差别的高度渗入到我们生活的每个方面，就像空气一样。从现在这个节点看来，这几乎无法避免。

最后，如果你真的用AI Agent好好做过几个“工具”或者“APP”，站在一个完全非程序员的角度，我非常快的就遇上了“认知瓶颈”或者“认知债”，简单来说，就是对我所做的东西的底层逻辑毫不了解，整个过程没有学到任何东西，但是最后东西做了出来，好像也work了，如果哪里不work，就再“说话”让AI改，一开始，这个过程是非常痛苦的，因为要消耗我大量的时间，却几乎没有“过程的喜悦”可言。

这半年来，随着模型能力的提升，要改的时候越来越少，即使要改，改对的概率也越来越大了。

当然，凭我的三脚猫的对coding的认知，欠的东西自然是多的，得到这种结果毫不意外。

但，让我们最后一次recall我们的定律，并且将它继续深化运用，就可以得出一个非常浅显的道理，终有一天，即使是整个人类中最聪明的存在，面对AI都很可能无知的像个孩子。

在那样新的世界里，大家的起点，似乎又都是一样的了。