乐于分享
好东西不私藏

再聊AI – 留给旧范式的,还有多少时间?

再聊AI – 留给旧范式的,还有多少时间?

大家好,好久没有聊AI了,今天聊聊,憋了好久了,就聊一些暴论吧。
这短短几个月里,如果你多少都在跟最新的AI风潮,那么你大概做了以下事情:
  • 用SeeDance 2.0生成了几个视频,惊叹于几句自然语言可以达到的效果
  • 用各种虾兵蟹将Agent做了各种和工作生活相关的小程序,甚至蒸馏了自己
  • 试了试ACE的Video Composer,看看AI是否能攻破对点音乐这个护城河
  • 用Image2.0实现了“设计自由”,配合SeeDance做出了自己的“游戏demo”
掐指一算,从我第一次被TTS,GPT3.5和StableDiffusion“震撼”写下这个系列的第一篇公众号开始,三年半过去了AI语音初探 – 第一期),很多当时或者在写这个系列的某一篇文章时觉得可能是“未来五年”才能攻破的问题,其实早就在这三年内实现,并且远远被甩在后面了。
AI能力进步的速度滚滚向前,带来的“惊诧”依然以月,以周,甚至以天为单位在进化着。你说不好哪一天的哪个更新会真的改变一些什么,但我好像渐渐感觉到了属于AI发展速率的“摩尔定律”这是我今天要聊的第一个观点,即:如果你认为目前的已经AI能找对方向,那么不论现在的结果看上去多么简陋不堪,最终它一定能实现目标,而且实现的时间可能比我们想象的还要快。
记住这个“定律”,这只是暴论的开始,今天,我们会一步步的recall这个事情,然后再过三年,回来看看这篇文字,看看AI能带我们走向哪里。
我们先来聊一个所有人都知道的,AIGC圈子的烂梗,来说明这个事情,Will Smith eating spaghetti:
要知道,在当时,这些鬼畜的生成效果是被作为梗和“AI还差得远”的佐证,被一次次提及的,大家当然知道AI可能可以,但以当时的效果,你不敢想,只需要三年,就可以变成这样:
这是我用Image 2生成首帧,用Nano Banana 2学会风格后生成尾帧,然后配合分镜提示词直接用Seedance 2.0生成的“欧美写实风格竖屏游戏Demo”,前后用时大概20m,几个小细节:
  • 在2023年入场AIGC,如果你不做MJ的付费用户,你至少需要一套配置不差的电脑,不错的网路环境和语言能力,以及一颗不怕折腾的心,才能用SD生成一些很简陋的图片
  • 今天,只要你能说话,能订阅ChatGPT或者用国内的节点通过各种办法使用到Image2,再搭配一个SeeDance 2.0的免费账号,会打字,就能做上面一模一样的东西,甚至更好
  • 如果你的GPT账号额度有限(比如我),那么你可以只用Image 2.0生首帧,然后用别的生图模型生成其他帧,比如这样:
图一和图二,是我用同一套提示词,在不同模型下生成的效果比对,图三则是我用更好的那一个作为参考,用更差的模型生成尾帧。
我举这个例子,当然不仅仅是为了说明模型的区别,众所周知,AI底层的训练参数和艺术感觉有云泥之别,越新的模型,在能力上大跃进的可能性就越大,我要说的是其实是另一个事情,就是哪怕是不太行的模型,抄作业的速度都是很快的
这个事情再往下想,其实揭示了这样一个现实:在AI模型模仿能力爆棚的今天,只要工具趁手,“原创”的稀缺性就会被最大限度的稀释,我们一直寄予厚望的“审美”其实无限接近于一个伪命题,以前他行你不行,是因为你抄不来,抄不像,抄不快,现在没有这个问题了,或者起码在很多领域,即将没有了。
如果你非要说,很多人连什么是好的,要抄什么都不知道,那我觉得知道的人+AI的产能,可以完全填补这片空白。
而且,SeeDance 2.0是可以音画同步,直出音效和音乐的哦。(当然,类似的功能,Suno早在几个版本前就解决了,只不过目前有些风格还是抄的不太像而已)
让我们第一次recall我们的定律,如果你认为目前的已经AI能找对方向,那么不论现在的结果看上去多么简陋不堪,最终它一定能实现目标,而且实现的时间可能比我们想象的还要快。
再回想一下,这半年来,我们的工作中,是否或多或少出现了这些状况:
  • 你有没有过导演或者策划拿着做好音乐音效的片子,直接和你聊怎么执行的经历?
  • 你有没有策划生成一些参考图,对着画面找音乐,找好甩给你说我就要这个的经历?
  • 你有没有做独立游戏的朋友问你,有没有和直接生成语音音乐一样,放一段视频就能直出音效的经历?
Ok,如果有,一个很直接的问题,你觉得,目前这个人机结合,会用AI可以或多或少提升生产力的阶段,还剩多少时间?
我们的护城河是什么?是超越AI的Sound Design和Composing能力?这点我觉得很多人能做到,但效率和性价比呢?
是Wwise?Game Engine?MCP+Agent速度现在是慢,token现在是贵,受限于WAPPI有些事情也确实做不了,但人家可以24小时待机,睡一觉起来几万个音频文件全检查一遍啊。
这两天最炸的除了Image2,就是DeepSeek V4在华为芯片上跑通并且token价格大幅下降了吧。
让我们第二次recall我们的定律,你觉得token会一直贵下去吗?英伟达会一直垄断吗?除了华为,Intel,AMD难道不想突围吗?Cuda一鱼几吃的日子还能过多久?
如果我们仅仅眼睛盯着自己的职业,那路还是走窄了,音频还是小庙,杀到我们这里一般来说会比视觉晚一段时间,虽然,在多模态的大模型面前,其实前面挡着的是什么,主都不在乎。
AI终将会无视一切差别的高度渗入到我们生活的每个方面,就像空气一样。从现在这个节点看来,这几乎无法避免。
最后,如果你真的用AI Agent好好做过几个“工具”或者“APP”,站在一个完全非程序员的角度,我非常快的就遇上了“认知瓶颈”或者“认知债”,简单来说,就是对我所做的东西的底层逻辑毫不了解,整个过程没有学到任何东西,但是最后东西做了出来,好像也work了,如果哪里不work,就再“说话”让AI改,一开始,这个过程是非常痛苦的,因为要消耗我大量的时间,却几乎没有“过程的喜悦”可言。
这半年来,随着模型能力的提升,要改的时候越来越少,即使要改,改对的概率也越来越大了。
当然,凭我的三脚猫的对coding的认知,欠的东西自然是多的,得到这种结果毫不意外。
但,让我们最后一次recall我们的定律,并且将它继续深化运用,就可以得出一个非常浅显的道理,终有一天,即使是整个人类中最聪明的存在,面对AI都很可能无知的像个孩子。
在那样新的世界里,大家的起点,似乎又都是一样的了。