不是说AI发展遇到瓶颈了吗?不是都说大模型烧钱太厉害、回报周期太长吗?怎么4月份一下子冒出来这么多王炸,感觉像是约好了一样集体放大招。
今天就跟大家聊聊,这波AI浪潮里最让我意外的几个点,你们看看是不是跟我有同感。
DeepSeek V4,真的有点东西
先说DeepSeek V4吧,这个是真的让我有点意外。
之前DeepSeek V3就已经让圈子里的人震惊了一把,成本低到离谱,效果却能跟GPT-4o掰手腕。我记得当时看到那个557万美元训练费用的数字,第一反应是”这也太夸张了吧”,后来查了下才知道,人家是真有东西的。
而V4的消息更猛,上下文直接飙升到100万Token,我专门去了解了一下这是个什么概念。
简单说吧,以前模型能处理的内容相当于一本中篇小说,现在直接升级到可以读完《三体》三部曲还有剩。而且推理速度比V3快了整整35倍,听朋友说现在做复杂的长文本分析,分分钟出结果,真的太夸张了。
更让我意外的是,DeepSeek V4居然跟华为昇腾芯片深度适配了,这在以前是想都不敢想的事情。
查了下才知道,国内像阿里、字节、腾讯这些大厂都已经预订了数十万颗昇腾芯片,英伟达在国内的市场份额从95%直接跌到55%,这个变化来得太快了,感觉就像整个AI生态都在悄悄重建。
国产大模型集体爆发
DeepSeek V4只是个开始,4月份整个国产大模型圈都在发力。
智谱的GLM-5.1在编程能力上直接超越了Claude Sonnet,登顶开源编程模型第一;小米的模型参数达到1.2万亿,上下文窗口能处理2000页PDF;阿里的通义千问在国际评测榜单上常年霸榜。
最让我意外的是,智源研究院的Emu3模型登上了《自然》正刊,这是中国AI研究第一次在这个级别的刊物上亮相,这个怎么说呢,确实有点东西。
Emu3的核心创新很有意思,它把文字、图片、视频这些不同类型的信息放在同一个框架里处理,而不是像以前那样分成独立的模块。
图灵奖得主LeCun都说这是世界模型的两大主流方向之一,感觉就是,以前我们老觉得国产AI在追赶,现在好像真的开始领跑了。
我的感受
看完这些消息,我有个特别强烈的感觉,就是AI领域的玩法正在改变。
以前大家都觉得AI是烧钱的无底洞,技术壁垒太高,普通人根本进不去。但现在不一样了,开源模型越来越强,硬件成本在下降,技术也不再是少数人的专利。
这种感觉怎么说呢,特别像当年互联网刚兴起的时候。那时候大家都觉得建网站是专业人士的事情,后来有了WordPress,谁都能做网站了。
AI可能也在走同样的路,从高不可攀的科技变成人人都能用的工具。
当然,这只是我的个人感受,不知道你们怎么看,反正我觉得,AI的黄金期可能才刚刚开始。