
以Transformer技术架构为基础的大模型,本质上是用概率在计算前一个字后面大概率出现哪一个字。所以它并不理解这些对话。 基于概率的大模型不会有智能,它只是在记忆。比如用几百篇双语翻译语料进行训练后就可以得到一个不错的翻译大模型。但这些训练量还是不能做数学题。主讲人的团队用1亿套数学题训练大模型后,得到了一个高考数学卷可以考145分的大模型。但事实上它并不理解这些题目,它只是穷举了所有的题目,然后记住了这些题目之后的答案。 Transformer架构竞争的是算力,依靠更大的算力来实现更大的模型,以完成对更长、更复杂文本的处理。但是仍然不能避免AI幻觉(基于概率的大模型的固有缺陷)。所以在这个架构下不可能实现真正的通用人工智能,也就是AGI。 现在各大厂商都已经投入了几千亿、上万亿美元的算力,所以即使有和Transfomer原理相似的技术架构也无法与之竞争(沉没成本是护城河)。人工智能大模型的研究会离开高校,因为高校没有足够的算力,也投资不起。未来如果有突破,也是在产业界。 存储的需求量很大,因为一个8B的模型就要占掉8GB的内存,而且模型在使用过程中必须全量、持续存在内存中。 Agent的提出是为了弥补大模型缸中之脑的缺陷,赋予它长期记忆、规划、工具调用能力。比尔盖茨称它为交互史上的最大革命,是AI未来的发展方向。 以OpenClaw为代表的Agent平台其实是用户和大模型之间的接口。它接收用户指令以后交给大模型处理,然后再返还给用户,或者帮用户按照大模型回答的内容去处理。 基于统计原理的机器学习已经达到了天花板。接下来要有大的突破,实现真正的通用人工智能需要有爱因斯坦式的人物在底层架构上有所突破。AGI在现有的Transformer架构上是很难实现的,因为目前互联网数据已经用完了,没有更多的数据可用来进行训练,AI的智能水平也就无法提高了。 国内各大厂商(笔者认为指的是Agent)目前在编程能力上仍然比Claude Code差一些。由于算力不足,国内厂商大模型可能需要在算法或基础架构上有一些创新突破才能赶上海外模型。最看好Kimi,其次是DeepSeek,多模态方面豆包无可匹敌,腾讯的混元团队以前不太行,现在来了一个从OpenAI来的人,未来有希望。其他厂商的大模型研发团队都有大企业病,暂时看不到相对优势。 目前瓶颈主要是在人才。虽然在AI领域的人才总数要超过美国,但国内大模型领域的人才还是要比美国少很多。目前一个硕士毕业生是300万年薪,博士生是500万,顶级人才可能要1000万年薪。但是真正的顶级团队的人数非常小,比如Kimi核心团队才10个人,豆包核心团队才40个人。 总的来说,基于统计的Transformer架构已经达到了天花板,进一步的突破需要底层架构的突破,需要有爱因斯坦式的人物。在现有技术架构下不可能实现AGI通用人工智能。接下来大模型的发展可能会进入到瓶颈期,可能的发展方向是各个垂直领域的应用。 AI大模型在垂直领域的应用可能都是碎片市场。因为很难有通用的大模型为一个领域优化以后还能胜任另一个领域的。所以在每一个狭小的领域,真正要让大模型发挥作用需要对这个领域进行后训练。所以原来拥有数据的行业龙头更有利,而那些原来并没有数据、仅仅因为AI而产生的新的创业公司竞争力不会太强。 AI要在各个领域发挥作用,训练的标准应该要达到90%以上的准确度,也就是说90分才能及格。这决定了通用大模型很难在细分领域发挥超过垂直专用大模型的作用。对于100亿美金以上的任何细分市场都会被巨头抢占,所以小企业只适合在非常狭窄的细分领域去创业。 AI for Science是中美都在大力推进的应用领域。可能会加快某些行业的科研进度,比如材料与制药领域。
(未完待续......)
声明:本文所引用图片(除知识星球及个人PPT外)均来自互联网及 AI 生成, 如有侵权,请及时与我联系。
--- END---
--------------------------------------
为什么我推荐大家加入我的知识星球?
我的知识星球#明哥的世界#已经运营了820+天,有830+篇的优秀文章,超过50+个问答, 累计输出约80万文字, 在这里您可以获得:
1、对重要经济数据和现象的分析和解读
2、关于投资理念和投资的方法以及实践
3、免费参加每季度一次的宏观分析线上直播
4、关于职业规划和人生规划
5、关于企业发展战略规划
6、对一些社会热点话题的看法
加入我的知识星球,是对未来的投资。我会帮助你在宏观经济的潮汐中,找到适合自己的航行方向。
夜雨聆风