
在这幅画里,少女的脸、身体和手中的乐器被拆解成了无数个几何平面。你既能看到少女的正面,也能看到她的侧面,甚至能看到曼陀铃内部的共鸣箱。
看似无所不能的AI大模型,其实是抄袭了这个“打碎重组”的过程,把海量的文本(书籍、网页、代码)喂给 AI 时,模型并不认识字,它看到的是一个个 Token(词元)。通过 Transformer 架构,模型把这些离散的、线性的文字,映射到几万维甚至几十万维的空间中。
等用花了几个亿的成本喂完了大模型(主要是英伟达的老黄卖的芯片太贵),拿出来用(CHATGPT,豆包),当我们问它问题(Prompt)时,它是怎么回答的呢?这就需要通过“流形”开始降维打击了,好比在二维空间上呈现三维曼陀罗少女。这个过程,可能用未来立体派的画作《链条上的狗》更形象。

那只重影的狗腿,象征着模型在每一步解码时,都在同时计算过去所有Token的惯性和未来所有可能路径的拉力。那个拉长的链条,就是注意力机制(Self-Attention,谷歌的伟大发明)把遥远的信息瞬间拉近,让语义的传导不再是离散的跳跃,而是连续的滑动。模型在几万维的流形曲面上极速漂移,把高维空间里的曲率变化,转化成了二维屏幕上的字符流。那一行行文字,不过是这只高速奔跑的“语义猎犬”,在现实世界留下的运动残影。
最后,你看到的逐字输出,豆包好厉害的一段回答,就和你在画展上看到的立体派画作一样。

夜雨聆风