乐于分享
好东西不私藏

改写 AI 历史的论文

改写 AI 历史的论文

改写 AI 历史的论文

很多今天的大模型,底层都绕不开一篇论文:《Attention Is All You Need》。它的厉害,不只是做出了一个更强的翻译模型,而是换了一种处理语言的方式。

在 Transformer 之前,RNN 像排队传话,一个词接一个词往后传;CNN 像一层层搭梯子,想理解远距离关系,就要绕很多路。问题不是它们不能用,而是慢、路径长、训练也不够友好。

Transformer 的核心很直接:让每个词都能直接“看见”句子里的所有词。哪个词重要,就给它更高的注意力权重。

Self-Attention 负责决定“该看谁”;Multi-Head Attention 则让模型从多个角度看关系,比如语法、指代、局部搭配和长距离依赖。

但它没有 RNN 的顺序结构,所以还需要位置编码,告诉模型每个词在句子里的位置。词向量负责“这个词是什么”,位置编码负责“它在哪里”。

这篇论文真正经典的地方,是它让序列建模从“按顺序读”变成了“全局看”。这样一来,模型更容易并行计算,也更适合 GPU、大数据和大模型时代。后来 BERT、GPT、T5 等模型,都站在了它的思想之上。

所以,《Attention Is All You Need》改变的不是一个任务的成绩,而是一整代 AI 模型的底层方向。

论文链接:https://arxiv.org/abs/1706.03762

名称已清空
微信扫一扫赞赏作者

喜欢作者其它金额
作品
暂无作品
喜欢作者
其它金额
其它金额
赞赏金额
¥
最低赞赏 ¥0
1
2
3
4
5
6
7
8
9
0
.
广东,20分钟前,