改写 AI 历史的论文-夜雨聆风

改写 AI 历史的论文

很多今天的大模型，底层都绕不开一篇论文：《Attention Is All You Need》。它的厉害，不只是做出了一个更强的翻译模型，而是换了一种处理语言的方式。

在 Transformer 之前，RNN 像排队传话，一个词接一个词往后传；CNN 像一层层搭梯子，想理解远距离关系，就要绕很多路。问题不是它们不能用，而是慢、路径长、训练也不够友好。

Transformer 的核心很直接：让每个词都能直接“看见”句子里的所有词。哪个词重要，就给它更高的注意力权重。

Self-Attention 负责决定“该看谁”；Multi-Head Attention 则让模型从多个角度看关系，比如语法、指代、局部搭配和长距离依赖。

但它没有 RNN 的顺序结构，所以还需要位置编码，告诉模型每个词在句子里的位置。词向量负责“这个词是什么”，位置编码负责“它在哪里”。

这篇论文真正经典的地方，是它让序列建模从“按顺序读”变成了“全局看”。这样一来，模型更容易并行计算，也更适合 GPU、大数据和大模型时代。后来 BERT、GPT、T5 等模型，都站在了它的思想之上。

所以，《Attention Is All You Need》改变的不是一个任务的成绩，而是一整代 AI 模型的底层方向。

论文链接：https://arxiv.org/abs/1706.03762

名称已清空

微信扫一扫赞赏作者

喜欢作者其它金额

赞赏后展示我的头像

作品

暂无作品

喜欢作者

其它金额

最低赞赏 ¥0

其它金额

赞赏金额

最低赞赏 ¥0

广东,20分钟前,