AI Times –AI 时代，中年人倔强的记录

Transformer论文逐段精读笔记

来自李沐的论文带读：

https://www.bilibili.com/video/BV1pu411o7BE

第一个仅仅用注意力机制（multi-），而没有用之前模型的循环或者卷积。写作时候目标是机器翻译这个领域，但是模型提供了很好的泛化能力，目前广泛应用在AI各领域。

模型架构： encoder-decoder 。

编码器会把输入n个词变成zn个向量-一次性看全句子；解码器 ym一个个词的解码（自回归：一个个词的输出，前面m-1个输出会作为m输出的输入）

https://zhuanlan.zhihu.com/p/264468193
【通俗易懂】大白话讲解 Transformer

已发布

2023年7月27日

分类

来自

song

标签：

评论

发表回复取消回复