来自李沐的论文带读:
https://www.bilibili.com/video/BV1pu411o7BE
第一个仅仅用注意力机制(multi-),而没有用之前模型的循环或者卷积。 写作时候目标是机器翻译这个领域,但是模型提供了很好的泛化能力,目前广泛应用在AI各领域。
模型架构: encoder-decoder 。
编码器会把输入n个词变成zn个向量-一次性看全句子; 解码器 ym一个个词的解码(自回归:一个个词的输出, 前面m-1个输出会作为m输出的输入)
https://zhuanlan.zhihu.com/p/264468193
【通俗易懂】大白话讲解 Transformer
发表回复