Transformer论文逐段精读笔记

来自李沐的论文带读:

https://www.bilibili.com/video/BV1pu411o7BE

第一个仅仅用注意力机制(multi-),而没有用之前模型的循环或者卷积。 写作时候目标是机器翻译这个领域,但是模型提供了很好的泛化能力,目前广泛应用在AI各领域。

模型架构: encoder-decoder 。

编码器会把输入n个词变成zn个向量-一次性看全句子; 解码器 ym一个个词的解码(自回归:一个个词的输出, 前面m-1个输出会作为m输出的输入)

https://zhuanlan.zhihu.com/p/264468193
【通俗易懂】大白话讲解 Transformer


已发布

分类

来自

标签:

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注