GPT，GPT-2，GPT-3 论文精读【论文精读】李沐-

这位大佬的读论文系列太NB了。中文掰碎了详细解读背景、思想+ 经典的英文论文阅读指导

更多论文：https://github.com/mli/paper-reading

gpt–transformer 解码器；bert–transformer 编码器更大的数据集和模型；

GPT和BERT的区别。GPT是预测未来，BERT是完形填空，GPT的目标函数更加困难，因此GPT比BERT更难训练，但天花板也更高。 bertbase类似GPT规模，bertlarge 3倍数据3倍大小的模型。

半监督学习：在没有标号的大量文本上训练一个大的语言模型，然后在有标号的数据上进行微调。

GPT2 ， 15E参数模型，大过 bert-large ，但是效果提升不大。文章新颖的提出了zero-shot的新角度（对下游任务无需标注，模型无需训练）；

引入了提示符的概念，prompt，让模型理解任务-下游不应该出现模型不理解的符合，prompt就是格式化的引导模型已训练内容。

GPT3 数据+模型都大了100倍，拥有1750亿个可学习参数。
对所有任务，不需要做微调和梯度更新。
GPT3能生成一些文章，很难分辨机器还是人工写作。
few-shot 针对任务提供几个-几十个极少样例。

gpt3使用左边列的方案，样例不用于更新梯度也不用于训练。使用注意力机制来提示模型回答的重点。

AI Times –AI 时代，中年人倔强的记录