GPT,GPT-2,GPT-3 论文精读【论文精读】李沐-

这位大佬的读论文系列太NB了。 中文掰碎了详细解读背景、思想+ 经典的英文论文阅读指导

https://space.bilibili.com/1567748478?spm_id_from=333.337.0.0

更多论文:https://github.com/mli/paper-reading

gpt–transformer 解码器 ;bert–transformer 编码器 更大的数据集和模型;

GPT和BERT的区别。GPT是预测未来,BERT是完形填空,GPT的目标函数更加困难,因此GPT比BERT更难训练,但天花板也更高。 bertbase类似GPT规模,bertlarge 3倍数据3倍大小的模型。

半监督学习:在没有标号的大量文本上训练一个大的语言模型,然后在有标号的数据上进行微调。

GPT2 , 15E参数模型, 大过 bert-large ,但是效果提升不大。文章新颖的提出了zero-shot的新角度(对下游任务无需标注,模型无需训练);

引入了提示符的概念,prompt,让模型理解任务-下游不应该出现模型不理解的符合,prompt就是格式化的引导模型已训练内容。

GPT3 数据+模型都大了100倍 ,拥有1750亿个可学习参数。
对所有任务,不需要做微调和梯度更新。
GPT3能生成一些文章,很难分辨机器还是人工写作。
few-shot 针对任务提供几个-几十个极少样例。

gpt3使用左边列的方案,样例不用于更新梯度也不用于训练。使用注意力机制来提示模型回答的重点。


已发布

分类

来自

标签:

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注