这位大佬的读论文系列太NB了。 中文掰碎了详细解读背景、思想+ 经典的英文论文阅读指导
https://space.bilibili.com/1567748478?spm_id_from=333.337.0.0
更多论文:https://github.com/mli/paper-reading
gpt–transformer 解码器 ;bert–transformer 编码器 更大的数据集和模型;
GPT和BERT的区别。GPT是预测未来,BERT是完形填空,GPT的目标函数更加困难,因此GPT比BERT更难训练,但天花板也更高。 bertbase类似GPT规模,bertlarge 3倍数据3倍大小的模型。
半监督学习:在没有标号的大量文本上训练一个大的语言模型,然后在有标号的数据上进行微调。
GPT2 , 15E参数模型, 大过 bert-large ,但是效果提升不大。文章新颖的提出了zero-shot的新角度(对下游任务无需标注,模型无需训练);
引入了提示符的概念,prompt,让模型理解任务-下游不应该出现模型不理解的符合,prompt就是格式化的引导模型已训练内容。
GPT3 数据+模型都大了100倍 ,拥有1750亿个可学习参数。
对所有任务,不需要做微调和梯度更新。
GPT3能生成一些文章,很难分辨机器还是人工写作。
few-shot 针对任务提供几个-几十个极少样例。
gpt3使用左边列的方案,样例不用于更新梯度也不用于训练。使用注意力机制来提示模型回答的重点。
发表回复