GPT-3是一个具有 1750 亿个参数的自回归语言模型 ,比任何以前的非稀疏语言模型多 10 倍 。对于所有任务,GPT-3 均 无需任何梯度更新或微调即可应用 ,任务和少样本演示完全通过与模型的文本交互来指定。
可以生成新闻文章样本 ,而人类评估者很难将这些样本与 人类撰写的文章 区分开来。
接下来分为四部分:摘要、引言、模型、实验,一起来精读论文:GPT-3: Language Models are Few-Shot Learners(语言模型是少样本学习者)
GPT-3:语言模型是少样本学习者
一、摘要
为什么说GPT-3是自回归语言模型 ? 自回归模型是一种统计模型,它假设当前的值是过去值的函数。在自然语言处理(NLP)中,自回归语言模型利用这一原理,根据已经生成的文本内容来预测下一个词或字符。
在生成文本时,GPT-3会根据 已经生成的文本序列 预测下一个最可能的词或字符 ,从而逐步生成完整的文本。
为什么说OpenAI从GPT-3开始暴力美学? 与前代模型相比,GPT-3在参数数量上实现了巨大的飞跃。 GPT-3是一个拥有1750亿个参数的大型语言模型,这是其“暴力”的一面。OpenAI从此走上了一条不断增加预训练数据,疯狂怼参数的成功之路。
GPT-3亮点一: 超大规模参数, GPT-3拥有1750亿个参数,这一数字是 GPT-2的100多倍 (GPT-2为15亿参数),比任何以前的非稀疏语言模型多10 倍。这种规模的提升使得 GPT-3能够捕捉到更加复杂的语言特征和知识 ,从而具备更强的语言理解和生成能力。
GPT-3亮点二: 少样本学习(不进行梯度更新或微调),GPT-3在少样本学习(Few-shot Learning)方面表现出色,它能够在不进行梯度更新或微调的情况下,仅通过上下文信息和少量示例来学习和完成任务。这种能力被称为“in-context learning”,即模型在预训练过程中已经学到了大量的任务模式,推理时无需再修改模型的权重就能执行不同的任务。
GPT-3亮点三: 卓越的文章生成能力,GPT-3能够基于给定的主题或提示生成连贯、自然的文章,且质量之高以至于人类评估人员难以区分其生成的文章与真实文章之间的差异。
二、引言
Few-shot的设定是什么? GPT-2采用了zero-shot设定,在新意度上很高,但是有效性却比较低。而GPT-3则是尝试解决GPT-2的有效性,进行Few-shot设置, 即模型在做下游任务时,可以看到一些任务的样例,而不是像GPT-2那样啥样例都不给。
传统两阶段方式(Pre-training + Fine-tuning)存在哪些问题?传统二阶段训练方式 依赖于大量有标签数据进行微调 ,需要 高昂的数据获取和标注成本。同时 微调是过拟合了预训练的训练数据,导致模型泛化能力受限。
为什么GPT-3只采用无监督预训练? GPT-3通过大规模无监督预训练降低了对标签数据的依赖,并与人类学习方式相似,通过大规模预训练来积累语言知识和经验,并通过 “in-context learning” 来快速适应新任务。
什么是上下文学习(In-Context-Learning,ICL)? 上下文学习,是一种机器学习方法,它允许GPT-3等大规模预训练语言模型(LLM)在不需要调整模型参数的情况下,仅通过几条下游任务的示例就能理解任务并给出满意的回答
三、模型
GPT-3模型是什么 ? 我们使用了与GPT-2相同的模型和架构,包括其中所述的修改后的初始化、预归一化和可逆分词,但不同的是,我们在Transformer的层中使用了交替的密集和局部带状稀疏注意力模式,这与Sparse Transformer类似。
GPT-3模型训练方式是什么?在GPT-3的训练过程中,一个关键的创新点是In-context-learning能力。这种能力允许模型在不需要调整内部参数的情况下,仅通过理解上下文中的示例和提示来执行任务
四、实验
GPT-3的训练数据是什么? GPT-3 的训练数据主要基于 Common Crawl,但为了提升数据质量,研究人员在数据预处理阶段采取了三个关键步骤: 数据过滤、数据去重、增加高质量数据。
模型的规格有多大? GPT-3的模型和GPT-2的模型是一样的,稍微有点改动,把transformer换成了Sparse Transformer中的结构,并设计8个不同大小的模型。
参考资料
原文链接:
本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载者并注明出处:https://www.jmbhsh.com/shumazixun/32758.html