1. 1

利用预训练(pre-training)和监督微调( supervised finetuning)的组合。这种方法有着悠久的历史,趋势是向更灵活的转移形式发展。首先,学习了单词向量( word vectors),并将其用作任务特定架构的输入,然后传递了循环网络的上下文表示,最近的工作表明不再需要任务特定架构,并且传输许多 self-attention 块就足够了。 这些方法仍然需要监督训练才能执行任务。当只有最少或没有监督数据可用时,另一条线路已经证明语言模型在执行特定任务方面具有潜力,例如常识推理 (commonsense reasoning)。

在本文中,我们连接这两个工作流并延续更通用转移 transfer 方法的趋势。我们演示语言模型可以在 zero-shot 设置中执行下游任务(down-stream tasks)-无需任何参数或体系结构修改。我们通过突出语言模型在 zero-shot 设置中执行各种任务的能力来展示此方法显示出潜力。

我们方法的核心是语言建模( language modeling)。语言建模通常被构造为从一组由可变长度符号序列(s1,s2,…,sn)组成的示例(x1、x2、…、xn)中无监督地估计分布。 由于语言具有自然的顺序性,因此通常将联合概率分解为条件概率的乘积

这种方法允许从p(x)以及任何形式为p(sn−k,…,sn|s1,…,sn−k−1)的条件中进行易处理的采样和估计。

近年来,在能够计算这些条件概率方面,出现了显著提高表达能力的模型,例如像Transformer 这样的self-attention 架构。

学习执行单个任务可以用概率框架表示为估计条件分布p(output|input)。

由于通用系统应该能够执行许多不同的任务,即使是相同的输入,它也应该不仅基于输入而且还基于要执行的任务进行调整。

也就是说,它应该建模p(output|input, task)。这已经在多任务和元学习设置中各种形式化了。任务调节通常在体系结构级别实现,例如(Kaiser等人2017年)中的特定于任务的编码器和解码器或在算法级别上实现,例如MAML(Finn等人2017年) 的内部和外部循环优化框架。

但正如McCann等人(2018年)所示,在语言方面提供了一种灵活的方式来指定所有符号序列作为任务、输入和输出。

例如,翻译培训示例可以写成序列 (translate to french, english text, french text)。同样地,阅读理解培训示例可以写成 (answer the question, document, question, answer)。

McCann等人(2018)证明了可以训练一个单一的模型,MQAN来推断和执行许多不同类型格式的示例上的任务。

语言建模原则上也能够学习McCann等人(2018)的任务,而无需明确监督哪些符号是要预测的输出。由于受监督的目标与无监督的目标相同,但仅在序列子集上进行评估,因此无监督目标的全局最小值也是受监督目标的全局最小值。在这个稍微玩具化一点儿的设置中,密度估计作为一个合理训练目标所涉及到问题,在(Sutskever等人,2015)中被回避了。问题变成了我们是否能够实践地将无监督目标优化到收敛。初步实验证实,足够大型的语言模型能够在这个玩具般设置中执行多任务学习,但学习速度比显式受控方法慢得多。

虽然从上述规范设置到“自然语言混沌”的过程是一个巨大飞跃, Weston (2016) 在对话背景下主张需要开发能直接从自然语言中学习并展示概念证明——通过前向预测教师输出来完成QA任务而没有奖励信号。虽然对话是一种有吸引力 的方法, 但我们担心它过于限制性. 因特网包含大量信息可供被动获取, 不需要交互式通信. 我们猜想: 具备足够容量大小 的语言模型将开始学会推断和执行自然语言序列中展示出来 的任务以更好地预测它们, 而不管其采购方式如何. 如果一个 语言模型能做到这一点, 它就会有效地执行无监督多任务 学习. 我们通过分析零样本情况下语言模型在各种各样任 务上表现来测试是否如此。

  1.