1. 1

传统的监督学习训练模型是接受输入 x 并预测输出 y 作为P(y|x),而基于 “prompt-based learning 是基于直接建模文本概率的语言模型。

为了使用这些模型执行预测任务,原始输入x使用一个模板(template)修改成具有一些未填充插槽的文本字符串提示x0,然后使用语言模型来以概率方式填充未填信息以获得最终字符串x^,从中可以推导出最终输出y。

该框架由于以下几个原因而强大且有吸引力:

  1. 它允许在海量原始文本上进行预先训练,并通过定义新提示 (prompting) 函数使该模型能够执行少样本(few-shot )甚至零样本(zero-shot )学习

  2. 在没有或只有很少标记数据(labeled data)情况下适应(adapting)新场景。

在论文文中,介绍了这种有前途的范式的基础知识、描述了一组统一数学符号可涵盖各种现有工作,并沿着几个方向(例如预先训练模型、提示和调整策略)组织现有工作。

1 NLP 中的两个重大变革

历史

完全监督(Fully supervised)学习,即仅在目标任务的输入输出示例数据集上训练特定任务模型( task-specific model),在许多机器学习任务中长期发挥着核心作用,自然语言处理(NLP)也不例外。由于这种完全监督数据集对于学习高质量模型来说永远是不足的,早期的NLP模型严重依赖于特征工程( feature engineering),其中NLP研究人员或工程师利用他们领域知识从原始数据中定义和提取显著特征,并为模型提供适当归纳偏差以从有限数据中进行学习。随着神经网络模型在NLP中的出现,显著特征 (salient features)与模型本身一起进行了联合学习,因此焦点转向了架构工程,在这里通过设计适合于学习这些特征的合适网络架构来提供归纳偏差(inductive bias )。

变化1:pre-train 和 fine-tune

但是,在2017-2019年间,NLP模型的学习发生了翻天覆地的变化,相比完全监督范式正在扮演越来越小的角色(ever-shrinking role)。具体而言,“预训练(pre-train)和微调 (fine-tune) ”范式成为标准。

在该范式下,使用固定结构(fixed architecture)预先训练语言模型(LM),预测观察到文本数据出现概率。

由于用于训练语言模型所需原始文本数据非常容易获得,在此过程中可以使用大规模数据集对 LM 进行训练,并同时能够学会其所建立语言通用功能健壮。

上述 pre-trained LM 将通过引入附加参数并使用面向任务专门目标函数进行 fine-tuning 以适应不同下游任务。

在该范式内部主要关注目标工程(objective engineering)方面设计了同时考虑到 pre-training 和 fine-tuning 阶段所采用培养目标(training objectives), 显示引入一个损失函数来预测一个文件突出句子(salient sentences)将导致更好地针对文本摘要( text summarization)的 pre-trained 模型 。

值得注意的是,通常对预训练语言模型主体进行微调以使其更适合解决下游任务。

值得注意的是 ,通常还会对已经完成主体部分 的 pre-trained LM 进行微调 (fine-tuned ),使其更加适合解决下游任务( downstream task.)。

变化2 : pre-train、prompt 和 predict

2021年时我们正处于第二次变革之中,“pre-train、prompt 和 predict”的程序代替“pre-train 和 fine-tune”。

在这个范式中,与其通过目标工程(objective engineering)将 pre-trained LM 适应(adapting)到下游任务中,不如通过文本提示(textual prompt)重新制定下游任务以更像 original LM training 解决的问题。

例如,在识别社交媒体帖子的情感(emotion)时,“I missed the bus today”。我们可以使用一个prompt “I felt so”,并要求LM用一个带有情感的单词填空。

或者如果我们选择提示“English: I missed the bus today. French: ”,那么LM可能能够用法语翻译来填补空白。

通过选择适当的 Prompt 方式,我们可以操纵模型行为,使得预先训练好的LM本身就能够用于预测所需输出结果,有时甚至无需任何额外特定任务的培训。

该方法的优点是,在给定一套合适的 prompt 后,完全未经监督地进行培训的单个LM可用于解决大量任务。然而, 就像大多数概念上令人兴奋前景一样, 这种方法存在一个问题 - 这种方法引入了对prompt engineering 的必要性, 找到最合适 prompt 来使 LM 能够解决手头上面临 的任务。

  1.