1. 1

Point 1: 小型语言模型无法遵循错误/翻转的范例。大型语言模型可以覆盖他们的先验知识并翻转他们的预测以遵循翻转的范例

Point 2 : 小型模型在学习从输入到语义无关标签的映射时很困难,但大型模型可以在必要时学习这些映射。这意味着当任务未指定时,它们可以使用输入-标签映射来解决任务!

Point 3: 当使用语义不相关的标签时,Flan-PaLM表现优于PaLM,因此指令调整可以增加模型学习输入-标签映射的能力。

Point4: PaLM比Flan-PaLM更擅长跟随翻转标签,因此指令调整实际上增加了语义先验在可用时的使用!

  1.