GPT-3 在 SAT 考试中表现相当出色

像 GPT-3 这样的大型语言模型赋予聊天机器人一种不可思议的能力，可以像人类一样回答我们的探索性问题。但它们到底有多聪明？加州大学洛杉矶分校心理学家本周在《自然人类行为》杂志上发表的一项新研究发现，语言模型 GPT-3 的推理能力比普通大学生更好——这可以说是一个很低的标准。

研究发现，在回答 SAT 等标准化考试中的一系列问题时，GPT-3 的表现优于一组 40 名加州大学洛杉矶分校的本科生，因为 SAT 需要使用熟悉问题的解决方案来解决新问题。

新闻稿称：“问题要求用户选择具有相同关系的单词对。（例如，在问题中：“爱”与“恨”的关系相当于“富”与哪个词的关系？答案是“穷”。）”另一组类比是从短篇小说中的一段话中得出的提示，问题与该故事中的信息相关。新闻稿指出：“这个过程被称为类比推理，长期以来一直被认为是人类独有的能力。”

事实上，GPT-3 的分数比大学申请者的平均 SAT 分数要高。在通过一组称为瑞文渐进矩阵的问题进行测试时，GPT-3 在逻辑推理方面的表现也与人类受试者一样好。

GPT-3 在 SAT 考试中表现出色并不令人意外。之前的研究曾通过要求该模型参加一系列标准化考试（如 AP 考试、LSAT 甚至 MCAT）来测试其逻辑能力，结果它以优异的成绩通过了考试。最新版本的语言模型 GPT-4 增加了图像处理能力，表现更加出色。去年，谷歌研究人员发现，他们可以通过思路链提示来改善此类语言模型的逻辑推理能力，将复杂问题分解为更小的步骤。

[相关：研究表明，ChatGPT 的准确性变得更差]

尽管当今的人工智能从根本上挑战了计算机科学家重新思考图灵测试等机器智能的基本基准，但这些模型还远不够完美。

例如，加州大学河滨分校的一个研究小组本周发表的一项研究发现，谷歌和 OpenAI 的语言模型在回答患者询问时提供的医疗信息不完整。今年早些时候，斯坦福大学和伯克利大学的科学家进行了进一步研究，发现 ChatGPT 在生成代码或解决数学问题时，答案越来越草率，原因不明。在普通人中，虽然 ChatGPT 很有趣也很受欢迎，但它在日常使用中并不实用。

而且，它在视觉谜题和理解现实世界的物理和空间方面仍然表现不佳。为此，谷歌正在尝试将多模态语言模型与机器人结合起来解决这个问题。

很难判断这些模型是否像我们一样思考——它们的认知过程是否与我们相似。话虽如此，擅长应试的人工智能通常并不像人类那样聪明。很难判断它们的极限在哪里，它们的潜力是什么。这需要对它们进行开放，并公开它们的软件和训练数据——这是专家们对 OpenAI 对其法学硕士研究的严密保护的基本批评。

<<: 过时的宽带设备可以作为电动汽车充电器获得新生命

>>: 首创的人工智能大脑植入手术帮助一名男子恢复手部感觉