GPT-3 在 SAT 考试中表现相当出色

GPT-3 在 SAT 考试中表现相当出色

像 GPT-3 这样的大型语言模型赋予聊天机器人一种不可思议的能力,可以像人类一样回答我们的探索性问题。但它们到底有多聪明?加州大学洛杉矶分校心理学家本周在《自然人类行为》杂志上发表的一项新研究发现,语言模型 GPT-3 的推理能力比普通大学生更好——这可以说是一个很低的标准。

研究发现,在回答 SAT 等标准化考试中的一系列问题时,GPT-3 的表现优于一组 40 名加州大学洛杉矶分校的本科生,因为 SAT 需要使用熟悉问题的解决方案来解决新问题。

新闻稿称:“问题要求用户选择具有相同关系的单词对。(例如,在问题中:“爱”与“恨”的关系相当于“富”与哪个词的关系?答案是“穷”。)”另一组类比是从短篇小说中的一段话中得出的提示,问题与该故事中的信息相关。新闻稿指出:“这个过程被称为类比推理,长期以来一直被认为是人类独有的能力。”

事实上,GPT-3 的分数比大学申请者的平均 SAT 分数要高。在通过一组称为瑞文渐进矩阵的问题进行测试时,GPT-3 在逻辑推理方面的表现也与人类受试者一样好。

GPT-3 在 SAT 考试中表现出色并不令人意外。之前的研究曾通过要求该模型参加一系列标准化考试(如 AP 考试、LSAT 甚至 MCAT)来测试其逻辑能力,结果它以优异的成绩通过了考试。最新版本的语言模型 GPT-4 增加了图像处理能力,表现更加出色。去年,谷歌研究人员发现,他们可以通过思路链提示来改善此类语言模型的逻辑推理能力,将复杂问题分解为更小的步骤。

[相关:研究表明,ChatGPT 的准确性变得更差]

尽管当今的人工智能从根本上挑战了计算机科学家重新思考图灵测试等机器智能的基本基准,但这些模型还远不够完美。

例如,加州大学河滨分校的一个研究小组本周发表的一项研究发现,谷歌和 OpenAI 的语言模型在回答患者询问时提供的医疗信息不完整。今年早些时候,斯坦福大学和伯克利大学的科学家进行了进一步研究,发现 ChatGPT 在生成代码或解决数学问题时,答案越来越草率,原因不明。在普通人中,虽然 ChatGPT 很有趣也很受欢迎,但它在日常使用中并不实用。

而且,它在视觉谜题和理解现实世界的物理和空间方面仍然表现不佳。为此,谷歌正在尝试将多模态语言模型与机器人结合起来解决这个问题。

很难判断这些模型是否像我们一样思考——它们的认知过程是否与我们相似。话虽如此,擅长应试的人工智能通常并不像人类那样聪明。很难判断它们的极限在哪里,它们的潜力是什么。这需要对它们进行开放,并公开它们的软件和训练数据——这是专家们对 OpenAI 对其法学硕士研究的严密保护的基本批评。

<<:  过时的宽带设备可以作为电动汽车充电器获得新生命

>>:  首创的人工智能大脑植入手术帮助一名男子恢复手部感觉

推荐阅读

打开117年前的南极牛奶时间胶囊

随着杏仁奶、燕麦奶和豆奶等乳制品替代品越来越受欢迎,一个关于牛奶的百年老问题仍然存在。今天的乳制品与...

Bose QuietComfort Earbuds II 第一印象:让我们准备好轰鸣吧(少一点)

经过几十年的谈判,我终于同意与脑海中的声音达成和解。我不断地将黑暗的音乐传入我的大脑皮层,它们不再低...

本周我们了解到的最奇怪的事情:人身上(和牛身上)的洞、非法奶酪以及世界上最严重的奶制品灾难

本周你学到的最奇怪的事情是什么?好吧,不管是什么,我们保证如果你听 PopSci 的最新播客,你会得...

观看自制线圈炮摧毁笔记本电脑

这把自制枪使用电磁线圈将钢棒以每秒 138 英尺的速度发射出去。按下扳机将钢棒装入枪管,第一个电磁线...

从龙卷风到放屁:本月值得一读的八本科学书籍

四月的阵雨让你有足够的时间在等待温暖天气到来的同时,保持室内安全、干燥和温暖,读一本好书。以下是本月...

科技如何让每个人都成为优秀的摄影师

5 月底,《芝加哥太阳时报》解雇了所有摄影师。该报将转而使用新闻通讯社、自由撰稿人和手持 iPho...

利比亚叛军利用大规模硬件攻击劫持已禁用的手机网络

《华尔街日报》今天为我们带来了一个关于几位聪明的工程师、几位大金主和一次大规模硬件黑客攻击的惊人故事...

“我一个人可以做到!”《第五季》的吸引力与评价:独特的世界观与人物塑造

我一个人就可以做到! [第5季] - Hitori dekirumon! - 回顾与推荐《一人出门!...

不,今年夏天“会飞的”毒蜘蛛不会来找你

斑点灯笼蝇是四年前流行的昆虫。最流行的昆虫时尚甚至不是目前在中西部各地嗡嗡作响的蝉。而是巨大的黄色“...

微型“进食和排泄机器”善于吸收碳

世界上最小的动物的粪便可能有助于吸收地球大气中的部分温室气体。在实验室中测试一种使用粘土粉尘的新实验...

前所未有的蝗虫群正在创造意想不到的盟友

卢·德尔·贝洛 (Lou Del Bello) 是一名气候和能源记者,目前居住在新德里。本文最初发表...

感恩节前世界人口可能将超过 80 亿

联合国7月11日发布的人口报告显示,到2022年11月15日,世界人口将达到85亿。最新预测显示,世...

酿酒唐族:说唱音乐真的能酿出更好的啤酒吗?

费城的 Dock Street Brewery 喜欢边喝啤酒边听音乐,一时兴起,他们决定将两者结合起...

秋叶原电子组2011暑假:怀旧情感与新奇冒险的融合

《秋叶原电子组2011的夏天》——女孩们的冒险与成长故事■作品概要《秋叶原电脑小队:暑假2011》是...

英国报告称士兵未来可将武器直接插入大脑

一群有远见的军事科学家希望将士兵的武器直接插入他们的大脑,而这次 DARPA 却不见踪影。英国国家科...