GPT-3 在 SAT 考试中表现相当出色

GPT-3 在 SAT 考试中表现相当出色

像 GPT-3 这样的大型语言模型赋予聊天机器人一种不可思议的能力,可以像人类一样回答我们的探索性问题。但它们到底有多聪明?加州大学洛杉矶分校心理学家本周在《自然人类行为》杂志上发表的一项新研究发现,语言模型 GPT-3 的推理能力比普通大学生更好——这可以说是一个很低的标准。

研究发现,在回答 SAT 等标准化考试中的一系列问题时,GPT-3 的表现优于一组 40 名加州大学洛杉矶分校的本科生,因为 SAT 需要使用熟悉问题的解决方案来解决新问题。

新闻稿称:“问题要求用户选择具有相同关系的单词对。(例如,在问题中:“爱”与“恨”的关系相当于“富”与哪个词的关系?答案是“穷”。)”另一组类比是从短篇小说中的一段话中得出的提示,问题与该故事中的信息相关。新闻稿指出:“这个过程被称为类比推理,长期以来一直被认为是人类独有的能力。”

事实上,GPT-3 的分数比大学申请者的平均 SAT 分数要高。在通过一组称为瑞文渐进矩阵的问题进行测试时,GPT-3 在逻辑推理方面的表现也与人类受试者一样好。

GPT-3 在 SAT 考试中表现出色并不令人意外。之前的研究曾通过要求该模型参加一系列标准化考试(如 AP 考试、LSAT 甚至 MCAT)来测试其逻辑能力,结果它以优异的成绩通过了考试。最新版本的语言模型 GPT-4 增加了图像处理能力,表现更加出色。去年,谷歌研究人员发现,他们可以通过思路链提示来改善此类语言模型的逻辑推理能力,将复杂问题分解为更小的步骤。

[相关:研究表明,ChatGPT 的准确性变得更差]

尽管当今的人工智能从根本上挑战了计算机科学家重新思考图灵测试等机器智能的基本基准,但这些模型还远不够完美。

例如,加州大学河滨分校的一个研究小组本周发表的一项研究发现,谷歌和 OpenAI 的语言模型在回答患者询问时提供的医疗信息不完整。今年早些时候,斯坦福大学和伯克利大学的科学家进行了进一步研究,发现 ChatGPT 在生成代码或解决数学问题时,答案越来越草率,原因不明。在普通人中,虽然 ChatGPT 很有趣也很受欢迎,但它在日常使用中并不实用。

而且,它在视觉谜题和理解现实世界的物理和空间方面仍然表现不佳。为此,谷歌正在尝试将多模态语言模型与机器人结合起来解决这个问题。

很难判断这些模型是否像我们一样思考——它们的认知过程是否与我们相似。话虽如此,擅长应试的人工智能通常并不像人类那样聪明。很难判断它们的极限在哪里,它们的潜力是什么。这需要对它们进行开放,并公开它们的软件和训练数据——这是专家们对 OpenAI 对其法学硕士研究的严密保护的基本批评。

<<:  过时的宽带设备可以作为电动汽车充电器获得新生命

>>:  首创的人工智能大脑植入手术帮助一名男子恢复手部感觉

推荐阅读

8 张大自然奇观获奖照片

该画廊最初发表在bioGraphic 上,这是一本由加州科学院主办的关于自然和保护的独立杂志,也是 ...

如何观看即将到来的“血月”月全食

3 月 13 日至 14 日夜间,北美和世界其他许多地方的天文爱好者将有机会看到月全食,月全食呈现出...

如何构建一个你真正会使用的袖珍工具包

我们生活在袖珍小工具的黄金时代。几年前,爷爷只能用一把能打开酒瓶的小刀,但从那时起,计算机辅助设计 ...

终身订阅最受好评的 Babbel,掌握一门新语言,现可额外享受 20% 折扣

准备好最终完善您一直想学习的语言了吗?通过终身订阅 Babbel(所有语言)将您的知识提升到更高水平...

通过这些课程获得 CompTIA 认证,限时仅需 55 美元

IT 专业人员的需求量已经很大,预计未来几年就业率只会增加。除了学位和多年的行业经验外,正式认证往往...

回顾《Aquarion EVOL》第 26 集导演剪辑版:作为该系列的巅峰之作,它有多完整?

Aquarion EVOL_26导演剪辑版的吸引力与评价《Aquarion EVOL_Episod...

科学家证实松鼠是出色的体操运动员

过去几年,人们对松鼠的兴趣越来越浓厚,尤其是在疫情期间。由于缺乏人与人之间的互动,一些人转向灵巧的后...

首次试驾:哈雷戴维森全新全电动摩托车

本故事最初发表于 Cycleworld.com。和许多人一样,2014 年,当哈雷戴维森(也许是世界...

国际空间站出现一系列新裂缝,确实显露出了它的老旧

据路透社周一报道,俄罗斯宇航员在国际空间站(ISS)部分区域发现了新的裂缝。俄罗斯能源公司火箭与航天...

“Moshidora”的魅力与德鲁克理论的实践:一名女子高中棒球经理的成长故事

“Moshidora”:高中棒球与管理融合诞生的动人故事《如果高中棒球队的女经理读了德鲁克的《管理学...

热辣悬疑剧的魅力!神秘温泉事件彻底解析!

Steam悬疑剧!温泉怪异事件!!概述“热血悬疑剧!神秘温泉事件!!”是2014年9月25日发行的...

世卫组织称治疗高血压可在 30 年内挽救 7600 万人的生命

根据世界卫生组织 (WHO) 的一份新报告,从今年到 2050 年,充分治疗高血压将挽救 7600 ...

对《魔法少女》最终集的思考和评论:魔法少女的故事将走向何方?

Marchen Mädchen(第 11 和 12 集)评论和详细信息概述《魔法少女小圆》是一部改...

微生物可以帮助我们在火星上制造火箭燃料

携带足够的燃料前往火星既困难又昂贵,携带回程燃料更是难上加难,但微生物可以消除这种需要。单单人类从火...

攻壳机动队 SAC_2045 第二季深度评测:超出预期

《攻壳机动队SAC_2045》系列第二季全面点评与推荐概述攻壳机动队 SAC_2045 系列第 2 ...