GPT-3 在 SAT 考试中表现相当出色

GPT-3 在 SAT 考试中表现相当出色

像 GPT-3 这样的大型语言模型赋予聊天机器人一种不可思议的能力,可以像人类一样回答我们的探索性问题。但它们到底有多聪明?加州大学洛杉矶分校心理学家本周在《自然人类行为》杂志上发表的一项新研究发现,语言模型 GPT-3 的推理能力比普通大学生更好——这可以说是一个很低的标准。

研究发现,在回答 SAT 等标准化考试中的一系列问题时,GPT-3 的表现优于一组 40 名加州大学洛杉矶分校的本科生,因为 SAT 需要使用熟悉问题的解决方案来解决新问题。

新闻稿称:“问题要求用户选择具有相同关系的单词对。(例如,在问题中:“爱”与“恨”的关系相当于“富”与哪个词的关系?答案是“穷”。)”另一组类比是从短篇小说中的一段话中得出的提示,问题与该故事中的信息相关。新闻稿指出:“这个过程被称为类比推理,长期以来一直被认为是人类独有的能力。”

事实上,GPT-3 的分数比大学申请者的平均 SAT 分数要高。在通过一组称为瑞文渐进矩阵的问题进行测试时,GPT-3 在逻辑推理方面的表现也与人类受试者一样好。

GPT-3 在 SAT 考试中表现出色并不令人意外。之前的研究曾通过要求该模型参加一系列标准化考试(如 AP 考试、LSAT 甚至 MCAT)来测试其逻辑能力,结果它以优异的成绩通过了考试。最新版本的语言模型 GPT-4 增加了图像处理能力,表现更加出色。去年,谷歌研究人员发现,他们可以通过思路链提示来改善此类语言模型的逻辑推理能力,将复杂问题分解为更小的步骤。

[相关:研究表明,ChatGPT 的准确性变得更差]

尽管当今的人工智能从根本上挑战了计算机科学家重新思考图灵测试等机器智能的基本基准,但这些模型还远不够完美。

例如,加州大学河滨分校的一个研究小组本周发表的一项研究发现,谷歌和 OpenAI 的语言模型在回答患者询问时提供的医疗信息不完整。今年早些时候,斯坦福大学和伯克利大学的科学家进行了进一步研究,发现 ChatGPT 在生成代码或解决数学问题时,答案越来越草率,原因不明。在普通人中,虽然 ChatGPT 很有趣也很受欢迎,但它在日常使用中并不实用。

而且,它在视觉谜题和理解现实世界的物理和空间方面仍然表现不佳。为此,谷歌正在尝试将多模态语言模型与机器人结合起来解决这个问题。

很难判断这些模型是否像我们一样思考——它们的认知过程是否与我们相似。话虽如此,擅长应试的人工智能通常并不像人类那样聪明。很难判断它们的极限在哪里,它们的潜力是什么。这需要对它们进行开放,并公开它们的软件和训练数据——这是专家们对 OpenAI 对其法学硕士研究的严密保护的基本批评。

<<:  过时的宽带设备可以作为电动汽车充电器获得新生命

>>:  首创的人工智能大脑植入手术帮助一名男子恢复手部感觉

推荐阅读

iPod Nano 和 iPod Touch 评论:嘿伙计们,还记得 iPod 吗?

在我们进一步讨论之前,我们假设您已经决定要购买一款可以播放媒体(或应用程序)的非智能手机,因此我们不...

价格实惠的无人驾驶汽车可能会限制公共交通

我们所知的汽车对环境并不好。随着我们慢慢走向大量无人驾驶汽车上路的未来,一些研究人员表示,是时候考虑...

Black Jack Karte V 圣梅里达的猫头鹰 - 透彻分析动人的故事和深刻的主题

黑杰克图 V 圣梅里达的猫头鹰 - 深刻的梦想和手术的艺术■ 公共媒体卵子■ 原创媒体漫画■ 发布日...

如何让你的社交媒体帖子真正私密

本文已更新。最初发布于 2017 年 2 月 16 日。我们大多数人都知道,我们需要谨慎对待在社交媒...

日本调查机构称福岛危机是“一场严重的人为灾难”

福岛核事故独立调查委员会是日本国会为调查去年的核灾难而设立的独立委员会(好吧,废话),该委员会刚刚发...

谷蛾终于到达南极洲

去年二月,南极研究站的研究人员发现了一种令人震惊的生物:一只飞蛾。通常情况下,蛾子并不可怕。但在南极...

水瓶座时代传奇 II ~别忘了我……~的魅力与评价:令人难忘的故事和人物

水瓶座时代传奇 II 的全面评论和推荐 〜别忘了我……〜概述《水瓶座时代传说 II ~别忘了我……~...

生锈的金属可能是电网所需的电池

电能极易消耗。如果在产生时不加以利用,它就会迅速以热量的形式消散。只有当大量太阳能和风能能够随时储存...

宇宙眼镜蛇的魅力与评价:重新发现传奇动画

太空眼镜蛇:经久不衰的海盗传奇及其吸引力介绍1982年至1983年播出的电视动画《宇宙眼镜蛇》改编自...

华盛顿州桥梁倒塌导致两辆汽车坠入斯卡吉特河

本周美国各地的桥梁都经历了艰难的一周。昨天晚上 7 点左右,华盛顿州西雅图北部斯卡吉特河上的一座桥梁...

仅供参考:比尔·克林顿为何如此擅长向人群演讲?

前几天晚上,你们中许多人被前总统克林顿迷住是有原因的。这也是为什么昨晚巴拉克·奥巴马在自己的大会上难...

用姜黄、阳光和 19 世纪的摄影技术为你的艺术增添色彩

姜黄是你能找到的颜色最鲜艳的香料之一,也是印度美食的主食,但它的作用远不止调味食物。姜黄素是这种植物...

寒冷的天气是观赏和拍摄夜空的最佳时机

杰克·福斯科 (Jack Fusco) 使用索尼 A7R Mark II 相机和广角 20mm Si...

现在在亚马逊上购买 DeWalt 电动工具可节省 45% 以上

现在是 DIY 季节,所以是时候填满你的工具包或更换那些自从《宋飞传》播出新剧集以来你一直使用的旧工...

《春》的魅力与口碑:感人的故事和深刻的人物

《春》的魅力与评价:剧场版动画的新可能性2013年6月8日上映的动画电影《春》以其独特的故事情节和优...