像 GPT-3 这样的大型语言模型赋予聊天机器人一种不可思议的能力,可以像人类一样回答我们的探索性问题。但它们到底有多聪明?加州大学洛杉矶分校心理学家本周在《自然人类行为》杂志上发表的一项新研究发现,语言模型 GPT-3 的推理能力比普通大学生更好——这可以说是一个很低的标准。 研究发现,在回答 SAT 等标准化考试中的一系列问题时,GPT-3 的表现优于一组 40 名加州大学洛杉矶分校的本科生,因为 SAT 需要使用熟悉问题的解决方案来解决新问题。 新闻稿称:“问题要求用户选择具有相同关系的单词对。(例如,在问题中:“爱”与“恨”的关系相当于“富”与哪个词的关系?答案是“穷”。)”另一组类比是从短篇小说中的一段话中得出的提示,问题与该故事中的信息相关。新闻稿指出:“这个过程被称为类比推理,长期以来一直被认为是人类独有的能力。” 事实上,GPT-3 的分数比大学申请者的平均 SAT 分数要高。在通过一组称为瑞文渐进矩阵的问题进行测试时,GPT-3 在逻辑推理方面的表现也与人类受试者一样好。 GPT-3 在 SAT 考试中表现出色并不令人意外。之前的研究曾通过要求该模型参加一系列标准化考试(如 AP 考试、LSAT 甚至 MCAT)来测试其逻辑能力,结果它以优异的成绩通过了考试。最新版本的语言模型 GPT-4 增加了图像处理能力,表现更加出色。去年,谷歌研究人员发现,他们可以通过思路链提示来改善此类语言模型的逻辑推理能力,将复杂问题分解为更小的步骤。 [相关:研究表明,ChatGPT 的准确性变得更差] 尽管当今的人工智能从根本上挑战了计算机科学家重新思考图灵测试等机器智能的基本基准,但这些模型还远不够完美。 例如,加州大学河滨分校的一个研究小组本周发表的一项研究发现,谷歌和 OpenAI 的语言模型在回答患者询问时提供的医疗信息不完整。今年早些时候,斯坦福大学和伯克利大学的科学家进行了进一步研究,发现 ChatGPT 在生成代码或解决数学问题时,答案越来越草率,原因不明。在普通人中,虽然 ChatGPT 很有趣也很受欢迎,但它在日常使用中并不实用。 而且,它在视觉谜题和理解现实世界的物理和空间方面仍然表现不佳。为此,谷歌正在尝试将多模态语言模型与机器人结合起来解决这个问题。 很难判断这些模型是否像我们一样思考——它们的认知过程是否与我们相似。话虽如此,擅长应试的人工智能通常并不像人类那样聪明。很难判断它们的极限在哪里,它们的潜力是什么。这需要对它们进行开放,并公开它们的软件和训练数据——这是专家们对 OpenAI 对其法学硕士研究的严密保护的基本批评。 |
《老师的王子》:可爱的老师和个性鲜明的学生,有趣的校园生活■作品概要《老师的孩子》是改编自桃濑珠美的...
苏格兰斯凯岛的风景主要集中在崎岖的山丘和风景如画的湖泊之间,岩石潮汐池中覆盖着地衣的草皮很容易被忽视...
我们最近发现了南斯拉夫科学杂志Galaksija的大量复古封面。我们从 Flickr 用户 Yugo...
通过应用程序召唤共享自动驾驶汽车车队的城市梦想正一步步接近现实。当然,Uber 已经在宾夕法尼亚州和...
昨晚, 《权力的游戏》为我们带来了有史以来最大的一战,人类希望击退似乎无穷无尽的行尸走肉士兵。这一集...
周四,以色列太空公司 SpaceIL 的机器人着陆器在尝试软着陆月球时坠毁,标志着其任务突然结束。这...
电子烟制造商 Juul Labs 支付了 4.62 亿美元,这是该公司迄今为止最大的跨州和解协议。这...
虎鲸的一个独特亚种群似乎使用专门的捕猎技巧来捕猎它们所吃的海洋哺乳动物。虎鲸——或称杀人鲸——是终极...
《哒哒哒!》第一季的魅力与评价“哒!哒!哒!”是一部电视动画系列,改编自川村美嘉的漫画,于 2000...
《穿靴子的猫》:东映动画的奇幻杰作《穿靴子的猫》于 1969 年 3 月 18 日上映,是一部由东映...
自 2009 年以来,每年都有来自世界各地的艺术家、工程师、音乐家和业余爱好者带着独一无二的乐器来到...
本文已更新。最初于 2020 年 12 月 10 日发布。如果没有下载这些应用,你的智能手机就没什么...
这组可爱的鼻子说明了一个有趣的事实:有些哺乳动物的鼻子是温暖的,而另一些则保持较冷的鼻子。你能猜出上...
尽管夏威夷莫纳罗亚火山最近的喷发已于 12 月 15 日正式停止,但科学家仍在收集关键数据,以更好地...
在人眼看来,一段仿真狐狸视频可能看起来像是动画电影中的角色。然而,对于一只孤儿幼年红狐狸(称为幼狐)...