研究表明,ChatGPT 的准确性变得更差

研究表明,ChatGPT 的准确性变得更差

两项新研究为 OpenAI 的 ChatGPT 大型语言模型程序带来了一个棘手的矛盾。尽管根据多项研究和资料,其广受欢迎的生成文本响应现在几乎与人类答案没有区别,但 GPT 似乎随着时间的推移变得越来越不准确。也许更令人沮丧的是,没有人能很好地解释这种令人不安的恶化。

斯坦福大学和加州大学伯克利分校的研究团队在周二发表的一项研究中指出,ChatGPT 的行为随着时间的推移发生了明显变化——而且不是朝着好的方向。更重要的是,研究人员对于这种反应质量下降的确切原因有些困惑。

为了检验 ChatGPT 底层 GPT-3.5 和 GPT-4 程序的一致性,该团队测试了人工智能的“漂移”倾向,即提供不同质量和准确度的答案,以及正确遵循给定命令的能力。研究人员要求 ChatGPT-3.5 和 ChatGPT-4 解决数学问题、回答敏感和危险问题、根据提示进行视觉推理以及生成代码。

[相关:大型科技公司最新的人工智能末日警告可能只是同样的炒作。]

在他们的审查中,该团队发现“总体而言……‘相同’的 LLM 服务的行为可以在相对较短的时间内发生很大变化,这凸显了持续监控 LLM 质量的必要性。”例如,2023 年 3 月的 GPT-4 识别素数的准确率接近 98%。然而,到 6 月,据报道,GPT-4 在同一任务中的准确率下降到不到 3%。与此同时,与 2023 年 3 月的版本相比,2023 年 6 月的 GPT-3.5 在素数识别方面有所改进。在计算机代码生成方面,两个版本生成计算机代码的能力在 3 月至 6 月之间都变差了。

这些差异可能会对现实世界产生影响——而且很快就会产生影响。本月早些时候,纽约大学的一个研究小组在《JMIR 医学教育》杂志上发表了一篇论文,指出 ChatGPT 对医疗相关问题的回答在语气和措辞方面与人类医疗专业人员表面上没有区别。研究人员向 392 人展示了 10 个患者问题和回答,其中一半来自人类医疗保健提供者,一半来自 OpenAI 的大型语言模型 (LLM)。参与者“区分人类和聊天机器人的回答的能力有限”。与此同时,人们对人工智能处理医疗数据隐私的能力以及它“产生幻觉”不准确信息的倾向越来越担忧。

注意到 ChatGPT 收益递减的并非只有学术界。正如Business Insider周三指出的那样,OpenAI 的开发者论坛一直在就 LLM 的进展(或缺乏进展)展开辩论。“有没有正式解决这个问题?作为付费客户,它从出色的助理副厨师变成了洗碗工。希望得到官方答复,”一位用户本月早些时候写道。

[相关:人工智能暂停信中存在一个明显的问题。]

OpenAI 的 LLM 研发以不接受外部审查而闻名,这一策略引起了行业专家和用户的强烈反对和批评。“真的很难说清楚为什么会发生这种情况,”ChatGPT 质量审查论文的合著者之一 Matei Zaharia 周三在推特上写道。加州大学伯克利分校计算机科学副教授兼 Databricks 首席技术官 Zaharia 继续推测,强化学习从人类反馈 (RLHF) 可能会像微调一样“遇到障碍”,但他也承认这可能只是系统中的缺陷。

因此,尽管 ChatGPT 可能通过了基本的图灵测试基准,但其参差不齐的质量仍然给公众带来了重大挑战和担忧——尽管几乎没有什么阻碍它们继续普及并融入日常生活。

<<:  第一艘以食物残渣为燃料的集装箱船准备起航

>>:  这种以真菌为基础的物质可能保护房屋免受日益严重的野火侵袭

推荐阅读

农产品的秘密生活

有没有种过土豆,从商店带回家后它发芽了?如果是这样,你已经知道你在杂货店买的农产品在很多方面仍然是活...

见见重新发明轮子的 NASA 科学家

技术转让 科普萨利姆·纳赛尔从未想过自己会重新发明轮子。但从某种意义上说,他为轮椅做了这件事。纳赛尔...

外科医生为患者植入牙齿以恢复视力

三名加拿大人即将成为该国首批通过牙齿恢复视力的居民。骨牙角膜假体手术,俗称“牙对眼”手术,涉及采集人...

《Sokkuri House》评论:《大家的歌》的魅力何在?

《Sokkuri House》——大家之歌的魅力及其背景《Sokkuri House》是一部短篇动...

火山灰与陨石的混合可能引发地球上的生命

生命是什么?这是一个模糊的概念,没有单一的答案。如果你问一位哲学家,他们可能会引用柏拉图的话,告诉你...

为什么我的鞋带总是系不住?科学家们正在努力寻找答案。

奥利弗·奥莱利 (Oliver O'Reilly) 面临着一个困扰我们大多数人的困境。 “我...

PopSci 夏季刊刚刚出版,内容很热门

在一位好友的祖母百岁生日之际,我们请她说出她一生中见过的最伟大的发明。她见证了福特生产线上第一批汽车...

一种能对热和电作出反应的新型变色、变形织物

想象一下,在冬天寒冷的街道上行走之前穿上一件可以主动保暖的外套,或者在玩 VR 视频游戏时戴上可以模...

名侦探柯南:远海侦探 第17部剧场版的魅力与评价

名侦探柯南:远海侦探 第17部剧场版的魅力与评价名侦探柯南系列第十七部剧场版《名侦探柯南:遥远的海上...

气候变化使湍流更加严重

7 月初,一架从西班牙飞往乌拉圭的欧罗巴航空航班遭遇严重颠簸,导致数十人受伤,其中部分人伤势严重。就...

见见那些能追捕入侵物种的优秀狗狗

西莫斯在蒙大拿州米苏拉发现了一株杂草。皮特·科波利洛莉莉是一只来自佐治亚州的金毛猎犬。西莫斯是一只来...

《沉默的莫比乌斯》电影 2 评论:是什么让这部续集如此出色并超出预期?

沉默的莫比乌斯 电影版 2 - 从深渊归来1992年7月18日上映的《沉默的莫比乌斯》电影版是改编自...

已发现五种新软毛刺猬物种

到 2023 年,刺猬家族树将迎来更多分支。12 月 21 日发表在《林奈学会动物学杂志》上的一项研...

下一代可卡因走私毒品潜艇

毒品走私犯会采取各种创造性的 DIY 解决方案将他们的非法物品运往美国,从大麻弹射器到巨型隧道。但一...

如何识别人工智能生成的视频

生成式人工智能正在迅速占领网络,虽然我们正在权衡其对教育、能源和人类创造力的影响,但它也让我们更难相...