研究表明,ChatGPT 的准确性变得更差

研究表明,ChatGPT 的准确性变得更差

两项新研究为 OpenAI 的 ChatGPT 大型语言模型程序带来了一个棘手的矛盾。尽管根据多项研究和资料,其广受欢迎的生成文本响应现在几乎与人类答案没有区别,但 GPT 似乎随着时间的推移变得越来越不准确。也许更令人沮丧的是,没有人能很好地解释这种令人不安的恶化。

斯坦福大学和加州大学伯克利分校的研究团队在周二发表的一项研究中指出,ChatGPT 的行为随着时间的推移发生了明显变化——而且不是朝着好的方向。更重要的是,研究人员对于这种反应质量下降的确切原因有些困惑。

为了检验 ChatGPT 底层 GPT-3.5 和 GPT-4 程序的一致性,该团队测试了人工智能的“漂移”倾向,即提供不同质量和准确度的答案,以及正确遵循给定命令的能力。研究人员要求 ChatGPT-3.5 和 ChatGPT-4 解决数学问题、回答敏感和危险问题、根据提示进行视觉推理以及生成代码。

[相关:大型科技公司最新的人工智能末日警告可能只是同样的炒作。]

在他们的审查中,该团队发现“总体而言……‘相同’的 LLM 服务的行为可以在相对较短的时间内发生很大变化,这凸显了持续监控 LLM 质量的必要性。”例如,2023 年 3 月的 GPT-4 识别素数的准确率接近 98%。然而,到 6 月,据报道,GPT-4 在同一任务中的准确率下降到不到 3%。与此同时,与 2023 年 3 月的版本相比,2023 年 6 月的 GPT-3.5 在素数识别方面有所改进。在计算机代码生成方面,两个版本生成计算机代码的能力在 3 月至 6 月之间都变差了。

这些差异可能会对现实世界产生影响——而且很快就会产生影响。本月早些时候,纽约大学的一个研究小组在《JMIR 医学教育》杂志上发表了一篇论文,指出 ChatGPT 对医疗相关问题的回答在语气和措辞方面与人类医疗专业人员表面上没有区别。研究人员向 392 人展示了 10 个患者问题和回答,其中一半来自人类医疗保健提供者,一半来自 OpenAI 的大型语言模型 (LLM)。参与者“区分人类和聊天机器人的回答的能力有限”。与此同时,人们对人工智能处理医疗数据隐私的能力以及它“产生幻觉”不准确信息的倾向越来越担忧。

注意到 ChatGPT 收益递减的并非只有学术界。正如Business Insider周三指出的那样,OpenAI 的开发者论坛一直在就 LLM 的进展(或缺乏进展)展开辩论。“有没有正式解决这个问题?作为付费客户,它从出色的助理副厨师变成了洗碗工。希望得到官方答复,”一位用户本月早些时候写道。

[相关:人工智能暂停信中存在一个明显的问题。]

OpenAI 的 LLM 研发以不接受外部审查而闻名,这一策略引起了行业专家和用户的强烈反对和批评。“真的很难说清楚为什么会发生这种情况,”ChatGPT 质量审查论文的合著者之一 Matei Zaharia 周三在推特上写道。加州大学伯克利分校计算机科学副教授兼 Databricks 首席技术官 Zaharia 继续推测,强化学习从人类反馈 (RLHF) 可能会像微调一样“遇到障碍”,但他也承认这可能只是系统中的缺陷。

因此,尽管 ChatGPT 可能通过了基本的图灵测试基准,但其参差不齐的质量仍然给公众带来了重大挑战和担忧——尽管几乎没有什么阻碍它们继续普及并融入日常生活。

<<:  第一艘以食物残渣为燃料的集装箱船准备起航

>>:  这种以真菌为基础的物质可能保护房屋免受日益严重的野火侵袭

推荐阅读

海军少年:深度回顾深海冒险与成长的故事

海底少年 Marine - 海上少年 Marine概述《海底小纵队》是1969年开播的日本电视动画,...

好消息:你并不像你想象的那么令人厌恶

你知道你的白衬衫在穿过和洗过几次后会变得多么肮脏吗?你漂亮的白毛巾突然变得像奶油一样?令人欣慰的消息...

阿贝贝·比基拉如何赤脚赢得奥运马拉松

本周你学到的最奇怪的事情是什么?好吧,不管是什么,我们保证如果你听PopSci的热门播客,你会得到一...

使用智能手机酒精测试仪向全世界公布你的醉酒数据

无论是和好友比赛谁最醉,还是想确定自己的血液酒精含量是否低到可以开车回家(伙计,打车就行),在酒吧里...

梅赛德斯汽车的超级屏幕上将很快出现游戏品质的图形

视频游戏软件开发商 Unity Technologies 本周透露,它将为梅赛德斯-奔驰的下一代信息...

蚁狮幼虫可以“装死”一个多小时,然后一切就变得随机了

有时,当动物与捕食者接触时,它们为了求生而做出的最后一搏就是一动不动地躺下或“装死”。但之后会发生什...

全面评价《超级弹丸论破2.5》狛枝凪斗的世界毁灭

超级弹丸论破 2.5 狛枝凪斗与世界毁灭者 - 深度评测与全方位指南概述《超级弹丸论破2.5:狛枝凪...

《COCOLORS》的魅力与评价:探索多彩的世界与故事的深度

COCOLORS:多彩的世界与深刻的主题《COCOLORS》是神风动画制作公司制作的动画短片,于20...

银河系扭曲了,但天文学家仍不确定原因

有时,地球上的生命似乎在过去几年里经历了一些奇怪的曲折,但如果这能让你感觉好一些,那不仅仅是我们。事...

青空拳REGENESIS评论:新传奇的开始

《青空之拳 REGENESIS》:关于命运与北极星之战的新故事■ 公共媒体电视动画系列■ 原创媒体漫...

幸运星:对生活片段动画杰作的全面评论

Lucky Star - Lucky Star - 详细评论和推荐概述《幸运星》是一部电视动画系列,...

战姬绝唱 Symphogear AXZ - 全面解析压倒性的战斗场面和动人的故事

战姬绝唱 Symphogear AXZ 综合评测与推荐概述《战姬绝唱 Symphogear AXZ》...

“马顿疯狂放毒者”是历史上最离奇的未解之谜之一

本周你学到的最奇怪的事情是什么?好吧,不管是什么,我们保证如果你听PopSci的热门播客,你会得到一...

商业太空时代的曙光(可能)将在本周末到来

更新:在猎鹰 9 号中央发动机内检测到异常高压后,今天早上的发射在最后一刻被中止。下一个可用的发射窗...

我们对抗热浪的武器是什么?肮脏的备用电源。

每年夏天来临,酷热的天气也随之而来。随着气温的升高,人们需要增加能源使用量,因为人们转而在家中使用空...