研究表明,ChatGPT 的准确性变得更差

研究表明,ChatGPT 的准确性变得更差

两项新研究为 OpenAI 的 ChatGPT 大型语言模型程序带来了一个棘手的矛盾。尽管根据多项研究和资料,其广受欢迎的生成文本响应现在几乎与人类答案没有区别,但 GPT 似乎随着时间的推移变得越来越不准确。也许更令人沮丧的是,没有人能很好地解释这种令人不安的恶化。

斯坦福大学和加州大学伯克利分校的研究团队在周二发表的一项研究中指出,ChatGPT 的行为随着时间的推移发生了明显变化——而且不是朝着好的方向。更重要的是,研究人员对于这种反应质量下降的确切原因有些困惑。

为了检验 ChatGPT 底层 GPT-3.5 和 GPT-4 程序的一致性,该团队测试了人工智能的“漂移”倾向,即提供不同质量和准确度的答案,以及正确遵循给定命令的能力。研究人员要求 ChatGPT-3.5 和 ChatGPT-4 解决数学问题、回答敏感和危险问题、根据提示进行视觉推理以及生成代码。

[相关:大型科技公司最新的人工智能末日警告可能只是同样的炒作。]

在他们的审查中,该团队发现“总体而言……‘相同’的 LLM 服务的行为可以在相对较短的时间内发生很大变化,这凸显了持续监控 LLM 质量的必要性。”例如,2023 年 3 月的 GPT-4 识别素数的准确率接近 98%。然而,到 6 月,据报道,GPT-4 在同一任务中的准确率下降到不到 3%。与此同时,与 2023 年 3 月的版本相比,2023 年 6 月的 GPT-3.5 在素数识别方面有所改进。在计算机代码生成方面,两个版本生成计算机代码的能力在 3 月至 6 月之间都变差了。

这些差异可能会对现实世界产生影响——而且很快就会产生影响。本月早些时候,纽约大学的一个研究小组在《JMIR 医学教育》杂志上发表了一篇论文,指出 ChatGPT 对医疗相关问题的回答在语气和措辞方面与人类医疗专业人员表面上没有区别。研究人员向 392 人展示了 10 个患者问题和回答,其中一半来自人类医疗保健提供者,一半来自 OpenAI 的大型语言模型 (LLM)。参与者“区分人类和聊天机器人的回答的能力有限”。与此同时,人们对人工智能处理医疗数据隐私的能力以及它“产生幻觉”不准确信息的倾向越来越担忧。

注意到 ChatGPT 收益递减的并非只有学术界。正如Business Insider周三指出的那样,OpenAI 的开发者论坛一直在就 LLM 的进展(或缺乏进展)展开辩论。“有没有正式解决这个问题?作为付费客户,它从出色的助理副厨师变成了洗碗工。希望得到官方答复,”一位用户本月早些时候写道。

[相关:人工智能暂停信中存在一个明显的问题。]

OpenAI 的 LLM 研发以不接受外部审查而闻名,这一策略引起了行业专家和用户的强烈反对和批评。“真的很难说清楚为什么会发生这种情况,”ChatGPT 质量审查论文的合著者之一 Matei Zaharia 周三在推特上写道。加州大学伯克利分校计算机科学副教授兼 Databricks 首席技术官 Zaharia 继续推测,强化学习从人类反馈 (RLHF) 可能会像微调一样“遇到障碍”,但他也承认这可能只是系统中的缺陷。

因此,尽管 ChatGPT 可能通过了基本的图灵测试基准,但其参差不齐的质量仍然给公众带来了重大挑战和担忧——尽管几乎没有什么阻碍它们继续普及并融入日常生活。

<<:  第一艘以食物残渣为燃料的集装箱船准备起航

>>:  这种以真菌为基础的物质可能保护房屋免受日益严重的野火侵袭

推荐阅读

DD 北斗神拳 2 草莓味+ 评测:甜蜜的复仇故事

《DD北斗神拳2草莓味+》全方位测评推荐概述《DD 北斗之拳2草莓味+》是2015年10月8日至12...

问答:《星球大战》创作者如何将 BB-8 打造成机器人偶像

《星球大战:原力觉醒》要到 12 月 18 日才会上映,但这部电影已经有了一位明星:BB-8,这个可...

见见你噩梦中的 7 英尺长的龙虾蜈蚣

看看这只 7 英尺长、已有 4.8 亿年历史的Aegirocassis benmoulae的面容,它...

《诚意的奖赏》评论:故事感人,人物引人入胜

《真心的报酬-诚之向井》的号召与评价《真琴的向井》是1936年1月1日放送的原创动画作品。该作品曾在...

七款音乐应用让你的 Apple Watch 变身音频控制器

随着每次更新,Apple Watch 变得越来越有用。但要充分利用它,您需要为其加载正确的应用程序。...

《X档案》回归:我们仍然愿意相信

1993 年《X 档案》首映时,我只有 9 岁。和许多人一样,我完全不知道这部剧讲的是什么,也不知道...

让您的 Fitbit 像一台运转良好的机器一样运行的最佳技巧

Fitbit 可以做很多事情。遗憾的是,锻炼时看起来又酷又干不是其中之一。Fitbit如果您手腕上戴...

“醒醒,姑娘们!”全面回顾讲述七位偶像的挑战与成长的感人电影!

《醒醒吧,女孩们!七位偶像》——深度探寻电影的魅力与情感《醒醒吧少女!七人偶像》是一部于2014年...

《神鬼传奇》的号召力与评价:宏大的故事和人物的深度

《仙侠传说》:一部描绘中国古代神话的精彩动画《仙界传封神演义》是 1999 年播出的电视动画系列,改...

天文学家可能知道“母牛”的起源,这是一次神秘而强大的宇宙爆炸

一场神秘的恒星爆炸为科学家们提供了一扇窗户,让他们了解某些巨大、短暂的超新星的来源。此次爆炸被程序命...

见见《星际迷航》和 NASA 学生 3D 打印挑战赛的获胜者

星际迷航复制器挑战赛的获胜者已经确定。NASA 在今天的新闻发布会上宣布,青少年组(13-19 岁)...

《黑魔女小姐!!》第二季的魅力与评价

《黑魔女小姐!!》第二季的魅力与评价“黑魔女先生也太透了!!”是根据石崎洋二原著小说改编的电视动画,...

老年司机应该成为自动驾驶汽车的早期采用者吗?

一些汽车制造商推出的概念车具有自动驾驶模式、休息室式内饰以及增强现实挡风玻璃和车窗,而其他汽车制造商...

对男孩来说非常危险的书

毫无疑问,我在PopSci工作五年多来最有趣的工作就是“灰质”专栏。自 2002 年中期以来,投稿人...

彻底评论“Onigara”!优点和缺点的详细解释

《鬼刀》:融合传统与现代、描绘灵魂深处的名作动画■作品概要《鬼柄》是一部 1994 年的日本动画电影...