研究表明,ChatGPT 的准确性变得更差

研究表明,ChatGPT 的准确性变得更差

两项新研究为 OpenAI 的 ChatGPT 大型语言模型程序带来了一个棘手的矛盾。尽管根据多项研究和资料,其广受欢迎的生成文本响应现在几乎与人类答案没有区别,但 GPT 似乎随着时间的推移变得越来越不准确。也许更令人沮丧的是,没有人能很好地解释这种令人不安的恶化。

斯坦福大学和加州大学伯克利分校的研究团队在周二发表的一项研究中指出,ChatGPT 的行为随着时间的推移发生了明显变化——而且不是朝着好的方向。更重要的是,研究人员对于这种反应质量下降的确切原因有些困惑。

为了检验 ChatGPT 底层 GPT-3.5 和 GPT-4 程序的一致性,该团队测试了人工智能的“漂移”倾向,即提供不同质量和准确度的答案,以及正确遵循给定命令的能力。研究人员要求 ChatGPT-3.5 和 ChatGPT-4 解决数学问题、回答敏感和危险问题、根据提示进行视觉推理以及生成代码。

[相关:大型科技公司最新的人工智能末日警告可能只是同样的炒作。]

在他们的审查中,该团队发现“总体而言……‘相同’的 LLM 服务的行为可以在相对较短的时间内发生很大变化,这凸显了持续监控 LLM 质量的必要性。”例如,2023 年 3 月的 GPT-4 识别素数的准确率接近 98%。然而,到 6 月,据报道,GPT-4 在同一任务中的准确率下降到不到 3%。与此同时,与 2023 年 3 月的版本相比,2023 年 6 月的 GPT-3.5 在素数识别方面有所改进。在计算机代码生成方面,两个版本生成计算机代码的能力在 3 月至 6 月之间都变差了。

这些差异可能会对现实世界产生影响——而且很快就会产生影响。本月早些时候,纽约大学的一个研究小组在《JMIR 医学教育》杂志上发表了一篇论文,指出 ChatGPT 对医疗相关问题的回答在语气和措辞方面与人类医疗专业人员表面上没有区别。研究人员向 392 人展示了 10 个患者问题和回答,其中一半来自人类医疗保健提供者,一半来自 OpenAI 的大型语言模型 (LLM)。参与者“区分人类和聊天机器人的回答的能力有限”。与此同时,人们对人工智能处理医疗数据隐私的能力以及它“产生幻觉”不准确信息的倾向越来越担忧。

注意到 ChatGPT 收益递减的并非只有学术界。正如Business Insider周三指出的那样,OpenAI 的开发者论坛一直在就 LLM 的进展(或缺乏进展)展开辩论。“有没有正式解决这个问题?作为付费客户,它从出色的助理副厨师变成了洗碗工。希望得到官方答复,”一位用户本月早些时候写道。

[相关:人工智能暂停信中存在一个明显的问题。]

OpenAI 的 LLM 研发以不接受外部审查而闻名,这一策略引起了行业专家和用户的强烈反对和批评。“真的很难说清楚为什么会发生这种情况,”ChatGPT 质量审查论文的合著者之一 Matei Zaharia 周三在推特上写道。加州大学伯克利分校计算机科学副教授兼 Databricks 首席技术官 Zaharia 继续推测,强化学习从人类反馈 (RLHF) 可能会像微调一样“遇到障碍”,但他也承认这可能只是系统中的缺陷。

因此,尽管 ChatGPT 可能通过了基本的图灵测试基准,但其参差不齐的质量仍然给公众带来了重大挑战和担忧——尽管几乎没有什么阻碍它们继续普及并融入日常生活。

<<:  第一艘以食物残渣为燃料的集装箱船准备起航

>>:  这种以真菌为基础的物质可能保护房屋免受日益严重的野火侵袭

推荐阅读

科学家如何为哈勃深空照片着色

https://www.youtube.com/watch?v=WSG0MnmUseEY我们喜欢哈...

《WIND BREAKER》评论:激动人心的自行车动作与深刻的故事的融合

WIND BREAKER综合评测与推荐概述《WIND BREAKER》是改编自新井悟的人气漫画的电视...

iPhone 控制的 LED 服装震撼舞池

马克·德维茨第一次参加 Dragon*Con(一个科幻大会,有时也被称为 Nerdi Gras)时,...

Pop Team Epic 第二季:备受期待的新动态和评论

Pop Team Epic TV动画系列2评论和推荐概述《Pop Team Epic》第二季是一部 ...

时空侦探玄师君:探索时空旅行的魅力,破解谜团

时空侦探玄师君 - 时空侦探玄师君■ 公共媒体剧院■ 原创媒体动漫原创■ 发布日期1998 年 7 ...

Piko Taro的Lullaby Lullaby WEB版- 舒缓的旋律和独特的视觉效果究竟有何魅力?

Piko Taro的Lullaby Lullaby:网络版的魅力与评价《Piko Taro 的摇篮...

《小火车》:全面回顾这部根据 NHK 名曲《大家的歌》改编的动人动画电影!

《小火车》:NHK 经典歌曲在动画中重现《小火车》于 1973 年 2 月在 NHK 教育电视台(...

《赤焰疾风》的魅力与评价:必看的动画

“赤井疾风”——令人难忘的一夜故事1992年2月21日以OVA形式发售的《赤井疾风》是一部至今仍因其...

当地知识可以拯救濒危动物

从了解动物的栖息地到哪些植物具有哪些药用价值,世界各地的社区都对当地环境有着专家级的了解。一般来说,...

陆军演示发射激光制导闪电的武器

在美国陆军武器研发中心和试验场皮卡汀尼兵工厂,工程师们正在开发一种装置,可以沿激光束发射闪电来消灭目...

已正式在我们的体内发现微塑料。这对人类健康意味着什么。

20 世纪 50 年代,全​​球每年生产约 150 万吨塑料。到 2017 年,这一数字呈指数级增...

丰田终于开始推进其电动汽车计划

电动汽车正在重塑世界。尽管汽油仍占主导地位,但电池驱动的汽车正迅速成为许多汽车制造商的发展方向——丰...

《叫猫不来》:全面回顾这部猫迷必看的舒缓动漫!

“当你呼唤猫时,它们不会过来。”——一只猫和一个人的温馨故事《猫不听你的呼唤,它们不会过来》是一部...

Facebook 刚刚做出了一些重大的隐私承诺,而这些承诺都取决于加密

最近你可能经常听到“端到端加密”这个词。这是因为本周早些时候,马克·扎克伯格概述了他对 Facebo...

野生鸟类不需要你家后院的喂食器就能生存

美国有超过 5000 万人为鸟类提供食物——无论是向鸭子投掷面包块还是在自家后院竖起闪亮的喂食器。事...