研究表明,ChatGPT 的准确性变得更差

研究表明,ChatGPT 的准确性变得更差

两项新研究为 OpenAI 的 ChatGPT 大型语言模型程序带来了一个棘手的矛盾。尽管根据多项研究和资料,其广受欢迎的生成文本响应现在几乎与人类答案没有区别,但 GPT 似乎随着时间的推移变得越来越不准确。也许更令人沮丧的是,没有人能很好地解释这种令人不安的恶化。

斯坦福大学和加州大学伯克利分校的研究团队在周二发表的一项研究中指出,ChatGPT 的行为随着时间的推移发生了明显变化——而且不是朝着好的方向。更重要的是,研究人员对于这种反应质量下降的确切原因有些困惑。

为了检验 ChatGPT 底层 GPT-3.5 和 GPT-4 程序的一致性,该团队测试了人工智能的“漂移”倾向,即提供不同质量和准确度的答案,以及正确遵循给定命令的能力。研究人员要求 ChatGPT-3.5 和 ChatGPT-4 解决数学问题、回答敏感和危险问题、根据提示进行视觉推理以及生成代码。

[相关:大型科技公司最新的人工智能末日警告可能只是同样的炒作。]

在他们的审查中,该团队发现“总体而言……‘相同’的 LLM 服务的行为可以在相对较短的时间内发生很大变化,这凸显了持续监控 LLM 质量的必要性。”例如,2023 年 3 月的 GPT-4 识别素数的准确率接近 98%。然而,到 6 月,据报道,GPT-4 在同一任务中的准确率下降到不到 3%。与此同时,与 2023 年 3 月的版本相比,2023 年 6 月的 GPT-3.5 在素数识别方面有所改进。在计算机代码生成方面,两个版本生成计算机代码的能力在 3 月至 6 月之间都变差了。

这些差异可能会对现实世界产生影响——而且很快就会产生影响。本月早些时候,纽约大学的一个研究小组在《JMIR 医学教育》杂志上发表了一篇论文,指出 ChatGPT 对医疗相关问题的回答在语气和措辞方面与人类医疗专业人员表面上没有区别。研究人员向 392 人展示了 10 个患者问题和回答,其中一半来自人类医疗保健提供者,一半来自 OpenAI 的大型语言模型 (LLM)。参与者“区分人类和聊天机器人的回答的能力有限”。与此同时,人们对人工智能处理医疗数据隐私的能力以及它“产生幻觉”不准确信息的倾向越来越担忧。

注意到 ChatGPT 收益递减的并非只有学术界。正如Business Insider周三指出的那样,OpenAI 的开发者论坛一直在就 LLM 的进展(或缺乏进展)展开辩论。“有没有正式解决这个问题?作为付费客户,它从出色的助理副厨师变成了洗碗工。希望得到官方答复,”一位用户本月早些时候写道。

[相关:人工智能暂停信中存在一个明显的问题。]

OpenAI 的 LLM 研发以不接受外部审查而闻名,这一策略引起了行业专家和用户的强烈反对和批评。“真的很难说清楚为什么会发生这种情况,”ChatGPT 质量审查论文的合著者之一 Matei Zaharia 周三在推特上写道。加州大学伯克利分校计算机科学副教授兼 Databricks 首席技术官 Zaharia 继续推测,强化学习从人类反馈 (RLHF) 可能会像微调一样“遇到障碍”,但他也承认这可能只是系统中的缺陷。

因此,尽管 ChatGPT 可能通过了基本的图灵测试基准,但其参差不齐的质量仍然给公众带来了重大挑战和担忧——尽管几乎没有什么阻碍它们继续普及并融入日常生活。

<<:  第一艘以食物残渣为燃料的集装箱船准备起航

>>:  这种以真菌为基础的物质可能保护房屋免受日益严重的野火侵袭

推荐阅读

谁入侵了民主党全国委员会?

在总统竞选期间,一群外国间谍渗透了某个政党的信息网络。然后,来自同一外国的另一群间谍也渗透了同一个网...

哆啦 A 梦电影《大雄的金银岛》评论:充满冒险和友情的动人故事

哆啦 A 梦电影《大雄的金银岛》——冒险与友谊的故事■ 公共媒体剧院■ 原创媒体漫画■ 发布日期20...

加拿大领地首府因野火逼近被勒令撤离

在加拿大西部,耶洛奈夫市及其邻近的原住民社区恩迪洛和德塔的居民正在逃离一场距离该市仅约 10 英里的...

使用空调会使外面更热吗?

1975 年, 《德克萨斯月刊》刊登了一篇文章,试图解释为什么休斯顿会成为“全美最热的地方”。文章...

猪鱼利用皮肤“看”东西

尖嘴的、栖息在礁石中的猪鱼散布在北卡罗来纳州和巴西之间的大西洋上,以其变色的皮肤而闻名。这些海洋变色...

Goal Zero Yeti 1000X 电站在亚马逊上降价近 300 美元

夏天到了,露营季节到了。这意味着是时候盘点一下你需要升级的所有户外配件了。长周末必备品应该包括一种即...

宠物小精灵电影:最美好的祝愿评论:比克提尼和白勇者雷希拉姆的魅力何在?

精灵宝可梦最佳祝愿剧场版:比克提尼与白勇者雷希拉姆 - 电影评论及详情影片概述《精灵宝可梦剧场版:比...

《远野与一笑》的魅力与评价:推荐点详解

《远野与一笑》OVA的魅力与全貌介绍2010年3月25日,以战国时代为背景的搞笑漫画《远野与一笑》以...

仅需 9.99 美元即可获得 3 个月使用排名第一的儿童编码应用程序的权限

授人以鱼不如授人以渔。教孩子编程,他们一生受益。某种程度上如此。许多专家长期以来都在宣扬教孩子编程的...

沙特阿拉伯希望在其线性城市之上建造一座科幻足球场

沙特阿拉伯备受争议的沙漠特大城市项目将包括一个距地面近 1,150 英尺的足球场——至少,这是沙特阿...

全面评测《你和夜空和斜坡》电视大小无字幕版特别版!

《你与夜空与斜坡》特别版的号召力与评价介绍《你与夜空与斜坡》是OVA《Myself;Yoursel...

用醋种植植物可以帮助它们度过干旱

在干旱条件下经过 14 天后,只有用乙酸处理的植物(中间一列)存活下来。RIKEN随着气候变化威胁的...

无需打字,仅使用手机摄像头即可将数据导入 Excel 和 Word

听着,除非您是专家,否则电子表格可能令人望而生畏。您有无数的选项、无数的公式,而且不要让我们开始格式...

ONE PIECE阿拉巴斯坦篇:全面回顾沙漠公主与海贼王的感人故事

《航海王阿拉巴斯坦篇:沙漠公主与海贼王》——全面解析这部感人巨作■ 公共媒体剧院■ 原创媒体漫画■ ...

鲁邦三世:马可·波罗游记-Another Page的魅力与评价

《鲁邦三世:马可·波罗游记-Another Page-》的魅力与评价《鲁邦三世:马可波罗游记-Ano...