随着生成式人工智能程序的迅速普及,许多教育工作者对学生滥用系统代写书面作业表示担忧。不久之后,多种数字“人工智能检测”工具应运而生,其中许多工具声称能够准确解析由大型语言模型 (LLM)(如 OpenAI 的 ChatGPT)编写的文本中的原始人类写作。但一项新研究表明,这样的解决方案可能只会给教师和学生带来更多麻烦。作者发现,这些人工智能检测工具存在严重偏见,对于非英语母语人士来说,检测结果不准确。 斯坦福大学的一个团队由资深作者 James Zou 领导,他是生物医学数据科学、计算机科学和电气工程的助理教授,最近收集了 91 篇非英语母语人士为流行的英语作为第二语言测试 (TOEFL) 评估撰写的论文。然后,他们将这些论文输入到七个 GPT 检测程序中。根据 Zou 的结果,超过一半的写作样本被错误地归类为 AI 创作,而母语人士样本检测仍然近乎完美。 [相关:Sarah Silverman 和其他作者起诉 OpenAI 和 Meta 侵犯版权。] “这引出了一个关键问题:如果人工智能生成的内容可以轻松逃避检测,而人类的文本经常被错误分类,那么这些检测器的有效性到底有多高?”邹教授的团队在周一发表在《模式》杂志上的一篇论文中问道。 主要问题源于所谓的“文本困惑度”,即一篇书面作品中富有创意、令人惊讶的词汇选择的数量。像 ChatGPT 这样的人工智能程序旨在模拟“低困惑度”,以模仿更普遍的人类语音模式。当然,这对任何使用更标准化、更常见的句子结构和词汇选择的人来说都是一个潜在的问题。“如果你使用常见的英语单词,检测器会给出一个较低的困惑度分数,这意味着我的文章很可能会被标记为人工智能生成的,”Zou 在一份声明中说。“如果你使用复杂和更花哨的单词,那么它更有可能被算法归类为‘人类写的’。” [相关:电台主持人以涉嫌诽谤为由起诉 ChatGPT 开发商。] 随后,Zou 的团队进一步测试了检测程序的参数,将同样的 91 篇文章输入 ChatGPT,然后要求法学硕士对这些文章进行润色。然后,这些更“复杂”的编辑被送回七个检测程序——结果发现其中许多被重新归类为人类所写。 因此,虽然人工智能生成的书面内容通常并不好,但目前可用的识别工具显然也不好。“目前的检测器太不可靠了,对学生来说风险太高,我们不能在没有严格评估和重大改进的情况下相信这些技术,”Zou 最近辩称。无论他的声明的困惑度评级如何,这种观点都很难反驳。 |
空中交通管制员表现出了专业的冷静。华盛顿州格林河学院航空技术教授杰瑞·沃尔夫说:“他们试图在紧急情况...
想象一个我们不需要插入任何东西的世界。只要将手机、笔记本电脑、平板电脑和耳机放在感应表面上,它们就会...
在内华达州里诺举行的全国飞行锦标赛上,超过 100 架小型飞机嗡嗡作响、发出呜呜声和轰鸣声,以每小时...
《儿童玩具》:描绘童星世界的经典动画的魅力与评价1. 工作概述《Kodomo no Omocha》(...
毛衣季节又到了,而且来得正是时候。如果汤和炖菜让你心潮澎湃,那么你应该在今年掌握炖菜的艺术。炖煮是一...
SR-71 黑鸟是冷战时期的标志性超音速侦察机,X战警选择将其作为首选交通工具,现在它终于有了替代品...
出于某种原因,每年你的妈妈、爸爸、阿姨、奶奶,无论谁,都会坚持给你买六条廉价的白色内裤,等洗衣机坏了...
233 华氏度:这是美国宇航局在海盗号登陆器前往火星之前对其进行消毒的温度(事实证明这可能没有必要—...
基因潜水员:穿越时空和生命起源的冒险1994 年至 1995 年播出的电视动画系列《Gene Div...
天元突破:红莲篇 - 电影评论及详细讲解■ 公共媒体剧院■ 原创媒体动漫原创■ 发布日期2008 年...
数学恰恰恰恰 - Sansuu Cha Cha Cha概述《数学恰恰恰恰》是一部两分钟的短篇动画作品...
Karma - Karma 的详细评论和推荐概述《Karma》是1977年在影院上映的原创动画电影。...
《二十张面孔的女儿》:一部关于怪盗和年轻女孩的惊险冒险故事《二十张面孔的女儿》是 2008 年播出的...
圣诞节还有五天。你还不知道要送什么礼物给你爸爸/岳父/家里的孩子/正在上大学的姐姐(她正值寒假回家)...
自 20 世纪 70 年代中期以来,警用扫描仪一直是民众获取警局实时更新信息的唯一途径。扫描仪的工作...