随着生成式人工智能程序的迅速普及,许多教育工作者对学生滥用系统代写书面作业表示担忧。不久之后,多种数字“人工智能检测”工具应运而生,其中许多工具声称能够准确解析由大型语言模型 (LLM)(如 OpenAI 的 ChatGPT)编写的文本中的原始人类写作。但一项新研究表明,这样的解决方案可能只会给教师和学生带来更多麻烦。作者发现,这些人工智能检测工具存在严重偏见,对于非英语母语人士来说,检测结果不准确。 斯坦福大学的一个团队由资深作者 James Zou 领导,他是生物医学数据科学、计算机科学和电气工程的助理教授,最近收集了 91 篇非英语母语人士为流行的英语作为第二语言测试 (TOEFL) 评估撰写的论文。然后,他们将这些论文输入到七个 GPT 检测程序中。根据 Zou 的结果,超过一半的写作样本被错误地归类为 AI 创作,而母语人士样本检测仍然近乎完美。 [相关:Sarah Silverman 和其他作者起诉 OpenAI 和 Meta 侵犯版权。] “这引出了一个关键问题:如果人工智能生成的内容可以轻松逃避检测,而人类的文本经常被错误分类,那么这些检测器的有效性到底有多高?”邹教授的团队在周一发表在《模式》杂志上的一篇论文中问道。 主要问题源于所谓的“文本困惑度”,即一篇书面作品中富有创意、令人惊讶的词汇选择的数量。像 ChatGPT 这样的人工智能程序旨在模拟“低困惑度”,以模仿更普遍的人类语音模式。当然,这对任何使用更标准化、更常见的句子结构和词汇选择的人来说都是一个潜在的问题。“如果你使用常见的英语单词,检测器会给出一个较低的困惑度分数,这意味着我的文章很可能会被标记为人工智能生成的,”Zou 在一份声明中说。“如果你使用复杂和更花哨的单词,那么它更有可能被算法归类为‘人类写的’。” [相关:电台主持人以涉嫌诽谤为由起诉 ChatGPT 开发商。] 随后,Zou 的团队进一步测试了检测程序的参数,将同样的 91 篇文章输入 ChatGPT,然后要求法学硕士对这些文章进行润色。然后,这些更“复杂”的编辑被送回七个检测程序——结果发现其中许多被重新归类为人类所写。 因此,虽然人工智能生成的书面内容通常并不好,但目前可用的识别工具显然也不好。“目前的检测器太不可靠了,对学生来说风险太高,我们不能在没有严格评估和重大改进的情况下相信这些技术,”Zou 最近辩称。无论他的声明的困惑度评级如何,这种观点都很难反驳。 |
应对气候变化最奇特的解决方案之一是各种形式的地球工程。这些方案旨在通过减少到达地球表面的太阳辐射量来...
狮子鬃毛的特点非常引人注目——鬃毛越浓密、颜色越深,对母狮就越有吸引力。这种典型的性别二态性主要由该...
周三早上的飓风劳拉 NOAA/NHC这个故事已经更新。飓风劳拉在过去 24 小时内迅速增强,目前已达...
人体本身就拥有一套高效的降温系统:汗液蒸发时,会带走身体的热量。吸汗面料有助于这一过程,将汗液均匀分...
在阿富汗赫尔曼德省执行例行侦察任务时,海军陆战队中士詹姆斯·赛兹伸出右手抓住了炸弹。这是这位军械处理...
这家终结所有大型零售巨头的大型零售巨头正着眼于加入流媒体大战。正如《纽约时报》昨天报道的那样,沃尔玛...
精致的游戏椅是 CES 的必备品。每年,至少有一款(通常更多)精致的多显示器工作站,看起来就像你在 ...
『唱歌王子♪Maji LOVE 1000%』的魅力与评价介绍《唱歌王子♪Maji LOVE 1000...
以色列与哈马斯支持的武装分子在加沙地带的冲突持续了整个周末,直到今天,加沙地带的死亡人数已接近 10...
许多人的抽屉里都放着一台较新的 DSLR 或无反光镜相机。其实这并不是迫切需要它们 — 大多数情况下...
浏览社交媒体动态,你可能会碰到一位网红将面部滚轮纳入日常护肤程序。面部滚轮被吹捧为具有减少浮肿、改善...
Happy Seven ~电视漫画~评论和推荐2005年播出的《Happy Seven:TV漫画》是...
确实,现在有一款应用可以做几乎所有事情。但对于计算机而言,在 Windows 和 macOS 上安装...
暗柴介第十三季的全面回顾与推荐 - 暗柴介概述《暗柴介》是一部 2013 年开始播出的日本恐怖动漫系...
周四晚上,NASA 发射国际空间站补给任务,火箭携带的仪器不仅用于研究太空生命或遥远恒星,还用于向地...