随着生成式人工智能程序的迅速普及,许多教育工作者对学生滥用系统代写书面作业表示担忧。不久之后,多种数字“人工智能检测”工具应运而生,其中许多工具声称能够准确解析由大型语言模型 (LLM)(如 OpenAI 的 ChatGPT)编写的文本中的原始人类写作。但一项新研究表明,这样的解决方案可能只会给教师和学生带来更多麻烦。作者发现,这些人工智能检测工具存在严重偏见,对于非英语母语人士来说,检测结果不准确。 斯坦福大学的一个团队由资深作者 James Zou 领导,他是生物医学数据科学、计算机科学和电气工程的助理教授,最近收集了 91 篇非英语母语人士为流行的英语作为第二语言测试 (TOEFL) 评估撰写的论文。然后,他们将这些论文输入到七个 GPT 检测程序中。根据 Zou 的结果,超过一半的写作样本被错误地归类为 AI 创作,而母语人士样本检测仍然近乎完美。 [相关:Sarah Silverman 和其他作者起诉 OpenAI 和 Meta 侵犯版权。] “这引出了一个关键问题:如果人工智能生成的内容可以轻松逃避检测,而人类的文本经常被错误分类,那么这些检测器的有效性到底有多高?”邹教授的团队在周一发表在《模式》杂志上的一篇论文中问道。 主要问题源于所谓的“文本困惑度”,即一篇书面作品中富有创意、令人惊讶的词汇选择的数量。像 ChatGPT 这样的人工智能程序旨在模拟“低困惑度”,以模仿更普遍的人类语音模式。当然,这对任何使用更标准化、更常见的句子结构和词汇选择的人来说都是一个潜在的问题。“如果你使用常见的英语单词,检测器会给出一个较低的困惑度分数,这意味着我的文章很可能会被标记为人工智能生成的,”Zou 在一份声明中说。“如果你使用复杂和更花哨的单词,那么它更有可能被算法归类为‘人类写的’。” [相关:电台主持人以涉嫌诽谤为由起诉 ChatGPT 开发商。] 随后,Zou 的团队进一步测试了检测程序的参数,将同样的 91 篇文章输入 ChatGPT,然后要求法学硕士对这些文章进行润色。然后,这些更“复杂”的编辑被送回七个检测程序——结果发现其中许多被重新归类为人类所写。 因此,虽然人工智能生成的书面内容通常并不好,但目前可用的识别工具显然也不好。“目前的检测器太不可靠了,对学生来说风险太高,我们不能在没有严格评估和重大改进的情况下相信这些技术,”Zou 最近辩称。无论他的声明的困惑度评级如何,这种观点都很难反驳。 |
因幡之兔的魅力与评价《因幡之兔》是一部于 1929 年 1 月 1 日上映的动画电影,以其独特的故事...
封锁之前,Antoine Ricardou 经常往返于其品牌和设计公司位于巴黎和纽约的办公室之间。图...
地球上曾经生活着大量的巨型动物。化石记录中充满了巨大的鸟类,如新西兰的赫拉克勒斯巨蜥、马达加斯加的巨...
TikTok作为全球最受欢迎的短视频平台之一,已经成为了个人和品牌进行内容推广和营销的重要渠道。通过...
哈德逊谷的一位房主最近在自家后院发现了一件令人惊奇的事情:两颗巨大的、部分埋藏的动物牙齿。经过一些业...
神奇小老鼠 - 奇幻冒险世界■作品概要《神奇小老鼠》是 1979 年根据保罗·加利科的童话改编的一部...
《DRAGON BALL Z 特别篇:一个人的决战~挑战弗利萨的Z战士之父孙悟空》的综合评论与推荐概...
几个月来,印尼大部分地区都发生了火灾。火灾的起因是刀耕火种的农业,当地农民认为这是维持利润丰厚的棕榈...
约翰·亨特想用一把 3,600 英尺的枪将东西射入太空。他是认真的——他已经算过了。用火箭向轨道前哨...
对于下月初播出的冠军系列赛,职业保龄球协会将尝试一些不同寻常的做法:使用看起来像蓝精灵在上面摔了一跤...
空滝凉太的全方位评价与推荐概述《Korogashi Ryouta》于 1990 年 11 月 21 ...
格林童话 - 世界上最恐怖的童话概述《世界上最恐怖的格林童话》是2000年6月21日发售的OVA,是...
如果您曾经尝试过,您就会知道:倒车时后面还拖着拖车是非常非常困难的。但最近,我们测试了林肯推出的一款...
《献祭公主与百兽之王》:宏大的奇幻与深刻的人性戏剧的融合《祭祀公主与百兽之王》是改编自友本唯同名漫画...
就在一个多世纪前,欧洲开始了两次丑陋、可怕、极其暴力的世界大战中的第一场。自 1945 年以来,尽管...