随着生成式人工智能程序的迅速普及,许多教育工作者对学生滥用系统代写书面作业表示担忧。不久之后,多种数字“人工智能检测”工具应运而生,其中许多工具声称能够准确解析由大型语言模型 (LLM)(如 OpenAI 的 ChatGPT)编写的文本中的原始人类写作。但一项新研究表明,这样的解决方案可能只会给教师和学生带来更多麻烦。作者发现,这些人工智能检测工具存在严重偏见,对于非英语母语人士来说,检测结果不准确。 斯坦福大学的一个团队由资深作者 James Zou 领导,他是生物医学数据科学、计算机科学和电气工程的助理教授,最近收集了 91 篇非英语母语人士为流行的英语作为第二语言测试 (TOEFL) 评估撰写的论文。然后,他们将这些论文输入到七个 GPT 检测程序中。根据 Zou 的结果,超过一半的写作样本被错误地归类为 AI 创作,而母语人士样本检测仍然近乎完美。 [相关:Sarah Silverman 和其他作者起诉 OpenAI 和 Meta 侵犯版权。] “这引出了一个关键问题:如果人工智能生成的内容可以轻松逃避检测,而人类的文本经常被错误分类,那么这些检测器的有效性到底有多高?”邹教授的团队在周一发表在《模式》杂志上的一篇论文中问道。 主要问题源于所谓的“文本困惑度”,即一篇书面作品中富有创意、令人惊讶的词汇选择的数量。像 ChatGPT 这样的人工智能程序旨在模拟“低困惑度”,以模仿更普遍的人类语音模式。当然,这对任何使用更标准化、更常见的句子结构和词汇选择的人来说都是一个潜在的问题。“如果你使用常见的英语单词,检测器会给出一个较低的困惑度分数,这意味着我的文章很可能会被标记为人工智能生成的,”Zou 在一份声明中说。“如果你使用复杂和更花哨的单词,那么它更有可能被算法归类为‘人类写的’。” [相关:电台主持人以涉嫌诽谤为由起诉 ChatGPT 开发商。] 随后,Zou 的团队进一步测试了检测程序的参数,将同样的 91 篇文章输入 ChatGPT,然后要求法学硕士对这些文章进行润色。然后,这些更“复杂”的编辑被送回七个检测程序——结果发现其中许多被重新归类为人类所写。 因此,虽然人工智能生成的书面内容通常并不好,但目前可用的识别工具显然也不好。“目前的检测器太不可靠了,对学生来说风险太高,我们不能在没有严格评估和重大改进的情况下相信这些技术,”Zou 最近辩称。无论他的声明的困惑度评级如何,这种观点都很难反驳。 |
正在寻找新爱好或准备出国旅行?使用折扣终身订阅 Rosetta Stone 学习一门新语言,现仅需 ...
《恐龙之谜》深入探究了“可怕蜥蜴”的秘密,以及让古生物学家彻夜难眠的所有问题。我们仍然生活在恐龙时代...
波罗的海海底的石墙可能是欧洲已知的最古老的人类建造的巨型建筑。它的历史可以追溯到大约 11,000 ...
《十二国记》:异世界奇幻的魅力与深刻主题《十二国记》是根据小野冬美的原著小说改编的电视动画,于 20...
“Shiohi Girls Vongole Bianco”-享受可爱又超现实的世界2019年11月1...
美国东部时间明天 7 月 14 日上午 7:50,有史以来发射速度最快的航天器“新视野”将首次近距离...
地球上存在着许多有助于生命存在的概念。其中一个概念很简单,比如分子是右旋的还是左旋的。尽管这很简单,...
电线上的鸟。Pixabay麦克·麦格兰的耳朵很好。他只需听鸟儿唱歌就能辨别出它。他还可以从鸟儿的歌声...
在室外,大多数植物通过开花、授粉、受精和结籽进行繁殖。但在家里,这个过程看起来大不相同。在光线通常有...
通过机器人在火星上体验生活似乎很迷人,从很多方面来说确实如此,比如敲碎岩石、铲起沙子等等。但日程安排...
Soukihei MD Geist <完美版> 综合评论与推荐 - Soukihei M...
《纪事女孩》的全面评论和推荐概述《Chronicle Girls》是根据世嘉原创游戏《Chain C...
每天早上,播客 Paul Bae 都会在温哥华自然资源丰富的社区中探索一条新路。他放开三只小狗的皮带...
“我是一块大石头”——回顾大家的歌曲代表作《我是大石头》是1982年2月在NHK教育电视台(现NH...
头撞并非只是口袋妖怪或传奇足球运动员的招数:它是长颈鹿过去生活的线索。周四发表在《科学》杂志上的一项...