《纽约时报》是最新一家与人工智能抓取工具展开斗争的媒体

《纽约时报》是最新一家与人工智能抓取工具展开斗争的媒体

ChatGPT 和 Bard 等生成式人工智能项目的魔力依赖于从开放互联网上抓取的数据。但现在,这些模型的训练数据来源开始关闭。据 Adweek 上周报道,《纽约时报》已禁止其网站上的任何内容用于开发 OpenAI 的 GPT-4、谷歌的 PaLM 2 和 Meta 的 Llama 2 等人工智能模型。

本月初, 《纽约时报》更新了其服务条款,明确禁止其内容被抓取用于训练“机器学习或人工智能 (AI) 系统”。虽然这不会影响当前一代大型语言模型 (LLM),但如果科技公司遵守禁令,它将阻止《纽约时报》的内容被用于开发未来的模型。

纽约时报》更新的服务条款禁止使用其任何内容(包括文本、图片、音频和视频片段、“外观和感觉”以及元数据)来开发包括人工智能在内的任何类型的软件,此外,他们还明确禁止使用“机器人、蜘蛛、脚本、服务、软件或任何手动或自动设备、工具或流程”在未经事先书面同意的情况下抓取其内容。这是相当宽泛的措辞,显然违反这些服务条款“可能导致对用户及其协助者的民事、刑事和/或行政处罚、罚款或制裁”。

鉴于《纽约时报》的内容已被用作当前法学硕士的主要训练数据来源,该报试图控制其数据未来的使用方式是有道理的。根据《华盛顿邮报》今年早些时候的一项调查,《纽约时报》是用于训练法学硕士的主要数据库之一的第四大内容来源。 《华盛顿邮报》分析了谷歌的 C4 数据集,这是 Common Crawl 的修改版本,其中包括从 1500 多万个网站抓取的内容。只有 Google Patents、维基百科和 Scribd(一个电子书库)为该数据库贡献了更多内容。

尽管《纽约时报》在训练数据方面占据主导地位,但本周, Semafor报道称,《纽约时报》 “决定不加入”包括《华尔街日报》在内的媒体公司集团,该集团试图与科技公司联合谈判 AI 政策。看来,该报打算像美联社 (AP) 一样做出自己的安排。美联社上个月与 OpenAI 达成了一项为期两年的协议,该协议将允许 ChatGPT 制造商使用美联社早在 1985 年的一些档案来训练未来的 AI 模型。

尽管 OpenAI 和谷歌等人工智能制造商因使用受版权保护的材料来训练其当前的法学硕士而面临多起诉讼,但问题已经真正爆发了。训练数据现在已经被使用,而且由于模型本身由多层复杂算法组成,因此无法轻易从 ChatGPT、Bard 和其他可用的法学硕士中删除或忽略。相反,现在的争斗是关于未来模型的训练数据的访问权——而且在许多情况下,争斗的焦点是谁能得到补偿。

[相关:Zoom 可能会使用你的“内容”来训练其人工智能]

今年早些时候,Reddit 也是 AI 模型训练数据的大量且不知情的贡献者,它关闭了第三方应用对其 API 的免费访问,试图向 AI 公司收取未来的访问费用。此举引发了整个网站的抗议。埃隆·马斯克 (Elon Musk) 也切断了 OpenAI 对 Twitter (对不起,X) 的访问,原因是担心他们没有支付足够的费用来使用其数据。在这两种情况下,问题都在于 AI 制造商可以从社交网络的内容中获利(尽管它实际上是用户生成的内容)。

鉴于所有这些,值得注意的是,上周 OpenAI 悄然发布了有关如何阻止其网络抓取 GPTBot 的详细信息,方法是在 robots.txt 文件中添加一行代码——这是大多数网站为搜索引擎和其他网络爬虫提供的一组指令。虽然《纽约时报》已经屏蔽了 Common Crawl 网络抓取机器人,但它还没有在其 robots.txt 文件中屏蔽 GPTBot。无论你怎么看,世界仍然因过去 18 个月强大 AI 模型的突然爆发而震惊。关于如何使用数据来训练它们,未来还有很多法律纠纷要发生——在法律和政策出台之前,情况将非常不确定。

<<:  科学家利用脑部扫描数据制作了 Pink Floyd 歌曲的翻唱版本

>>:  如何通过 5 个简单步骤取消 Amazon Prime

推荐阅读

很棒的在线游戏,即使你们分开,也可以和朋友一起玩

本文已更新。最初于 2020 年 4 月 17 日发布。如今,我们都花更多时间待在室内,有些人可能难...

《零之决斗大师》评论:该系列第四部作品的吸引力何在?

“零度决斗大师”:激情决斗者的全新挑战《零之决斗大师》是2007年4月9日至9月28日在东京电视台...

档案资料:20 世纪 20 年代发明的这个会说话的小玩意儿可以测量水位

为了纪念 150 周年,我们重新回顾了科普故事(成功和失败),这些故事有助于定义科学进步、理解和创新...

左转对自动驾驶汽车和人类来说都很困难

左转很难。事实上,对任何司机来说,最难的操作之一就是“无保护左转”。想象一下,你从车道上驶出,在一条...

macOS 14 Sonoma 公测版中 6 个新功能你必须尝试

macOS 14 Sonoma 直到今年晚些时候才会完成并正式发布,但目前已推出公开测试版。这意味着...

如果机器人鼻子能够比搜救犬嗅觉灵敏,那么它将成为灾难救援的未来

最可爱的设备。 存款照片2017 年 8 月,飓风哈维席卷德克萨斯州和邻近的墨西哥湾各州,留下了创纪...

照片:罕见一瞥量子计算机的核心

几十年来,量子计算的前景一直困扰着制药商、间谍和技术首席执行官。如果这种机器完善起来,将加快药物研发...

对《玲珑实验》深刻世界观与感染力的思考与评价

《玲音实验》:超越现实与网络界限的心理动画杰作■ 公共媒体电视动画系列■ 原创媒体动漫原创■ 播出时...

名侦探柯南:地狱的向日葵 - 第 19 部剧场版评论与评分

名侦探柯南:地狱的向日葵 - 电影评论和细节概述《名侦探柯南:地狱的向日葵》是改编自青山刚昌的人气漫...

为什么你的电脑屏幕会伤害你的眼睛(以及如何缓解)

如果您的显示器伤害了您的眼睛(有时称为计算机视觉综合症),那么罪魁祸首可能不只有一个。相反,有很多问...

世贸中心倒塌新理论:爆炸性化学反应是罪魁祸首

事发十多年后,挪威研究机构 SINTEF 的一位科学家提出,2001 年 9 月 11 日袭击后,一...

你可以在 Windows 上使用 Microsoft Copilot AI 助手做的一切

近几个月来,人工智能工具能力的快速提升令人无法忽视。微软毫不吝啬地在 Windows 中塞入大量人工...

告诉我! Dokan-kun —— 这部传达了教育意义的趣味的动画的魅力是什么呢?

“教教我!Dokan-kun”——一个关于机器人和他的家人的古怪故事概述《Oshiete!Doka...

京都寺町三条的福尔摩斯:探索侦探和青春魅力的评论

京都寺町三条的福尔摩斯 - 充满古董和谜团的迷人世界Kura是一家静静地坐落在京都寺町三条购物区的古...

《洛书!Hyper Doll》的魅力与评价:不容错过的动漫体验

简单的! Hyper Doll - 一部充满魅力的动作喜剧《Easy! Hyper Doll》于 1...