《纽约时报》是最新一家与人工智能抓取工具展开斗争的媒体

《纽约时报》是最新一家与人工智能抓取工具展开斗争的媒体

ChatGPT 和 Bard 等生成式人工智能项目的魔力依赖于从开放互联网上抓取的数据。但现在,这些模型的训练数据来源开始关闭。据 Adweek 上周报道,《纽约时报》已禁止其网站上的任何内容用于开发 OpenAI 的 GPT-4、谷歌的 PaLM 2 和 Meta 的 Llama 2 等人工智能模型。

本月初, 《纽约时报》更新了其服务条款,明确禁止其内容被抓取用于训练“机器学习或人工智能 (AI) 系统”。虽然这不会影响当前一代大型语言模型 (LLM),但如果科技公司遵守禁令,它将阻止《纽约时报》的内容被用于开发未来的模型。

纽约时报》更新的服务条款禁止使用其任何内容(包括文本、图片、音频和视频片段、“外观和感觉”以及元数据)来开发包括人工智能在内的任何类型的软件,此外,他们还明确禁止使用“机器人、蜘蛛、脚本、服务、软件或任何手动或自动设备、工具或流程”在未经事先书面同意的情况下抓取其内容。这是相当宽泛的措辞,显然违反这些服务条款“可能导致对用户及其协助者的民事、刑事和/或行政处罚、罚款或制裁”。

鉴于《纽约时报》的内容已被用作当前法学硕士的主要训练数据来源,该报试图控制其数据未来的使用方式是有道理的。根据《华盛顿邮报》今年早些时候的一项调查,《纽约时报》是用于训练法学硕士的主要数据库之一的第四大内容来源。 《华盛顿邮报》分析了谷歌的 C4 数据集,这是 Common Crawl 的修改版本,其中包括从 1500 多万个网站抓取的内容。只有 Google Patents、维基百科和 Scribd(一个电子书库)为该数据库贡献了更多内容。

尽管《纽约时报》在训练数据方面占据主导地位,但本周, Semafor报道称,《纽约时报》 “决定不加入”包括《华尔街日报》在内的媒体公司集团,该集团试图与科技公司联合谈判 AI 政策。看来,该报打算像美联社 (AP) 一样做出自己的安排。美联社上个月与 OpenAI 达成了一项为期两年的协议,该协议将允许 ChatGPT 制造商使用美联社早在 1985 年的一些档案来训练未来的 AI 模型。

尽管 OpenAI 和谷歌等人工智能制造商因使用受版权保护的材料来训练其当前的法学硕士而面临多起诉讼,但问题已经真正爆发了。训练数据现在已经被使用,而且由于模型本身由多层复杂算法组成,因此无法轻易从 ChatGPT、Bard 和其他可用的法学硕士中删除或忽略。相反,现在的争斗是关于未来模型的训练数据的访问权——而且在许多情况下,争斗的焦点是谁能得到补偿。

[相关:Zoom 可能会使用你的“内容”来训练其人工智能]

今年早些时候,Reddit 也是 AI 模型训练数据的大量且不知情的贡献者,它关闭了第三方应用对其 API 的免费访问,试图向 AI 公司收取未来的访问费用。此举引发了整个网站的抗议。埃隆·马斯克 (Elon Musk) 也切断了 OpenAI 对 Twitter (对不起,X) 的访问,原因是担心他们没有支付足够的费用来使用其数据。在这两种情况下,问题都在于 AI 制造商可以从社交网络的内容中获利(尽管它实际上是用户生成的内容)。

鉴于所有这些,值得注意的是,上周 OpenAI 悄然发布了有关如何阻止其网络抓取 GPTBot 的详细信息,方法是在 robots.txt 文件中添加一行代码——这是大多数网站为搜索引擎和其他网络爬虫提供的一组指令。虽然《纽约时报》已经屏蔽了 Common Crawl 网络抓取机器人,但它还没有在其 robots.txt 文件中屏蔽 GPTBot。无论你怎么看,世界仍然因过去 18 个月强大 AI 模型的突然爆发而震惊。关于如何使用数据来训练它们,未来还有很多法律纠纷要发生——在法律和政策出台之前,情况将非常不确定。

<<:  科学家利用脑部扫描数据制作了 Pink Floyd 歌曲的翻唱版本

>>:  如何通过 5 个简单步骤取消 Amazon Prime

推荐阅读

保持社交距离是有效的——只要问问龙虾、蚂蚁和吸血蝙蝠就知道了

达娜·霍利 (Dana Hawley) 是弗吉尼亚理工大学的生物科学教授。朱莉娅·巴克 (Julia...

压力正在扭曲这些鱼的大脑

压力对动物大脑有害并非什么秘密,而社会压力本身也会导致氧化应激的积累。自由基和抗氧化剂的失衡会损害细...

澳大利亚想要一种威力足以阻止坦克的激光武器

4 月 4 日,澳大利亚国防部宣布向国防巨头 QinetiQ 拨款 1290 万美元,用于研制激光武...

为什么火烈鸟牛奶是粉红色的

本周你学到的最奇怪的事情是什么?好吧,不管是什么,我们保证如果你听PopSci的热门播客,你会得到一...

中国新型神秘导弹及发射器

2015年8月中旬,目光敏锐的中国司机发现了一辆新型中国军车,这可能预示着其将配备新型导弹发射装置...

《狐狸小杰》的感人故事和教训:这部经典动画的深刻魅力究竟是什么?

《狐狸小杰》:改编自新见南吉的经典童话的动人故事《狐狸小杰》是改编自新见南吉的古典童话的动画电影,...

《世界暗黑百科全书》评论:描绘深渊恐怖与美学的名作动画

《世界黑暗百科全书》:描绘黑暗世界的短篇动画的魅力概述《世界的黑暗百科全书》是一部短篇动画系列,于 ...

这位科学家认为他找到了所有性能量的来源

本周你学到的最奇怪的事情是什么?好吧,不管是什么,我们保证如果你听PopSci的热门播客,你会得到一...

加密货币骗子正在挖掘约会网站上的受害者

如果你觉得网上的新恋情好得令人难以置信,那么联邦调查局警告你,你可能是对的。该机构上周发布了一项公共...

仅供参考:挠痒痒的进化目的是什么?

你可能知道你不能挠自己。虽然你可以挠陌生人的痒痒,但你的大脑也会强烈阻止你做出如此不合时宜的行为。马...

如何在不牺牲自己喜欢的食物的情况下实现可持续饮食

PopSci 将在 9 月份重新学习如何进食。尽管我们天生喜欢大吃大喝,但我们距离最佳饮食还存在很多...

回顾《船在歌唱》:一场由大家的歌声编织在一起的情感之旅

《船唱大家的歌》的感染力与评价《船唱着大家的歌》是1997年10月在NHK教育电视台(现NHK E-...

麻将大乱斗:策略与刺激的终极对决全面解析

麻将大战 - 麻将大战概述《Mahjong Battle Scramble》是 1990 年 12 ...

超级计算机创建 HIV 病毒外壳的原子模型

人类免疫缺陷病毒的衣壳既是盾牌,也是敞开的后门。衣壳位于每个 HIV 粒子的中心,保护病毒的遗传物质...

Sowasowa日历:大家的歌的魅力和评论

“Sowasowa日历”~大家的歌的魅力和背景《Sowasowa日历》是一部两分钟的短篇动画作品,于...