经过人工智能训练的人工智能会产生大量乱码垃圾

经过人工智能训练的人工智能会产生大量乱码垃圾

众所周知,OpenAI 和 Google 提供的大型语言模型需要大量的训练数据才能发挥作用。这些模型的最新版本已经覆盖了现有互联网的大部分内容,这导致一些人担心可能没有足够的新数据来训练未来的迭代。一些业内知名人士,如 Meta 首席执行官马克·扎克伯格 (Mark Zuckerberg) 提出了解决这一数据困境的方案:只需在旧的 AI 输出上训练新的 AI 系统即可。

但新的研究表明,蚕食过去的模型输出将很快导致人工智能产生一连串胡言乱语,并最终导致所谓的“模型崩溃”。在一个例子中,研究人员向人工智能输入了一段关于教堂建筑的无害段落,但这段文字在几代人之后迅速退化。最后,最“先进”的模型只是不断重复短语“黑尾长耳兔”。

本周《自然》杂志发表的一项研究对人工智能训练人工智能的场景进行了测试。研究人员制作了自己的语言模型,最初将原始的、人类生成的文本作为输入。然后,他们又制作了九代模型,每代模型都使用前一代模型生成的文本输出进行训练。最后一代的最终结果是毫无意义的、听起来超现实主义的胡言乱语,与原文毫无关系。随着时间的推移和一代又一代的迭代,研究人员表示,他们的模型“被自己对现实的投射所毒害”。

人工智能模型在自我训练越多就越容易忘记含义

研究人员将这种人工智能似乎自我崩溃的奇怪案例称为“模型崩溃”,这是一种退化过程,可以以早期和晚期的形式出现。在早期,当距离原始训练数据几代的人工智能模型似乎忘记了原始文本中的异常值或罕见内容时,崩溃就开始发生。这会导致最有可能的输出变得越来越普遍。这在现实世界中会成为一个问题,因为它可能导致少数派观点或表达的减少。表现出早期崩溃迹象的法学硕士可能会呈现一种缺乏多样性、千篇一律的现实版本。

在崩溃的后期,事情变得更加奇怪。在最后几代中,用模型训练的模型与原始训练数据相差甚远,以至于它们开始忘记初始训练的关键方面并完全失去情节。正是在这个阶段,模型开始产生完全毫无意义的胡言乱语。当这种情况发生时,研究人员表示,模型对自己先前输出的“不加区分”的自我蚕食“会导致最终模型出现不可逆转的缺陷”。

研究人员声称,对于使用自身数据训练的大型模型来说,这种连锁效应和最终的模型崩溃是不可避免的。值得注意的是,这项研究专门关注语言模型,并没有考虑如果多模态模型(如图像和视频生成器)使用自身数据进行训练会发生什么。这项研究还关注使用自身数据进行训练的模型会发生什么。目前还不清楚如果一个模型(比如 Meta 的模型)使用 OpenAI 生成的输出进行训练会发生什么。

保存原始人类文本可以避免崩溃

现实世界模型崩溃的前景并非不可想象。目前,无数网站都在运营,其中的文章和博客文章完全由法学硕士生成。在尽快构建新模型的竞赛中,许多由人工智能生成的垃圾最终可能会渗入训练集,这并非不可想象。

解决无意中将 AI 生成的内容纳入训练集的问题的一个可能方法是鼓励跨平台制定水印标准,明确标记内容的真实性以及内容是否由机器生成。Google、Adobe 和大型科技公司正试图通过一种特殊的“内容凭证”徽章来实现这一点,他们正试图将其作为内容来源和真实性联盟 (C2PA) 的一部分进行标准化。

但这只适用于图像。使用现有的检测软件,人工智能生成的文本也更难加水印,甚至更难准确识别。更现实的方法可能要求人工智能开发人员严格审查材料,以查找人工智能操纵的迹象,并可能向信誉良好的人力来源付费,以获得使用其高质量数据进行训练的机会。如果没有这些人类训练数据的保​​障,互联网就有被人工智能浪潮淹没的风险。没有人希望这样。

<<:  巴黎奥运会的紫色跑道由碎贻贝和蛤壳制成

>>:  奥运泳装的演变:从羊毛“服装”到弹力比赛服

推荐阅读

彻底解析宫泽贤治的代表作《风之又三郎》!详细介绍景点及点评

宫泽贤治作品集 风又三郎 - 宫泽贤治作品集 风又三郎■ 公共媒体卵子■ 原创媒体小说■ 发布日期1...

全面回顾《完美的一天》!这部动漫真的能描绘出完美的一天吗?

“完美的一天”——描绘终极一天的动人 OVA 《完美的一天》是2011年3月16日发行的OVA,收...

使用此完整认证培训套餐在 2024 年提升您的 CompTIA 技能,现价 65 美元

正在考虑在 IT 行业发展事业?使用 IDUNOVA 的完整 2024 CompTIA 认证培训超级...

最好的厨房工具可以大大提高你的烹饪水平

不要再让你的鳄梨变质了。不要再把切碎的食材送到炉灶上弄得一团糟了。不要再在切洋葱时切到指关节了。不要...

5 个关于人工智能艺术接管的令人惊讶的数据

手工艺术可以成为世界的迷人表达,无论是陈列在熊熊燃烧的壁炉上方,挂在别致的画廊内,还是在博物馆中供数...

《绿拇指奇斯特》评论:这个华丽的故事有何魅力?

“绿拇指奇斯特”:法国童话的动人动画版《绿拇指》于 1990 年上映,是一部改编自法国作家莫里斯·...

美国宇航局希望你在四月日食期间记录蟋蟀

美国科学家威廉·惠勒不仅在日全食期间仰望天空,他还确保关注周围的一切。1932 年 8 月 31 日...

意想不到的来源纺出比凯夫拉纤维更坚韧的蜘蛛丝

研究人员已经成功诱导普通蚕吐出更耐用、更环保的蜘蛛丝——这只需要进行一些基因改造和数十万次蚕卵微注射...

当你的设备需要维修时,可以从这里开始

小工具在我们的生活中如此重要,以至于当它们坏掉时,我们会尽一切努力让它们恢复正常。这包括知道什么时候...

新的证据表明,狗可能在脑海中“描绘”物体,就像人类一样

当狗服从命令或捡球时,很难知道它的脑袋里到底在想什么。狗能理解并回应语调、单词的音节、伴随的手势和肢...

戴口罩时防止眼镜起雾的 5 种方法

本文已更新。最初于 2020 年 11 月 18 日发表。毫无疑问,眼镜很神奇。它们是简单的工程学设...

《来自新世界》的魅力与深度:彻底解析终极反乌托邦动画

《来自新世界》全面点评与推荐概述《来自新世界》是改编自岸雄介同名小说的电视动画,于2012年10月3...

忍者乱太郎第三季:新的冒险与成长之路

《忍者乱太郎》第三季的诉求与评价《忍者乱太郎》是根据宗兵卫天子原著漫画改编的电视动画,本次详细介绍其...

回顾《我的老歌都是彩色的》:享受丰富多彩的音乐体验

《我的老歌五彩缤纷》——一部描绘 80 年代青春与音乐光辉的 OVA 1987 年 12 月 10 ...

《灰色迷宫》评论:引人入胜的故事和深刻的人物探索

灰色迷宫:深渊之旅及其魅力《灰色迷宫》是一部改编自 Frontwing 开发的 R-18 游戏的电视...