Facebook 使用数十亿张带有标签的 Instagram 照片来训练其人工智能

Facebook 使用数十亿张带有标签的 Instagram 照片来训练其人工智能

以 Instagram 标签为例。当有人将照片上传到 Facebook 旗下的平台时,他们可以添加标签。标签可以是 #love、#fashion 或 #photooftheday——这些是去年排名前三的标签。虽然这些标签说明了抽象概念,但还有很多更具体的描述符,例如 #brownbear,不出所料,里面全是熊的图片。

虽然标签可以让人们在一个地方看到数百万张#travel 照片,但 Facebook 却使用这些带标签的照片来做其他事情:训练他们的图像识别软件,这是一种称为计算机视觉的人工智能,你可以教计算机识别图像中的内容。

事实上,他们使用了大约 35 亿张 Instagram 照片(来自公共账户)和 17,000 个标签来训练计算机视觉系统,他们声称这是迄今为止最好的系统。

Facebook 首席技术官 Mike Schroepfer 今天在该公司的开发者大会 F8 上宣布了这项研究,并称其结果是“最先进的”。

监管不力

要理解为什么这是一种有趣的方法,了解人工智能系统的“完全监督”和“弱监督”训练之间的区别会有所帮助。计算机视觉系统需要被教导识别物体。例如,向它们展示标记为“熊”的图像,它们就可以学会在新照片中识别它认为是熊的图像。当研究人员使用人类注释的照片,以便人工智能系统可以从中学习时,这被称为“完全监督”。图像被清楚地标记,以便软件可以从中学习。

“这种方法确实很有效,”Facebook 应用机器学习小组的计算机视觉负责人马诺哈尔·帕鲁里 (Manohar Paluri) 表示,该小组与社交网络的另一个部门 Facebook AI Research 一起开展了这项研究。这种方法的唯一问题是,首先需要对图像进行标记,而这需要人工来完成。

Paluri 补充道:“获取数十亿张 [带标签的图像] 开始变得不可行。”而在人工智能领域,系统能够学习的数据越多,通常系统就越好。多样化的数据也很重要——如果你想教会人工智能系统识别婚礼是什么样子,你不会只给它看北美婚礼的照片,而是要给它看世界各地的婚礼照片。

进入“弱监督”学习,其中数据没有被人们仔细标记,目的是教人工智能。这就是数十亿张 Instagram 照片发挥作用的地方。这些标签成为众包标记工作的一种方式。例如,标签 #brownbear 与类似的标签 #ursusarctos 相结合,成为熊图像的标签。Instagram 用户成为标记者。

但这种数据既杂乱又不完美,因此很嘈杂。例如,Paluri 指出,在 Instagram 上拍下埃菲尔铁塔附近的照片的人可能仍会给照片贴上这个标签,但铁塔本身是看不见的。这个标签在人类的语境中仍然有意义,但对思维简单的计算机来说却没有多大用处。在另一个场景中,生日派对场景中有蛋糕,可能不会被贴上 #cake 标签,如果你想训练计算机知道甜点是什么样子,这也没什么用。

这是 Facebook 图像识别系统过去可以进行的图像分类类型的一个例子。Facebook
新系统更加精确:它不仅可以识别出一只鸟,还可以识别出一只东部草地鹨。Facebook

无论如何它都有效

但最终结果是,尽管原始数据中存在噪音,但 Paluri 表示,最终效果非常好。根据一项基准测试,该系统(经过数十亿张 Insta 照片的训练)的平均准确率约为 85%。Paluri 表示,这是 Facebook 迄今为止打造的最强大的计算机视觉系统。

如果你使用 Facebook,你就会知道它可以识别你上传的照片中的面孔,并建议用(希望是)正确的名字标记它们。这是计算机视觉的一个例子——在这种情况下,就是人脸识别。但在幕后,Facebook 使用计算机视觉来识别除了面孔之外的其他东西,比如平台上不允许的视觉内容(如色情内容)。

Paluri 表示,这项经过 Instagram 训练的新技术已用于帮助他们标记不应出现在网站上的照片中的令人反感的内容。在识别“令人反感的内容”方面,他表示,他们已经注意到“准确率显著提高”。

<<:  千禧一代并不关心拥有汽车,因此制造商提供订阅服务

>>:  无人机可以带科学家去陌生的地方——比如鲸鱼鼻涕内部

推荐阅读

风魔一族的小次郎:最终章 风魔叛乱 动人高潮与深刻主题的透彻解析

风魔一族小次郎:最终章 风魔之乱■ 公共媒体卵子■ 原创媒体漫画■ 发布日期1992 年 11 月 ...

量子处理器计算出 15 = 3x5(准确率几乎达到 50%!)

功能齐全的固态量子计算机首次完成了一道相当简单的数学题,将一个素数分解成其组成部分。答案本身并不是什...

生物能否进化出进化的能力?

事物能进化而来吗?好吧,这听起来像是一本自助书中的俗套话,但我在这里谈论的是真正的生物进化。根据情况...

《妖精兰丸》评论:治愈心灵的魔幻故事

《妖精兰丸~我的心来帮助~》综合评论与推荐概述《妖精兰丸~我会帮助你的心~》是一部电视动画,于 20...

《辉夜大小姐:爱情就是战争-超浪漫-》的魅力与评价:享受极致的爱情大战

《辉夜姬国语版-Ultra Romantic-》的魅力与评价《辉夜大小姐:爱情就是战争-超浪漫-》是...

什么是调整?什么时候需要调整?

这个故事最初刊登在《汽车圣经》上。发动机调校现在不像以前那么常见了,但并没有随着时间而消失。虽然如今...

世界上速度最快的鲨鱼无法与一袋松弛的盲鳗皮相抗衡

什么东西像一只松垮、滑溜但又出奇坚韧的旧袜子?你猜对了:盲鳗皮。这些类似鳗鱼的海怪可以说是现存最恶心...

仅供参考:哪种情感最难伪装?

我们都曾假装过。无论是当某位特别古怪的阿姨连续五年送你圣诞毛衣时,你兴奋地做出反应,还是当你不太喜欢...

增压发动机的科学及其独特的呜呜声

汽车,尤其是快车,代表着一种触动所有感官的体验,除了味觉(因为咬金属是不明智的)。每辆车都有一种声音...

如何阻止网站跟踪你

从将笔记本电脑或手机连接到互联网的那一刻起,你就必须接受有人在跟踪你的事实。如果这让你感到不安,你应...

具有革命性潜力的太阳能收集器刚刚离开地球

经过十多年的研究,包括两年的折纸组件测试,一颗用于收集太阳能的小型原型卫星于昨天上午在佛罗里达州卡纳...

中国自主坦克:自行开往你附近的战场?

本周,美国海军宣布将推出一种用于保护其舰队的新型自主机器人船,这一消息引起新闻界关注,但中国却表明,...

《宇宙战士》评论:一部拥有史诗般太空战斗和深刻故事的杰作动漫

《宇宙战士》:未来战场与青春轨迹■作品概要《宇宙战士》于 1988 年以 OVA 形式发行,改编自罗...

免费打字应用程序可帮助您的手指移动得更快

我们花了大量时间敲击键盘,因此,提高打字速度可以使你在几乎任何工作中更有效率——无论是浏览收件箱、撰...

如何将旧蜡屑变成全新的蜡烛

我们可能会从本页提供的产品中赚取收益并参与联盟计划。了解更多 ›无论您是想营造浪漫氛围还是想诅咒您的...