Shutterstock 训练计算机帮你找到完美的照片

Shutterstock 训练计算机帮你找到完美的照片

我在想象一辆自行车停在栅栏旁边。这是欧洲某座城市,街道狭窄,铺着鹅卵石,栅栏前面是一栋古老的砖砌建筑。自行车闪闪发亮,呈蓝色,还带着一个篮子,有点老式。你看不到天空,但可以看出这是一个阳光明媚的日子。

我不可能在互联网上找到类似这样的场景的图片。当然,我可以输入诸如“欧洲围栏旁的蓝色自行车”之类的关键词,如果我幸运的话,它会显示一些与之相关的结果。如果我碰巧已经有这样的图片,我找到的机会会稍微大一些——这样,我就可以进行反向图像搜索,并且可以爬取不仅限于英语的网站。但结果往往看起来很奇怪,感觉不对劲,或者缺少我脑海中场景的关键组成部分。

计算机仍然无法读懂我们的想法。但图片库网站 Shutterstock 已经创造了一种全新的图片分类方式。该公司的新工具今天在其网站上发布,是计算机视觉这一新兴但发展迅速的领域的众多创新之一。Shutterstock 希望它可以将你头脑中图像与屏幕上图像进行匹配的烦人过程变成一件真正有趣的事情。

一张图片胜过千言万语

在网上很难找到合适的图片,因为大多数搜索引擎都依赖关键词。例如,如果用户将自行车图片上传到 Shutterstock 网站,她会提供所有关键词。如果她上传了一批相似的图片,其中一些关键词可能与每张图片都不相关。

Shutterstock 搜索和发现工程副总裁 Kevin Lester 是新计算机视觉工具的工程师之一,他表示:“所有这些关键词组合在一起可能会显得很奇怪——这是将媒体视为词袋时固有的问题之一。”

因此,许多图像数据库利用用户行为来填补这些空白。如果搜索“自行车”和“栅栏”的人更频繁地下载特定图像,那么该图像可能包含这两个词。莱斯特说,这是一个简单的概念,但它仍然不完善。

计算机视觉可以改变这一切,因为它首先消除了对关键词的需求。使用一系列算法,模型可以逐步调查图像中的每个像素,以找出其中的不同特征——颜色、形状、角度的锐度。每个计算都是深度学习网络的一层。在这个过程结束时,程序会生成一个数字,即一个向量。如果模型很好,数字越相似,它们量化的图像就越相似。模型会训练自己识别这些特征,因此输入的图像越多,模型就越好。

作为一个领域,计算机视觉实际上自 2012 年才开始出现,当时多伦多大学的三位研究人员发表了一篇论文,该论文被认为是该学科的分水岭时刻。

然而,在短短四年的时间里,计算机视觉已成为许多科技公司的关键。Facebook 的模型可以识别图片中的人脸,准确率超过 97%;谷歌的模型可以解决那些 CAPTCHA 难题(旨在剔除机器人来验证用户是否是人类),准确率高达 99%。

计算机视觉模型可用于多种不同的应用,但通常针对特定任务进行训练。Shutterstock 使用它来检测视觉上相似的图像并进行反向图像搜索。

像电脑一样观看

人们在 Shutterstock 网站上发现图片的主要方式之一是这种称为“视觉相似”的类别。当您单击某张图片时,它们就会出现在底部。就像这样:

如果系统依赖关键词,它返回的图像有时相关,有时不相关。它不一致且不稳定。对于 Shutterstock 的第一个计算机视觉模型,工程师使用了 2012 年论文中首次概述的示意图,并对该网站的 7000 万张库存图像进行了训练。即便如此,它也不是很好。

“我认为没有人会认为它们极为相似,除了色调似乎有些一致,”莱斯特说。

工程师们对模型进行了调整,然后花了数周时间对数据进行重新训练,以了解图像的特定特征。结果模型变得更好了:

经过了几次迭代,但该工具的最终版本的结果如下:

通过内部测试,Shutterstock 表示,他们新的视觉相似度工具比过去依赖关键词的工具要好得多。现在,每当有人点击他们网站上的图片时(这种情况经常发生——该公司每秒售出 4.7 张图片),算法就会搜索 7000 万张照片,以提供它认为最相似的照片。该网站还在其 400 万部电影剪辑中使用该工具,这是该公司业务的一个增长领域。

重要的是,它仅用 200 毫秒就完成了搜索,这比该公司的旧型号所用时间少了一半。虽然 200 毫秒的差别听起来可能不多,但 Lester 表示,这对没有耐心的客户来说意义重大。“当我们加快速度时,我们发现人们搜索得更多,因为我们所做的就是降低他们搜索的成本,这意味着他们会更多地浏览我们的网站。这反过来意味着他们更有可能注册成为客户,”他说。

对于 Shutterstock 的计算机视觉工具来说,某些类型的图像比其他类型的图像更具挑战性。莱斯特说,在抽象图像上训练系统需要更长的时间,有时它可以将水印解读为图像的重要部分。

“系统的智能程度取决于你训练它的内容,”莱斯特说。“如果有些东西超出了它的能力范围,它的表现就不会那么好,因为它会把它强行塞进它能理解的东西中。”但是,随着贡献者添加更多图像,数据库会不断变化,因此该公司的良好模型只会变得更好。

卡内基梅隆大学计算机视觉教授西蒙·卢西在使用 Shutterstock 网站时对结果印象深刻。“他们所做的事情代表了目前计算机视觉领域正在发生的事情:深度学习取得了巨大进步,”他说。“对于许多任务,这些模型都达到了与人类类似的表现。”

卢西说,让计算机理解图像而不仅仅是捕捉图像,一直是计算机科学的终极目标,而硬件和软件的改进已将技术带到了这一目标。他补充说,Shutterstock 的工具正乘着这股进步的浪潮。

不存在该限制

随着 Shutterstock 等模型的改进,工程师们遇到了语义或哲学问题。莱斯特说,在某个时候,人们对图像的定义会有所不同——那时他就知道他的团队可以停止改进模型了。然后不可避免地会冒犯某人,比如去年谷歌的工具将一名女性标记为大猩猩。

Lester 表示:“当计算机错误地认为这张图片就是这个东西,并且认为这是一种糟糕的、可能具有冒犯性的关系时,计算机视觉就会开始陷入麻烦之中。”为了避免像 Google 遇到的那样的问题,Shutterstock 的团队识别了可能存在问题的区别,并在这些图片上重新训练了模型。如果模型在这些方面足够聪明,Lester 表示,它就不会再产生这些令人反感的联想。

最终,像 Shutterstock 这样的网站可以利用计算机视觉来支持新类型的搜索,或者与图像交互的新方式。有一天,您可以通过将框拖到照片的该部分来搜索您看到的名人穿的鞋子 - 您不需要描述鞋子,甚至不需要知道穿着者的名字。

莱斯特说:“当你开始将你的发现体验更多地基于像素时,你可以以迄今为止业界尚未见过的方式影响你的搜索。”

总体而言,计算机视觉的应用似乎是无限的。当与机器人技术和人工智能等其他类型的技术相结合时,计算机视觉可以帮助自动驾驶汽车看到行人,或使机器人能够正确抓取物体,或帮助盲人看清事物。

尽管 Lucey 预计我们将会遇到更多问题(例如隐私问题、随着行业转型导致人们失业等),但他相信计算机视觉是一种可以让世界变得更美好的力量。

“我认为,就像视频压缩一样,计算机视觉最终将变得不引人注意。我们会认为这是理所当然的。它只是会起作用,”他说。“我认为这是好技术的标志,技术本身不再引人注意。”

随着 Shutterstock 今天推出新工具,我们距离这一目标又近了一步。Lester 和他的同事们很高兴看到客户会如何使用它。“将它投入市场最令人兴奋的事情是看看人们想要什么以及他们如何使用它,”Shutterstock 搜索和发现产品总监 Lawrence Lazare 说。“有时人们不会像你想象的那样使用它。”

<<:  谷歌人工智能围棋锦标赛前夕的 5 种致敬人类的方式

>>:  《创意控制》导演谈我们的增强现实

推荐阅读

忍者乱太郎第27季的魅力与评价:新的冒险与成长的故事

忍者乱太郎第27季-战国时代的欢笑与成长的故事忍者乱太郎是一部以日本战国时代为背景的动画,至今已播出...

这只棘龙的脑子里到底在想什么?

大约 1.25 亿年前,当时的世界气候更温暖、更潮湿,海平面也更高,棘龙是兽脚类恐龙的一种。这些不同...

新可爱宝贝第二季:进化魅力与动作评价

新可爱蜜 [第 2 季] - 新可爱蜜 - 综合评论与推荐■ 公共媒体卵子■ 原创媒体漫画■ 发布日...

“科学人”谈论他的太空航行

1976 年,著名天体物理学家卡尔·萨根 (Carl Sagan) 带了一个奇怪的反光道具参加《约翰...

纽约市正在用巨型吸尘器解决垃圾火灾问题

纽约市的交通问题正在逐渐消失。至少,大都会交通管理局希望如此。该市目前正在测试两台便携式吸尘器原型,...

努力工作者的号召与赞赏:探索动漫的深层世界

《旗物》的魅力与评价1928年上映的动画电影《羽田志保》凭借其历史价值和独特的艺术性,至今仍然受到众...

这就是为什么你最近收到如此多的隐私政策和服务条款更新

目前,您使用的许多大型网站、服务和应用程序都在急于制定新的隐私政策和服务条款。您可能已经注意到手机和...

一种几乎不睡觉的鱼可能会让人类变成通宵派对动物

盲眼墨西哥洞穴鱼的某些特征会让你羡慕不已:为了生存和成长,它们每晚需要睡两个小时,不多不少。想象一下...

使用这 11 个功能和附加组件改变你的 Twitter 时间线

本文已更新。最初于 2017 年 7 月 29 日发布。自 2006 年以来,Twitter 一直在...

彻底解析尖刺斯皮卡的魅力与情感!评价《大家的歌》中的最佳歌曲

刺之史碧卡——大家的歌的新魅力《Togemeku Spica》是一部短篇动画电影,于 2019 年 ...

看看这幅标志性画作的 100 亿像素 3D 全景图

https://www.youtube.com/watch?v=cKaZYTwmjwU绘画是有纹理...

几个世纪以来植物狩猎是如何演变的

文艺复兴时期的探险家遇到的众多奇迹中,最主要的是欧洲从未见过的新奇植物。西班牙地理学家马丁·费尔南德...

Go Go 五胞胎乐园:全面回顾迷人的角色和故事的深度

Go Go 五胞胎乐园 - 家庭纽带和欢笑■作品概要《Go Go五胞胎乐园》是一部电视动画,于 20...

这些是飞利浦 Hue Prime Day 的最后一分钟最佳优惠

弄清楚如何开始打造智能家居可能很困难,但我们一直建议从飞利浦 Hue 的照明设备开始。无论您住在公寓...

这款双摄像头无人机非常适合初学者和儿童,可节省 50 美元

无人机行业发展迅速,提供价格高昂且技术复杂的设备。如果您希望以实惠的价格获得简单的东西,请考虑利用多...