我在想象一辆自行车停在栅栏旁边。这是欧洲某座城市,街道狭窄,铺着鹅卵石,栅栏前面是一栋古老的砖砌建筑。自行车闪闪发亮,呈蓝色,还带着一个篮子,有点老式。你看不到天空,但可以看出这是一个阳光明媚的日子。 我不可能在互联网上找到类似这样的场景的图片。当然,我可以输入诸如“欧洲围栏旁的蓝色自行车”之类的关键词,如果我幸运的话,它会显示一些与之相关的结果。如果我碰巧已经有这样的图片,我找到的机会会稍微大一些——这样,我就可以进行反向图像搜索,并且可以爬取不仅限于英语的网站。但结果往往看起来很奇怪,感觉不对劲,或者缺少我脑海中场景的关键组成部分。 计算机仍然无法读懂我们的想法。但图片库网站 Shutterstock 已经创造了一种全新的图片分类方式。该公司的新工具今天在其网站上发布,是计算机视觉这一新兴但发展迅速的领域的众多创新之一。Shutterstock 希望它可以将你头脑中图像与屏幕上图像进行匹配的烦人过程变成一件真正有趣的事情。 一张图片胜过千言万语在网上很难找到合适的图片,因为大多数搜索引擎都依赖关键词。例如,如果用户将自行车图片上传到 Shutterstock 网站,她会提供所有关键词。如果她上传了一批相似的图片,其中一些关键词可能与每张图片都不相关。 Shutterstock 搜索和发现工程副总裁 Kevin Lester 是新计算机视觉工具的工程师之一,他表示:“所有这些关键词组合在一起可能会显得很奇怪——这是将媒体视为词袋时固有的问题之一。” 因此,许多图像数据库利用用户行为来填补这些空白。如果搜索“自行车”和“栅栏”的人更频繁地下载特定图像,那么该图像可能包含这两个词。莱斯特说,这是一个简单的概念,但它仍然不完善。 计算机视觉可以改变这一切,因为它首先消除了对关键词的需求。使用一系列算法,模型可以逐步调查图像中的每个像素,以找出其中的不同特征——颜色、形状、角度的锐度。每个计算都是深度学习网络的一层。在这个过程结束时,程序会生成一个数字,即一个向量。如果模型很好,数字越相似,它们量化的图像就越相似。模型会训练自己识别这些特征,因此输入的图像越多,模型就越好。 作为一个领域,计算机视觉实际上自 2012 年才开始出现,当时多伦多大学的三位研究人员发表了一篇论文,该论文被认为是该学科的分水岭时刻。 然而,在短短四年的时间里,计算机视觉已成为许多科技公司的关键。Facebook 的模型可以识别图片中的人脸,准确率超过 97%;谷歌的模型可以解决那些 CAPTCHA 难题(旨在剔除机器人来验证用户是否是人类),准确率高达 99%。 计算机视觉模型可用于多种不同的应用,但通常针对特定任务进行训练。Shutterstock 使用它来检测视觉上相似的图像并进行反向图像搜索。 像电脑一样观看人们在 Shutterstock 网站上发现图片的主要方式之一是这种称为“视觉相似”的类别。当您单击某张图片时,它们就会出现在底部。就像这样: 如果系统依赖关键词,它返回的图像有时相关,有时不相关。它不一致且不稳定。对于 Shutterstock 的第一个计算机视觉模型,工程师使用了 2012 年论文中首次概述的示意图,并对该网站的 7000 万张库存图像进行了训练。即便如此,它也不是很好。 “我认为没有人会认为它们极为相似,除了色调似乎有些一致,”莱斯特说。 工程师们对模型进行了调整,然后花了数周时间对数据进行重新训练,以了解图像的特定特征。结果模型变得更好了: 经过了几次迭代,但该工具的最终版本的结果如下: 通过内部测试,Shutterstock 表示,他们新的视觉相似度工具比过去依赖关键词的工具要好得多。现在,每当有人点击他们网站上的图片时(这种情况经常发生——该公司每秒售出 4.7 张图片),算法就会搜索 7000 万张照片,以提供它认为最相似的照片。该网站还在其 400 万部电影剪辑中使用该工具,这是该公司业务的一个增长领域。 重要的是,它仅用 200 毫秒就完成了搜索,这比该公司的旧型号所用时间少了一半。虽然 200 毫秒的差别听起来可能不多,但 Lester 表示,这对没有耐心的客户来说意义重大。“当我们加快速度时,我们发现人们搜索得更多,因为我们所做的就是降低他们搜索的成本,这意味着他们会更多地浏览我们的网站。这反过来意味着他们更有可能注册成为客户,”他说。 对于 Shutterstock 的计算机视觉工具来说,某些类型的图像比其他类型的图像更具挑战性。莱斯特说,在抽象图像上训练系统需要更长的时间,有时它可以将水印解读为图像的重要部分。 “系统的智能程度取决于你训练它的内容,”莱斯特说。“如果有些东西超出了它的能力范围,它的表现就不会那么好,因为它会把它强行塞进它能理解的东西中。”但是,随着贡献者添加更多图像,数据库会不断变化,因此该公司的良好模型只会变得更好。 卡内基梅隆大学计算机视觉教授西蒙·卢西在使用 Shutterstock 网站时对结果印象深刻。“他们所做的事情代表了目前计算机视觉领域正在发生的事情:深度学习取得了巨大进步,”他说。“对于许多任务,这些模型都达到了与人类类似的表现。” 卢西说,让计算机理解图像而不仅仅是捕捉图像,一直是计算机科学的终极目标,而硬件和软件的改进已将技术带到了这一目标。他补充说,Shutterstock 的工具正乘着这股进步的浪潮。 不存在该限制随着 Shutterstock 等模型的改进,工程师们遇到了语义或哲学问题。莱斯特说,在某个时候,人们对图像的定义会有所不同——那时他就知道他的团队可以停止改进模型了。然后不可避免地会冒犯某人,比如去年谷歌的工具将一名女性标记为大猩猩。 Lester 表示:“当计算机错误地认为这张图片就是这个东西,并且认为这是一种糟糕的、可能具有冒犯性的关系时,计算机视觉就会开始陷入麻烦之中。”为了避免像 Google 遇到的那样的问题,Shutterstock 的团队识别了可能存在问题的区别,并在这些图片上重新训练了模型。如果模型在这些方面足够聪明,Lester 表示,它就不会再产生这些令人反感的联想。 最终,像 Shutterstock 这样的网站可以利用计算机视觉来支持新类型的搜索,或者与图像交互的新方式。有一天,您可以通过将框拖到照片的该部分来搜索您看到的名人穿的鞋子 - 您不需要描述鞋子,甚至不需要知道穿着者的名字。 莱斯特说:“当你开始将你的发现体验更多地基于像素时,你可以以迄今为止业界尚未见过的方式影响你的搜索。” 总体而言,计算机视觉的应用似乎是无限的。当与机器人技术和人工智能等其他类型的技术相结合时,计算机视觉可以帮助自动驾驶汽车看到行人,或使机器人能够正确抓取物体,或帮助盲人看清事物。 尽管 Lucey 预计我们将会遇到更多问题(例如隐私问题、随着行业转型导致人们失业等),但他相信计算机视觉是一种可以让世界变得更美好的力量。 “我认为,就像视频压缩一样,计算机视觉最终将变得不引人注意。我们会认为这是理所当然的。它只是会起作用,”他说。“我认为这是好技术的标志,技术本身不再引人注意。” 随着 Shutterstock 今天推出新工具,我们距离这一目标又近了一步。Lester 和他的同事们很高兴看到客户会如何使用它。“将它投入市场最令人兴奋的事情是看看人们想要什么以及他们如何使用它,”Shutterstock 搜索和发现产品总监 Lawrence Lazare 说。“有时人们不会像你想象的那样使用它。” |
《桑原情歌》:NHK经典歌曲在动画中重现1983年12月在NHK教育电视台(现NHK E-Tele)...
Google Play 商店中有数十万款 Android 游戏,因此要找到适合玩的游戏可能很棘手。通...
《怪兽世界制服》——一种描述怪兽日常生活的新型短篇动画《怪兽世界服装》是一部自2020年4月2日起在...
住在东南加布勒街 2107 号的沃伦夫妇想买一辆新车。1934 年初,这对来自堪萨斯州托皮卡的夫妇来...
这是你在自然历史教科书或博物馆中看到古代人类亲属时首先注意到的事情之一。眼睛上方有一个令人印象深刻的...
2012 年飓风桑迪带来的灾难性洪水淹没了纽约市地铁系统的部分区域,腐蚀性盐水也给未来带来了警告。现...
中国自主水下航行器(AUV)潜龙三号已深入南海,完成了近100英里、历时42小时的航行。 沈阳自动化...
时间博坎:三恶人反击概述《时间侦探:三人组的反派反击》是龙之子制作公司制作的电视动画系列,于 201...
三年多以来,美国宇航员一直搭乘俄罗斯的太空飞船前往太空。很快他们就不需要这样做了。今年,SpaceX...
没人知道美国到底有多少只狗,但数量确实不少——其中很多狗生活在人类城市里(并在那里撒尿)。事实证明,...
一只断头的松鼠死死地挂在横斑林鸮的爪子上。一只红颈鸊鷉幼鸟伸长脖子,狼吞虎咽地吃着父母亲送来的新鲜鱼...
“SOS 这就是地球”:埃里希·卡斯特纳经典作品的动人动画版1987年6月27日上映的动画电影《SO...
Tomica Kizuna Gattai Earth Granner:描绘孩子们的梦想和羁绊的动画...
新型桥梁概念将风能和太阳能融入其设计中,每年可发电 4000 万千瓦时 — — 而且看起来也相当漂亮...
这也许是你开车时唯一想看到的视觉错觉。一支大学工程师团队发明了一种可以自行调节的汽车前灯,这样即使有...