Meta 刚刚发布了一款可帮助计算机“看到”图像中物体的工具

Meta 刚刚发布了一款可帮助计算机“看到”图像中物体的工具

在本周的一篇博客文章中,Meta AI 宣布发布一款新的 AI 工具,该工具可以识别图像中的哪些像素属于哪个对象。Segment Anything 模型 (SAM) 执行一项称为“分割”的任务,这是计算机视觉的基础,即计算机和机器人用来“查看”和理解周围世界的过程。除了新的 AI 模型外,Meta 还向外部研究人员开放了其训练数据集。

史蒂芬·平克 (Steven Pinker) 在 1994 年出版的《语言本能》一书中写道:“35 年的人工智能研究的主要教训是,难题很容易解决,容易的问题很难解决。”这个被称为莫拉维克悖论的悖论在 30 多年后仍然成立。像 GPT-4 这样的大型语言模型能够在几秒钟内生成读起来像人类写的文本,而机器人很难捡起形状奇特的积木——这项任务看似很简单,孩子们在一岁之前就为了好玩而做。

分割属于这种看似简单但技术上很难的类别。你可以看看你的桌子,立刻分辨出什么是电脑,什么是智能手机,什么是一堆纸,什么是揉成一团的纸巾。但对于处理 2D 图像的计算机来说(因为即使视频也只是一系列 2D 图像),一切都只是一堆具有不同值的像素。桌面在哪里结束,纸巾在哪里开始?

Meta 的新 SAM AI 试图以通用方式解决此问题,而不是使用专门设计用于识别某样事物(如面部或枪支)的模型。研究人员表示,“SAM 已经学会了什么是物体的一般概念,它可以为任何图像或视频中的任何物体生成蒙版,甚至包括训练期间未遇到的物体和图像类型。”换句话说,它不仅可以识别已学会识别的物体,还可以猜测不同的物体是什么。SAM 不需要展示数百张不同的揉皱纸巾来区分一张纸巾和你的办公桌,它对事物的一般感知就足够了。

[相关:Facebook 作为 Meta 的首批举措之一:教机器人触摸和感受]

您现在就可以在浏览器中使用自己的图像尝试 SAM。SAM 可以为您选中的任何对象生成蒙版,方法是用鼠标光标单击该对象或在它周围画一个框。它还可以为图像中检测到的每个对象创建蒙版。据研究人员称,SAM 还可以接受文本提示,例如:选择“猫”,但该功能尚未向公众发布。它在分割我们在PopSci上测试的图像方面做得相当不错。

Segment Anything 工具工作原理的可视化。Meta AI

虽然在网上很容易找到大量图像和视频,但高质量的分割数据却小众得多。为了让 SAM 达到这一点,Meta 必须开发一个新的训练数据库:Segment Anything 1-Billion 掩码数据集 (SA-1B)。它包含大约 1100 万张授权图像和超过 11 亿个分割掩码,“质量高、多样性强,在某些情况下甚至可与之前小得多、完全手动注释的数据集中的掩码相媲美”。为了“使分割民主化”,Meta 正在将其发布给其他研究人员。

新 AI 工具的一些行业应用。Meta AI

Meta 对其分割程序有着宏伟的计划。可靠的通用计算机视觉仍然是人工智能和机器人技术中尚未解决的问题——但它具有很大的潜力。Meta 表示,SAM 有朝一日可以识别通过增强现实 (AR) 眼镜看到的日常物品。该公司的另一个名为 Ego4D 的项目也计划通过不同的视角解决类似的问题。这两个项目有朝一日都可能成为一种工具,让用户可以按照说明和分步食谱进行操作,或者在狗碗上为伴侣留下虚拟便条。

更合理的解释是,SAM 在工业和研究领域也有很多潜在用途。Meta 建议用它来帮助农民统计奶牛数量,或者帮助生物学家在显微镜下追踪细胞——可能性无穷无尽。

<<:  “TikTok禁令”是TikTok之外的法律噩梦

>>:  量子计算机目前还不能传送物体

推荐阅读

其实,转赠礼物是件好事

我家前门附近的壁橱里有一个盒子。里面还有很多其他东西,但最上面的架子上有一个盒子。这就是我永远不会空...

一辆装备精良的激光卡车正在帮助科学家了解城市热岛

一辆装有布鲁克海文国家实验室传感器和激光器的卡车正在城市中穿梭,希望收集有关人造城市环境如何受到全球...

可大幅改善手机游戏体验的设置和配件

本文已更新。最初于 2019 年 2 月 28 日发布。如果您是火车通勤者或专注于多任务处理的人,您...

距地球 4.5 亿光年的行星形成盘周围诞生了新生恒星

詹姆斯·韦伯太空望远镜 (JWST) 2025 年 2 月的月度照片展示了行星形成的力量。该太空望远...

《All You Need is XX》的魅力与评价:彻底解说极致放松的动画

“只要有○○,那就够了。” 《只要有○○,那就够了》是根据平坂裕斗的轻小说改编的动画。该剧于2017...

档案馆:睡眠科学

我们每天有三分之一的时间都在睡觉,而其余大部分时间都在谈论这件事。我们睡得好,睡得不好,我们熬夜太晚...

澳大利亚发现仙女圈有助于科学家查明其神秘起源

仙女圈——干旱草原上那些看似随意出现的毫无生机的泥土块——一直是科学家和当地人的谜团。过去,关于仙女...

5.8 亿美元的黑胶唱片灾难摧毁了一个帝国

1954 年,RCA 推出首台消费级彩色电视,彻底改变了家庭娱乐。虽然彩色电视又花了十年时间才广泛普...

火星宜居时间可能比我们想象的要长

在远古时期,盖尔陨坑曾是一片大湖,湖水清澈碧蓝,波光粼粼。如今,它成了火星红色表面上一个 90 英里...

狮子能靠素食汉堡生存吗?

一般来说,人造肉受到的抱怨多于称赞。蔬菜缺乏肉类中的完整蛋白质,而且往往无法替代肉类的肌肉、肌腱、血...

Mekakucity Actors 的魅力与深度:全面回顾与建议点

Mekakucity Actors - 深渊的故事和角色的魅力《目隐都市的演绎者》是 2014 年播...

评价《东之伊甸:剧场版 I 伊甸之王》:一部融合悬疑与惊悚的杰作动画

《东之伊甸》剧场版 I 伊甸之王——充满神秘与希望的旅程■ 公共媒体剧院■ 原创媒体动漫原创■ 发布...

数千年前,航海者在没有指南针的情况下到达了夏威夷。下面是航海者到达夏威夷的历程。

对于 62 英尺长的深海独木舟Hōkūle ʻa来说,一天中最重要的时刻就是日出和日落。此时,领航员...

Arcana Famiglia:魅力人物和深度故事的评论和推荐

Arcana Famiglia - 一个迷人的奇幻世界2012年播出的电视动画《Arcana Fam...

新的研究询问你最喜欢的狗狗是如何诞生的

狗:我们爱它们。非常爱它们。事实上,人类与狗狗相处至少已有 15,000 年左右,甚至可能更久。在这...