人工智能将如何为盲人翻译 Facebook 照片

人工智能将如何为盲人翻译 Facebook 照片

尽管人们很容易纠结于人工智能的潜在威胁,但更多时候,该领域承诺让人类的生活更加美好。人工智能算法旨在帮助我们与朋友联系、查找信息,甚至帮助我们穿越现实世界。

从今天开始,Facebook 将使用人工智能自动为 Facebook 上的每张照片生成文字说明,为盲人或视障人士提供急需的无障碍服务。

因为开发人员希望人工智能生成的文本极其准确,所以他们用 100 种不同类型的物体的图像对其进行了密集训练,所以目前它仅限于识别人类披萨棒球等,但随着研究的进展,字幕将变得越来越多样化和复杂。

视力受损者经常依靠屏幕阅读器来浏览互联网,屏幕阅读器会将文字口述到屏幕上。但是,屏幕阅读器的效果取决于它们能够阅读的内容。如果缺少文字,它们就无法阅读。网络标准规定,图像应该有一个称为替代文本的字段,用文字描述图像所描绘的内容。但是,在大多数 Facebook 图像上,屏幕阅读器唯一可用的文本是与照片一起发布的状态。

通过应用人工智能算法,Facebook 能够扫描每张图片并提取一些关于其内容的信息。如果有人上传了一张披萨图片,算法将能够自动将“披萨”一词放入图片的替代文本中,这样屏幕阅读器就可以告诉用户。该社交网络 15 亿用户中的大多数都看不到这些说明,但对于那些在日益视觉化的平台上看不到照片的人来说,这标志着一种转变。

Facebook 正利用这一机会使其研究方式更加民主化。该公司的无障碍和人工智能团队将获得用户的反馈,并利用这些反馈指导进一步的研究。今年 3 月,Facebook 与康奈尔大学联合发表了一项研究,探讨盲人如何使用 Facebook,希望打造一款满足社区需求的产品。

“应该以人们的需求为驱动力来推动研究,而不是以我们研究出的东西为驱动力来推动使用,”Paluri 说道。“反馈让我们能够进行更多调查。”

识别和描述图像的挑战是人工智能领域一个突出的研究类别。新技术和硬件正在实现深度学习,利用多层人工神经网络或模拟大脑神经元的微小数学方程簇来对数据进行分类并寻找模式。这些技术可以应用于图像、音频、文本或几乎任何类型的数据。在图像中,猫的照片中的图案与海豚的图案不同。

但单个物体很简单。当物体之间相互作用,或者当某个动作有背景时,情况就困难得多,因为机器需要真正了解物理世界,并知道物体之间的关系。对于一个天真的机器来说,没有重力、家庭关系或爱。只有数据。

因此,要理解父亲和女儿正在远足小径上行走,或者猫在床上,机器必须首先了解物理世界。

这也正是 Facebook 无障碍团队所需要的。目前,他们有这些可识别的对象,称为标签。标签是一只猫,标签是一张床,标签是一个人。有了这些信息,他们就可以说照片中有四个人拿着冰淇淋蛋筒,或者一个披萨饼。

“我们的目标是让它描述的内容远不止标签。标签如何互动?标签之间的关系是什么?”Paluri 说。“不只是说‘猫’和‘床’。你想说‘猫在床上’或‘猫跳过床’。所以这是一个起点。”

从很多方面来说,这都是一个起点。该团队不仅梦想着实现更多基于上下文的物体识别,而且还希望使识别更具交互性。Paluri 提出了一个潜在功能,用户可以点击图像的不同部分来听到特定信息。

但就 Facebook 的业务规模而言,精度必须放在首位。每天,Facebook、Instagram、Messenger 和 WhatsApp 上都会分享 20 亿张图片,因此即使 1% 的误差也可能意味着数百万个错误。工程师们根据正确分类物体的重要性,手动调整了算法可以检测到的大约 100 个概念中的每一个。例如,算法需要对性别之类的东西比物体是否是披萨更加确定。它可以从 100 个物体库中识别出物体,置信度从 80% 到 99%。Facebook 表示,它可以在 Facebook 上超过 50% 的照片中识别出至少一个物体。

机器能够理解的大多数概念都是关于人和物体的。它知道眼镜、棒球,甚至自拍。然而,据 Paluri 称,有些概念是团队故意没有加入的。其中包括某些动物。

人工智能系统所犯的错误,尤其是在对图像进行分类时,可能会具有文化敏感性,例如去年谷歌的照片应用将黑人标记为大猩猩。为了避免这种情况,“我们希望从我们非常有信心并且有很多积极反馈的地方开始,”Paluri 说。

信心也可以是无害的。Paluri 提到了猫爪。

“角落里可能有一只猫爪。图片里还有一只猫吗?这是一个悬而未决的问题,”他说。“也许这幅图就是关于爪子的,这就是它有趣的地方。”

研究可以朝很多方向发展,包括尝试检测幽默。但无论如何,任何改进都将依赖于更好的算法,这些算法是根据真实人类的需求而制定的。人工智能的前景是让人类的生活更轻松。我们正在将大脑中可以取代机器的部分外包出去。通过使用软件来增强我们自己,世界将变得更加容易接近。

该功能目前已在 Facebook 的 iOS 应用程序上推出,并将很快推广到其他平台以及英语以外的其他语言。

<<:  你对 Amazon Dash 的看法完全错误

>>:  全球最亮的 X 射线激光器将耗资 10 亿美元升级

推荐阅读

新发现的112号元素被命名为“哥白尼”

当我们与 112 号元素的发现者西格德·霍夫曼谈论在元素周期表上留下永久印记的意义时,他告诉我们,他...

这只狗的思想到语音翻译器是假的

正在流传的就是你在这里看到的项目:狗对语音的翻译器。把这个脑电图耳机戴在你的狗头上,它就会接收它的脑...

史上最伟大的太空黑客

美国宇航局成立 56 年来,已将人类送上月球,将机器人送上火星。但其最伟大的成就之一却鲜为人知:19...

《释迦大圣(下)》感悟与点评:为什么一定要看?

传统与创新的融合——《大正释迦牟尼佛(下)》的号召与评价1949年上映的《大正释迦牟尼[后篇]》是战...

真相是怎样的?解读五角大楼最新的UFO报告。

1 月 12 日,美国国家情报总监办公室发布了《2022 年不明飞行物(UAP)年度报告》。“UA...

进化使蚊子变成了隐秘而敏感的吸血鬼

经 Firefly Books Ltd. 许可,改编自Erica McAlister 所著的《The...

联合国专家担心杀手机器人,却忽视了已经存在的机器人

昨天,一位联合国专家呼吁停止并暂停研发“致命自主机器人”,或者用外行的话来说就是“杀手机器人”。他的...

亚人电视剧第一季详细评论及评分

亚人 TV 系列 1st Cool - 亚人 TV 系列《亚人》是一部电视动画,改编自樱井我门的同名...

《八刀龟日记》第一集观感与评论

《八刀龟日记》:一部充满名古屋魅力和方言幽默的短篇动画《夜刀龟日记》是一部12集短篇动画,于2019...

天斗者 Sunred 第 1 季:幽默与动作的完美平衡

天斗士 Sunred [第 1 季] - 喜剧动漫的新视野《天斗士 Sunred》是一部电视动画,于...

法拉利最快的量产车是一款电动混合动力车

法拉利 SF90 不是旗舰车型,但它是该公司速度最快的量产车型。法拉利当法拉利的混合动力汽车 LaF...

为你的 Instagram 故事增添光彩的 8 种创意方式

没人会责怪你认为 Instagram 的 Stories 自定义选项有些有限。你可以添加文本、GIF...

毕业后,通过 Upskillist 的经济实惠的终身会员资格提升你的技能和职业生涯

毕业后,您可以凭借 Upskillist 无限课程的终身会员资格继续接受教育,现在价格进一步降至 7...

如何高效地为设备充电

你可以直接使用设备自带的充电器。或者你也可以做得更好。你自己决定吧。Steve Johnson 通过...

这些史前啮齿动物是社交蝴蝶

今年,聚会方式发生了变化,为了避免加剧 COVID-19 传播的风险,许多人通过 Zoom 或在户外...