开放数据是科学的福音,但也伴随着诅咒

开放数据是科学的福音,但也伴随着诅咒

想象一下,你正在徒步旅行,遇到了一只长相奇怪、长着翅膀、几乎像鸟的虫子。如果你打开 iNaturalist 的 Seek 应用程序并将其指向这个神秘生物,相机屏幕会告诉你,你看到的是一只蜂鸟透翅蛾,这是一种白天活动的蛾子。从某种意义上说,Seek 应用程序的工作原理很像 Pokémon Go,这是 2016 年流行的增强现实游戏,用户在户外寻找难以捉摸的虚构生物来捕捉。

Seek 于 2018 年推出,给人的感觉类似。只不过,当用户将相机对准周围环境时,他们看到的不是妙蛙种子或巴大蝶,而是现实世界中的植物球茎和蝴蝶,相机会实时识别这些植物球茎和蝴蝶。用户可以了解他们遇到的植物和动物种类,并可以通过寻找不同物种(如爬行动物、昆虫、鸟类、植物和蘑菇)来收集徽章。

iNaturalist 之所以能够正确识别(至少在大多数情况下)不同的生物体,要归功于一种机器学习模型,该模型利用了其原始应用程序收集的数据,该应用程序于 2008 年首次亮相,简称为 iNaturalist。它的目标是帮助人们与周围丰富多彩的自然世界建立联系。

iNaturalist 平台拥有约 200 万用户,是社交网络和公民科学的融合,人们可以在此观察、记录、分享、讨论、了解更多自然知识,并为科学和保护创建数据。除了拍照之外,与游戏化的 Seek 相比,iNaturalist 应用程序还具有扩展功能。它有一个新闻选项卡、当地野生动物指南,组织还可以使用该平台托管专注于某些区域或某些感兴趣的物种的数据收集“项目”。

当新用户加入 iNaturalist 时,系统会提示他们勾选一个复选框,允许他们与科学家共享数据(尽管如果不勾选,您仍然可以加入)。用户同意共享的图像和位置信息将标有知识共享许可,否则将受版权保护。平台上大约 70% 的应用程序数据被归类为知识共享。iNaturalist 联合总监 Scott Loarie 表示:“你可以将 iNaturalist 视为一条通往科学界的大型开放数据管道,科学家以许多令我们惊讶的方式使用它。”

这意味着,每次用户记录或拍摄动物、植物或其他生物时,它们都会变成一个数据点,并被传输到亚马逊网络服务云中的集线器。它是 AWS 开放数据注册表中 300 多个数据集中的一个。目前,iNaturalist 的集线器拥有大约 160 TB 的图像。数据集定期更新,任何人都可以查找和使用。iNaturalist 的数据集也是全球生物多样性信息设施的一部分,该设施汇集了来自世界各地的开放数据集。

iNaturalist 的 Seek 是一个很好的例子,说明一个组织在没有大型开放数据集的情况下,做了一些有趣且不可能的事情。这类数据集既是信息时代科学研究的标志,也是推动力,信息时代是功能强大的计算机广泛使用的时代。它们已经成为科学家观察我们周围世界的新视角,并促成了工具的创建,使科学也可供公众使用。

[相关:你的 Flickr 照片可以帮助科学家密切关注野生动物]

举例来说,iNaturalist 的机器学习模型可以帮助用户识别大约 60,000 种不同的物种。“全世界有 200 万种物种,我们观察到了其中的六分之一,并且至少有一个数据点和一张照片,”Loarie 说。“但为了进行任何类型的建模或真正的综合或洞察,你需要大约 100 个数据点(每个物种)。”该团队的目标是代表 200 万种物种。但这意味着他们需要更多的数据和更多的用户。他们还在尝试创建新的工具,以帮助他们发现奇怪的数据、纠正错误,甚至识别新出现的入侵物种。“这与开放数据相辅相成。推广它的最佳方式是尽可能减少数据和访问数据工具的流动摩擦,”他补充道。

Loarie 认为,更公开地分享数据、软件代码和想法可以为科学进步创造更多机会。“我的背景是学术界。当我从事学术工作时,我的心态是‘不发表就出局,你的数据会留在你的笔记本电脑上,你希望没有人窃取你的数据或抢先发表你的研究成果’,”他说。“最酷的事情之一是,在过去的几十年里,科学合作变得越来越多。如果你更合作,你可以更快地开展科学研究,规模也更大。我认为期刊和机构对这种合作越来越接受。”

开放数据热潮

过去十年,开放数据(任何人都可以使用、改编和共享的数据)已成为科学界的一大福音,得益于日益增长的开放科学趋势。开放科学意味着项目中使用的任何原始数据、分析软件、算法、论文、文档都会作为科学过程的一部分在早期共享。从理论上讲,这将使研究更容易重现。

事实上,许多政府机构和市政办公室都在向公众发布开放数据集。2012 年的一项法律要求纽约市通过一个可访问的门户网站分享各机构为城市运营收集的所有非机密数据。早春时节,纽约市举办开放数据周,重点介绍数据集和使用它们的研究。技术和信息办公室的一个中央团队以及每个机构的数据协调员帮助制定标准和最佳实践,并维护和管理开放数据计划的基础设施。但对于想要外包数据基础设施的研究人员来说,亚马逊和 CERN 等机构会提供帮助组织和管理数据的服务。

[相关:世界上最神奇的十大数据库]

在最近的 COVID-19 疫情期间,这种对开放科学的推动得到了极大的加速,当时大量与 COVID 相关研究和设备设计的发现几乎同时被分享。科学家迅速公布了病毒的基因信息,这有助于疫苗研发工作。

麻省理工学院博物馆馆长、科学史学家约翰·杜兰特 (John Durant) 表示:“如果进行测序的人保留并保护它,整个过程就会减慢。”

“开放数据在一定程度上是为了确保透明度和可靠性,”他补充道。“如果报告的结果来自你无法看到的数据集、无法解释的算法过程或你并不真正理解的统计分析,你怎么能确信这些结果是可靠的呢?那么,你就很难对结果有信心。”

不断增长的数据集带来机遇和担忧

首先,如果没有大量的数据,开放数据就不可能存在。在大数据的辉煌时代,这是一个机会。“很久以前,当我学习生物学的时候,你使用传统技术,你拥有的信息量相当重要,但数量很少,”杜兰特说。“但今天,你可以生成几乎令人眼花缭乱的信息。”由于更好的计算机、更智能的软件和更便宜的传感器,我们收集和积累数据的能力在过去几十年里呈指数级增长。

Durant 说:“大数据集几乎就像是一个独立的宇宙。它有无限多的内部数学特征和相关性,你可以从中不断探索,直到找到一些有趣的东西。”将数据集向公众开放意味着不同的研究人员可以从偏离数据初衷的不同角度获得各种​​见解。

“近几年,各种新学科或分支学科应运而生,它们源于数据角色的变化,”他补充道,数据科学家和生物信息学家只是众多例子中的两个。现在,整个科学分支都属于“元科学”,人们实际上并不收集数据,而是深入研究大量数据集并寻找更高层次的概括。

许多传统领域也经历了技术革新。以环境科学为例。如果你想在更长的时间内覆盖更多的领域、更多的物种,那么“如果不使用技术工具或协作工具,一个人是难以管理的”,Loarie 说。“这无疑将生态学领域推向了技术领域。我相信每个领域都有类似的故事。”

[相关:伊卡洛斯项目正在创建地球动物的动态地图]

但随着数据量的不断增长,我们手动处理这些数字和统计数据的能力几乎变得不可能。“你只能使用非常先进的计算技术来处理这些大量的数据。这是我们今天生活的科学世界的一部分,”杜兰特补充道。

机器学习算法就是为此而生的。这些是可以计算数据中统计关系的软件或计算机命令。使用有限量数据的简单算法仍然相当全面。如果计算机出错,您很可能可以追溯到计算中发生错误的位置。如果这些是开源的,那么其他科学家可以查看代码指令,了解计算机如何从输入中获得输出。但更多时候,人工智能算法被描述为“黑匣子”,这意味着创建它的研究人员甚至不完全了解里面发生了什么,以及机器是如何做出决定的。这可能会导致有害的偏见。

这是该领域面临的核心挑战之一。“算法偏见是当今时代的产物,在这个时代,我们使用大数据系统的方式我们有时无法完全控制,有时也无法完全了解和理解其影响,”杜兰特说。这正是数据和代码开放可以提供帮助的地方。

[相关:人工智能如今无处不在。本报告展示了我们如何走到今天。]

研究人员需要考虑的另一个问题是维护大数据集的质量,这会影响分析工具的有效性。同行评审过程在此发挥了重要作用。Loarie 观察到,数据和计算机科学领域的发展速度非常快,无论是通过预印本、电子会议论文还是其他形式,研究成果都会在互联网上发布。“我确实认为,电子版科学面临的一个问题是如何扩大同行评审过程的规模”,从而阻止错误信息,他说。这种同行评审也很重要,例如,在 iNaturalist 的数据处理中。Loarie 指出,尽管 iNaturalist 的数据质量整体上非常高,但仍有少量错误信息需要他们通过社区管理进行检查。

最后,科学的开放引发了一系列问题,包括资金和激励机制如何改变——这是专家们一直在积极探索的问题。存储大量数据当然不是免费的。

“人们没有想到的是,对我们来说更重要的是,在互联网上传输数据需要支付带宽费用,”Loarie 说。“所以,如果有人从 iNaturalist 开放数据库中下载了一百万张照片,并想对其进行分析,那么下载这些数据本身就需要付费。”

开放数据的未来

iNaturalist 是一家小型非营利组织,隶属于加州科学院和国家地理学会。亚马逊正在为此提供帮助。AWS 开放数据赞助计划于 2009 年启动,涵盖了其认为“对用户社区具有高价值”的数据集的存储成本和带宽费用,AWS 全球社会影响全球负责人 Maggie Carter 在一封电子邮件中表示。他们还提供访问数据所需的计算机代码,并在数据集更新时发出通知。目前,他们通过该计划赞助了大约 300 个数据集,从雨林和鲸鱼的录音到卫星图像、DNA 序列到美国人口普查数据。

在大型数据中心的能源使用受到严格审查的今天,亚马逊认为集中式开放数据中心比计划中所有托管本地存储基础设施的数据中心更节能。“我们看到开放数据模型的自然效率。AWS 开放数据计划的整个前提是将数据存储一次,然后让每个人都在这个权威数据集上工作。这意味着需要存储在其他地方的重复数据更少,”卡特说,她声称这可以降低整体碳足迹。此外,AWS 正试图在 2025 年前使用 100% 可再生能源来运营。

尽管面临挑战,Loarie 认为只要有可能,就应该共享有用且​​适用的数据。许多其他科学家也赞同这个想法。康奈尔大学的另一个平台 ebird 也利用公民科学的努力为科学界积累开放数据——ebird 数据还转化为用户使用的工具,例如鸟鸣 ID,旨在让人们更轻松、更有吸引力地与自然界的野生动物互动。在公民科学之外,一些研究人员,比如那些致力于建立全球水下生物声音图书馆的研究人员,正在寻求将来自多个机构和研究小组的专业收集数据汇集到一个庞大的开放数据集中。

“许多人都保留数据和专有算法,因为他们认为这是获得收入和认可的关键,可以帮助他们的项目可持续发展,”洛里说。“我认为,我们所有参与开放数据世界的人,都有点相信这样做的好处大于成本。”

<<:  不管剧情如何发展,伊隆·马斯克很快就会拥有 Twitter

>>:  福特正在加速生产其电动 F-150 Lightning

推荐阅读

《恶或生》:一部超越善恶界限的成长剧

《EVIL OR LIVE》——逃离深渊、发现自我的旅程《EVIL OR LIVE》是2017年10...

2012 年 9 月:汽车的未来

特征光速一小群设计师如何打造出史上最高效的赛车作者:普雷斯顿·勒纳进步的驱动力塑造未来汽车的五项技术...

准备好爆米花:MoviePass 正在计划卷土重来

您可能还记得最初的 MoviePass,这是一项流行的电影票订阅服务,由于多起丑闻,它在 2019 ...

新的 Frontier 超级计算机将成为世界上最快的超级计算机

根据 TOP500(一项跟踪和排名全球 500 台最强大机器的项目)最近发布的榜单,一台美国超级计算...

《伽利略唐娜》的号召力与评价:科学与冒险的融合

Galilei Donna - 科学与冒险的邂逅《伽利略小姐》是一部于 2013 年播出的电视动画系...

基于人工智能的新型海啸预警软件或可帮助拯救生命

为了减轻海啸带来的死亡和灾难,沿海地区的人们需要尽可能多的时间撤离。高达百英尺的海浪速度与汽车相当,...

创意的生命周期

单击可查看更大的图像。插图由 Accurat.it 提供:Giorgia Lupi、Simone Q...

Bose QuietComfort Earbuds II 第一印象:让我们准备好轰鸣吧(少一点)

经过几十年的谈判,我终于同意与脑海中的声音达成和解。我不断地将黑暗的音乐传入我的大脑皮层,它们不再低...

Musica Piccolino的魅力与声誉:透彻解读动人的音乐故事

Musica Piccolino - 音乐和冒险的小世界《Musica Piccolino》是一部短...

海军做什么?

欢迎来到 ShipShape,这是一个试图揭开公海上和海底航行的船舶和系统的神秘面纱的博客。随着这个...

对于应对气候变化的北极熊来说,这就是“适者生存”

由阿尔伯塔大学研究人员牵头,英国生态学会在《动物生态学杂志》上发表的一项新研究发现,最近由于气候变化...

蜜蜂可以感知花朵的电场——除非肥料干扰了蜂鸣声

蜜蜂精通花朵的无声语言。这些嗡嗡作响的传粉者熟悉开花植物的许多特征——球茎的形状、颜色的多样性以及它...

视频:第一人称视角看猎鹰击落乌鸦

如果你是一只乌鸦,或者特别喜欢乌鸦,请考虑避开你的目光。否则,天啊,看看这些疯狂的猎鹰攻击乌鸦吧。 ...

报告:特斯拉致命车祸不能归咎于软件错误

“自动紧急制动 (AEB) 或自动驾驶系统可能无法按设计运行,从而增加发生事故的风险。”这句话很简...

《Sukashikashipanman 电影》评论:超出预期的感人故事

电影《超级英雄的诞生》- 独特英雄的诞生及其魅力■ 公共媒体卵子■ 原创媒体特点■ 发布日期2008...