Meta 的人工智能可能会改变我们研究蛋白质结构的方式

Meta 的人工智能可能会改变我们研究蛋白质结构的方式

蛋白质是维持生物体正常运转的重要成分。它们帮助修复细胞、清除废物,并将信息从身体的一端传递到另一端。

科学家们为破译蛋白质的结构和功能做了大量工作,为此,Meta 的人工智能研究团队今天宣布,他们使用了一种模型,可以根据蛋白质的氨基酸序列预测其三维结构。与 DeepMind 等该领域的先前研究不同,Meta 的人工智能基于语言学习模型,而不是形状和序列匹配算法。Meta 不仅发布了关于这项研究的预印本论文,还将向研究界和业界开放该模型和蛋白质数据库。

首先,为了说明理解蛋白质形状的重要性,我们来上一堂简短的生物学课。基因中的某些三联核苷酸序列由细胞中的一种称为核糖体的分子翻译成氨基酸。蛋白质是氨基酸链,它们会自行组合成独特的形式和结构。一门名为宏基因组学的新兴科学领域正在利用基因测序来发现、分类和注释自然界中的新蛋白质。

Meta 的 AI 模型是一种新的蛋白质折叠方法,其灵感来自大型语言模型,旨在预测宏基因组数据库中数亿个蛋白质序列的结构。了解这些蛋白质形成的形状将为研究人员提供线索,帮助他们了解蛋白质如何发挥作用,以及它们与哪些分子相互作用。

[相关:Meta 认为其新的 AI 工具可以使维基百科更加准确]

“我们首次大规模表征了宏基因组蛋白质。我们将数据库作为开放科学资源发布,其中包含超过 6 亿个蛋白质结构预测,”Meta AI 研究科学家 Alex Rives 说道。“这涵盖了一些最不为人所知的蛋白质。”

历史上,计算生物学家曾使用进化模式来预测蛋白质的结构。蛋白质在折叠之前是线性的氨基酸链。当蛋白质折叠成复杂的结构时,线性链中可能相距很远的某些序列可能会突然变得非常接近。

“你可以把它想象成一个拼图中的两块碎片,它们必须拼在一起。进化不能独立地选择这两个位置,因为如果错误的碎片在这里,结构就会崩溃,”里夫斯说。“这意味着如果你观察蛋白质序列的模式,它们包含有关折叠结构的信息,因为序列中的不同位置会相互变化。这将反映出蛋白质的一些潜在生物学特性。”

与此同时,DeepMind 的创新方法于 2018 年首次亮相,主要依赖于一种称为多序列比对的方法。它基本上会在大量蛋白质序列进化数据库中进行搜索,以找到与其预测的蛋白质相关的蛋白质。

“我们的方法的不同之处在于,我们直接根据氨基酸序列进行预测,而不是根据这组多个相关蛋白质进行预测并查看模式,”Rives 说。“语言模型以不同的方式学习了这些模式。这意味着我们可以大大简化结构预测架构,因为我们不需要处理这组序列,也不需要搜索相关序列。”

Rives 声称,这些因素使他们的模型比该领域的其他技术更快。

[相关:Meta 希望通过研究人类大脑来改进其人工智能]

他们如何训练这个模型来完成这项任务?这需要两个步骤。首先,他们必须对大量具有不同结构、来自不同蛋白质家族、并且贯穿整个进化时间线的蛋白质进行语言模型的预训练。他们使用了掩码语言模型的一个版本,其中他们删除了部分氨基酸序列并要求算法填写这些空白。“语言训练是无监督学习,它只对序列进行训练,”Rives 解释说。“这样做会使该模型学习数百万个蛋白质序列中的模式。”

然后,他们冻结语言模型并在其上训练折叠模块。在训练的第二阶段,他们使用监督学习。监督学习数据集由来自世界各地研究人员提交的蛋白质数据库中的一组结构组成。然后使用 AlphaFold(DeepMind 的技术)进行预测。“这个折叠模块接受语言模型输入,并基本上输出蛋白质的 3D 原子坐标(来自氨基酸序列)。”Rives 说。“这会产生这些表示,然后使用折叠头将它们投射到结构中。”

Rives 设想,该模型可用于研究应用,例如在生化水平上了解蛋白质活性位点的功能,这些信息对于药物开发和发现可能非常重要。他还认为,未来人工智能甚至可以用于设计新的蛋白质。

<<:  PopSci 的 High Issue 献给所有有远大梦想的人

>>:  火星快车刚刚与火卫一近距离接触

推荐阅读

佛罗里达的气候或许可以拯救美国的几棵白蜡树

翡翠灰螟已肆虐美国 30 个州,毁坏公园、住宅和森林中的树木。六种灰树花中,有五种现已处于极度濒危状...

仅用一滴血就克隆出老鼠

日本理化学研究所生物资源中心的科学家首次成功利用微量外周血样本克隆出小鼠。该方法几乎不会对供体动物造...

所有宜居行星(好吧,只有三颗)都围绕着这颗超酷恒星

超冷恒星是当今天文学界最热门的事物之一。在今天发表于《自然》杂志上的一篇论文中,研究人员宣布,他们发...

这款坦克式机器人能灭火,却不能救人

红色机器人向前猛冲,立即从两个水桶中喷出水。水流倾泻而出,机器将泡沫注入水花中,覆盖了它前面一大片森...

2014 年顶级安全创新

自行车锁,即使是最坚固的锁,都有相同的致命弱点:如果有足够的时间,任何有决心的窃贼都可以抢走自行车。...

格拉迪斯·韦斯特的数学能力帮助实现了 GPS

科学新闻的年鉴并不总是尽可能地全面。因此, PopSci 正在努力通过《In Hindsight》系...

《地狱幼儿园》的号召与评价:儿童动画的新可能

《地狱幼儿园》:一个发生在地狱幼儿园的搞笑又感人的故事《地狱幼儿园》是2013年在Niconico频...

《王獒丸》第 14 季的魅力与评价:新的冒险与成长的故事

《王獒丸》第14部连载的魅力与评价《Ojarumaru》是根据犬丸凛的原创故事改编的动画,这次将详细...

使用亚马逊上的三星存储进行备份和保存

每个人都知道他们应该备份他们的电脑,但购买额外的驱动器可能会很昂贵——直到现在。三星目前在亚马逊上大...

旅行者二号几乎已经脱离了太阳的保护罩

四十年后,旅行者 2 号仍然在那里,接近太阳系边缘。NASA宇宙浩瀚无垠,但并非完全空无一物。仔细观...

你到底是如何在一年中添加闰秒的?

2016 年会多出一秒,人们对此很不高兴。你的电脑也不高兴。今年(或明年,如果你在东半球的大部分地...

太阳光

1999 年 3 月 21 日早晨,伯特兰·皮卡德和布莱恩·琼斯将他们的气球降落在埃及沙漠,完成了...

美国宇航局为何选择未经测试的导弹来发射双子座计划?

发射 NASA 双子座任务的泰坦二号火箭可以说是一个异类。它是发射阿波罗时代任务的仅有的两枚非沃纳·...

津巴布韦最新的恐龙可能是非洲最古老的恐龙

从地图上看,南美洲和非洲大陆看起来就像拼图一样拼合在一起。这种地理对称性是因为大约 2 亿至 3 亿...

北极变暖实际上会使我们的冬天更冷

至少很多人记得,2014-2015 年的冬天是波士顿市失去理智的冬天。那年冬天,新英格兰——一个与霜...