Meta 的人工智能可能会改变我们研究蛋白质结构的方式

Meta 的人工智能可能会改变我们研究蛋白质结构的方式

蛋白质是维持生物体正常运转的重要成分。它们帮助修复细胞、清除废物,并将信息从身体的一端传递到另一端。

科学家们为破译蛋白质的结构和功能做了大量工作,为此,Meta 的人工智能研究团队今天宣布,他们使用了一种模型,可以根据蛋白质的氨基酸序列预测其三维结构。与 DeepMind 等该领域的先前研究不同,Meta 的人工智能基于语言学习模型,而不是形状和序列匹配算法。Meta 不仅发布了关于这项研究的预印本论文,还将向研究界和业界开放该模型和蛋白质数据库。

首先,为了说明理解蛋白质形状的重要性,我们来上一堂简短的生物学课。基因中的某些三联核苷酸序列由细胞中的一种称为核糖体的分子翻译成氨基酸。蛋白质是氨基酸链,它们会自行组合成独特的形式和结构。一门名为宏基因组学的新兴科学领域正在利用基因测序来发现、分类和注释自然界中的新蛋白质。

Meta 的 AI 模型是一种新的蛋白质折叠方法,其灵感来自大型语言模型,旨在预测宏基因组数据库中数亿个蛋白质序列的结构。了解这些蛋白质形成的形状将为研究人员提供线索,帮助他们了解蛋白质如何发挥作用,以及它们与哪些分子相互作用。

[相关:Meta 认为其新的 AI 工具可以使维基百科更加准确]

“我们首次大规模表征了宏基因组蛋白质。我们将数据库作为开放科学资源发布,其中包含超过 6 亿个蛋白质结构预测,”Meta AI 研究科学家 Alex Rives 说道。“这涵盖了一些最不为人所知的蛋白质。”

历史上,计算生物学家曾使用进化模式来预测蛋白质的结构。蛋白质在折叠之前是线性的氨基酸链。当蛋白质折叠成复杂的结构时,线性链中可能相距很远的某些序列可能会突然变得非常接近。

“你可以把它想象成一个拼图中的两块碎片,它们必须拼在一起。进化不能独立地选择这两个位置,因为如果错误的碎片在这里,结构就会崩溃,”里夫斯说。“这意味着如果你观察蛋白质序列的模式,它们包含有关折叠结构的信息,因为序列中的不同位置会相互变化。这将反映出蛋白质的一些潜在生物学特性。”

与此同时,DeepMind 的创新方法于 2018 年首次亮相,主要依赖于一种称为多序列比对的方法。它基本上会在大量蛋白质序列进化数据库中进行搜索,以找到与其预测的蛋白质相关的蛋白质。

“我们的方法的不同之处在于,我们直接根据氨基酸序列进行预测,而不是根据这组多个相关蛋白质进行预测并查看模式,”Rives 说。“语言模型以不同的方式学习了这些模式。这意味着我们可以大大简化结构预测架构,因为我们不需要处理这组序列,也不需要搜索相关序列。”

Rives 声称,这些因素使他们的模型比该领域的其他技术更快。

[相关:Meta 希望通过研究人类大脑来改进其人工智能]

他们如何训练这个模型来完成这项任务?这需要两个步骤。首先,他们必须对大量具有不同结构、来自不同蛋白质家族、并且贯穿整个进化时间线的蛋白质进行语言模型的预训练。他们使用了掩码语言模型的一个版本,其中他们删除了部分氨基酸序列并要求算法填写这些空白。“语言训练是无监督学习,它只对序列进行训练,”Rives 解释说。“这样做会使该模型学习数百万个蛋白质序列中的模式。”

然后,他们冻结语言模型并在其上训练折叠模块。在训练的第二阶段,他们使用监督学习。监督学习数据集由来自世界各地研究人员提交的蛋白质数据库中的一组结构组成。然后使用 AlphaFold(DeepMind 的技术)进行预测。“这个折叠模块接受语言模型输入,并基本上输出蛋白质的 3D 原子坐标(来自氨基酸序列)。”Rives 说。“这会产生这些表示,然后使用折叠头将它们投射到结构中。”

Rives 设想,该模型可用于研究应用,例如在生化水平上了解蛋白质活性位点的功能,这些信息对于药物开发和发现可能非常重要。他还认为,未来人工智能甚至可以用于设计新的蛋白质。

<<:  PopSci 的 High Issue 献给所有有远大梦想的人

>>:  火星快车刚刚与火卫一近距离接触

推荐阅读

IS2 第 1 集“长假”版评论

《无限斯特拉托斯II大一和悠长假期版》的魅力与评价《无限斯特拉托斯 II 第一次悠闲假期版》(以下简...

泄漏到西弗吉尼亚水域的化学物质有多危险?

昨天(1 月 9 日),在西弗吉尼亚州查尔斯顿附近的一家化工厂,一个容量为 48,000 加仑的 4...

标志性的约书亚树陷入困境

植物学家林恩·斯威特经常徒步穿越加州的约书亚树国家公园,该公园占地近 80 万英亩,位于莫哈韦沙漠和...

以 200 英里/小时的速度驾驶迈凯伦是一种刺激而危险的体验

您可能不知道的一个事实是:英国人把以每小时 100 英里的速度驾驶称为“超重”。因此,英国超级跑车制...

《星空龙骑士》评论:引人入胜的故事和深刻的人物发展

《圣黑的龙君》的全面评论与推荐概述《星空龙骑士》是根据水知志所著的轻小说改编的电视动画,于2014年...

F-35 战斗机将配备隐身性更强的空对地导弹

F-35 是为导弹战争而打造的。美国最新的隐形战斗机有三种型号:F-35A 供空军使用,F-35B ...

果蝠也有声纳

尽管果蝠的飞行方式和外表与其他蝙蝠一样,但它们却缺乏特殊的生物声纳系统,而正是这种系统让它们的体型较...

詹姆斯·韦伯太空望远镜最新拍摄的照片捕捉到了车轮星系闪闪发光的景象

星系并不是静止不动的:它们会旋转、变形,并爆发成新星和基拉诺瓦。这意味着每次我们观察一个恒星系统时,...

SD高达世界英雄的魅力与评价:粉丝必看的战略评论

SD Gundam World Heroes - 所有 Gundam 粉丝的全新冒险高达系列在问世几...

罗伯特·巴丁森、巴特洛·斯威夫特等在蝙蝠选美大赛中一决高下

是时候在一次重要而又充满争议的选举中投票了——土地管理局 (BLM) 的蝙蝠选美大赛。为纪念蝙蝠周(...

《女高音雨》——《大家的歌》感人的评论与批评

《女高音雨》——深入挖掘每个人歌曲的魅力和情感《女高音雨》是一部短篇动画电影,于 2012 年 12...

这些史前啮齿动物是社交蝴蝶

今年,聚会方式发生了变化,为了避免加剧 COVID-19 传播的风险,许多人通过 Zoom 或在户外...

没有大象的动物园:一个独特的故事和令人着迷的人物,超出了人们的预期

没有大象的动物园 - 无大象动物园■ 公共媒体剧院■ 原创媒体图画书■ 发布日期1982 年 3 月...

全面回顾《AURA:甲贺丸ウエ的最终决战》:您不容错过的动人结局!

AURA:魔龙院甲贺最终决战的综合评论与推荐概述《AURA:甲贺魔龙院的最终决战》是根据田中罗密欧...

为什么活细胞是数据处理的未来

并非所有计算机都是由硅制成的。根据定义,计算机是处理数据、执行计算或使用所谓的逻辑门将输入(例如二进...