在这方面，AI的效率是生物学家的上万倍 | AI|行业新闻|新闻动态

新闻动态

在这方面，AI的效率是生物学家的上万倍

2022-01-19

写在前面

2021年年末，《科学》杂志提名了十项年度科学突破，其中不少进展与生命科学息息相关，而且充分展现了现阶段科学突破中，生命科学与其他学科交叉碰撞出来的强大能量。

今天我们来聊聊这里面最受瞩目，同时也是连续两年入选的一项——AI预测蛋白质结构。

过去的几十年里，世界各地的顶尖结构生物学家完成了大约18万种蛋白质结构的解析；但在过去的两年里，AlphaFold 完成了人体内几乎所有蛋白质的结构预测，AI预测蛋白质结构为何如此神奇？又有哪些价值？

我们先不谈蛋白质结构，说到人工智能，大家会想到什么？

我猜大多数人都会想到，几年前在围棋上战胜人类的AlphaGo。那场比赛展现了人工智能在计算上的超凡能力——如何运用算法实现对围棋的推演，并胜过人类。

这场比赛相信不少人还历历在目

那再看回这项science评选出来的突破，你脑袋上一定有很多问号：什么是蛋白质？它的结构很复杂吗？为什么要用人工智能来预测蛋白质结构？

说起蛋白质，相信不少人其实并不陌生，甚至了解蛋白质是细胞里行使各种功能的“元件”。不仅如此，蛋白质也是组成我们身体的基本物质之一。比如说健身可以锻炼肌肉，但想要肌肉增强变大，就必须有足够的蛋白质供给才行。

餐桌上的鸡蛋、牛奶以及各种肉类都是富含蛋白质的食物，对于人类来说，蛋白质唾手可得；但是，想要得到蛋白质的结构却难于上青天。

富含蛋白质的饮食 | 图源：iSlide

因为蛋白质的结构非常复杂：简单讲，氨基酸组成蛋白质，一个个氨基酸会有叫肽键的结构链接，它的连接可以形成两种不同的角度。

那现在给大家出一个简单数学题：假设有100个氨基酸组成蛋白质，那就需要99个肽键，99个肽键有两种不同角度的结构，同时不同角度还会有三种可能的稳定结构，那就是3的198次方种可能，你要是慢慢穷举，从宇宙爆炸到现在都数不完，这就是利文索尔悖论——蛋白质结构非常非常多样，没办法用穷举来算完。

氨基酸组合过程中不同的二面角会产生不同的结构，因此才有利文索尔悖论这样的无穷种结构可能

| 图源：Wikipedia

结构这么复杂该怎么办？生物学家最直接的想法就是观测，用不同的方法来测量：上世纪五六十年代，用的是X光衍射——把蛋白质结晶，然后打上X光，通过反射的角度可以推测蛋白质长什么样子，这个难点就是怎么把蛋白质纯化结晶出来。

另一个现在很热门的研究方法叫冷冻电镜，就是利用冷冻切片技术，加上电子显微镜直接看蛋白质结构，但缺点就是非常非常贵，太烧钱了。

冷冻电镜的基本原理 | 图源：Wikipedia

那大家猜猜这么些方法，测量了几十年了，我们分析出来多少个蛋白质结构？其实已经不少了，根据数据库记载，现在实验已经解析了18万种蛋白质。

但是相对的，我们刚刚说到蛋白质是氨基酸组成的，只要测序技术测得到DNA序列，就能推导出蛋白质序列。查找数据库可以发现，现在已知的有十几亿种蛋白质序列，这和18万之间差了将近一万倍。

所以结构生物学家就很苦恼——测序太简单了，导致结构生物学远远跟不上测序的速度。

蛋白质结构解析数量变化 | 图源：Nucleic acids research, 2019.

蛋白质序列测序的速度 | 图源：www.ncbi.nlm.nih.gov/genbank/statistics/

所以很多开发算法的计算生物学家就想预测结构，通过算法预测肯定比做实验快很多。但是刚刚也说了利文索尔悖论，预测结构非常非常难，你要是穷举那是天文数字。

所以有很多的计算思路，比如我可以类比，实验解出来的结构我可以类比相似的序列，推测相似的序列会不会有相似的结构，这个叫同源建模；也可以拆开来类比，比完再像缝缝补补拼积木一样把结构拼出来，这个叫穿线法……但是这么多方法都有个问题：精度特别差。这就好像我想看1080P的高清视频，但是怎么调都只有马赛克高糊版，看都看不清。

做个类比的话，比如实际的蛋白结构是左图，但是预测结果往往只能得到左图的效果，很多信息都无法得知（仅作示意进行处理，实际并不仅仅是模糊，还会有很多完全不同的差别） | 图源：Wikipedia

为了促进各国科学家不断向前，从1994年开始，每两年都会举办CASP，叫蛋白质结构预测关键测试，来评估大家的算法预测准不准，来提高算法的精度。

简单来说就是从各种蛋白质序列里挑几个出来，一边让结构生物学家做实验解出一个“标准答案”，然后计算生物学家就用自己的算法来比，看看谁跟标准答案更接近。

但很遗憾，24年过去了，仍然进展很慢。

CASP官网

直到2018年，一个叫AlphaFold的方法出来，得到了80分的高分，两年之后2020年AlphaFold二代打分到了90分，基本就和实验做出来的标准答案一样了。还是刚刚1080P的比喻的话，别人预测像个马赛克，但AlphaFold2预测就已经差不多1000P，和1080P基本大差不差。

这个大家也知道了，就是Deepmind公司开发的人工智能方法。所以去年的science十大突破，其实也有AI预测蛋白质结构。

AlphaFold2方法预测的精度远远超过其他算法（图a），同时预测的结果和实验结果基本吻合（图b-d）

| 图源：Nature, 2021.

那怎么今年又有突破了？这是因为这个算法实际应用到了生物学上了。

一是Deepmind开发的AlphaFold2算法，在短短几个月时间里，就把几十年结构生物学家解析的没解析完的蛋白质都解了：人体98%的蛋白质都试着预测了一遍，其中三分之一能准确预测，还有一些也能大概预测一半多。同时他们声称后面几个月就把数据库扩展到一亿个蛋白质。这就比实验方法快了上万倍了。

基于AlphaFold2预测的蛋白质结构数据库

另一个生物学上的应用，是同样基于人工智能算法开发的RoseTTAFold，它挑战的是更难的领域——怎么预测蛋白质和蛋白质相互结合，也在短时间预测了几千种蛋白质的相互结合。

RoseTTAFold的宣传图，最突出的就是对于蛋白质互作的结构预测

不少人可能要问了：预测一亿多种蛋白质，能有什么用呢？

我们最开始就提到了蛋白质在我们生活无处不在，而蛋白质要发挥功能，基础是要有一定的结构。所以预测蛋白质结构，可以帮助我们更好地理解蛋白质的功能，进而去比如构建蛋白质分子药物，或者研究复杂的生物化学现象。

一个最简单的例子，比如现在我们知道新型冠状病毒的新变异奥密克戎传播力特别强，而这传播关键的刺突蛋白结构，就可以利用人工智能来预测，进而可以推测什么药物或者治疗方法可以更有效的针对奥密克戎。

使用AlphaFold预测的奥密克戎突变体的S蛋白结构

但同时，虽然说人工智能已经完成了结构生物学家很多的工作，但是这个预测仍然是不完善的：

比如有些复杂的结构，可能结构生物学家实验还没有解析出来，人工智能也就还没办法学习到，因此也预测不出来，所以很多问题仍然需要结构生物学家的深入探究；

还有很多蛋白在发挥功能的时候是一个动态变化的过程，这种时候预测的结果就不准确，还是用1080P举例的话，就是理论上是一个1080P的视频，但是人工智能在这几秒预测出来是1080P高清，那几秒预测出来却是马赛克，所以也不准确。

这些都是人工智能预测蛋白质的瑕疵，但是瑕不掩瑜，人工智能在蛋白质结构预测带给我们的惊喜实在太多了，而这项年度突破，就是计算科学在生命科学上最好的应用。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

来源: 网易订阅 biokiwi https://www.163.com/dy/article/GU2CN66N0532MWQL.html

上一篇: 华为这项专利曾被推上风口浪尖，两年后却桃李满天下

下一篇: 赛力斯技术自持的完美体现 AITO如何应运而生