概述
2020年11月30日,DeepMind宣布其AI系统AlphaFold 2在蛋白质结构预测方面达到了近实验精度——有效解决了困扰生物学界逾五十年的重大难题。
在CASP14(第14届蛋白质结构预测关键评估竞赛)上,AlphaFold 2的中位GDT(全局距离测试)得分高达92.4分(满分100分),高得让科学界一度质疑评估是否存在缺陷。结果并无缺陷。生物学界只是目睹了AI越过了一道他们未曾预期在有生之年见到的门槛。
问题所在
蛋白质是由氨基酸链组成的分子。其三维形状——链折叠的方式——决定了它的功能:是催化反应、构建细胞结构、对抗感染,还是引发疾病。五十年来,生物学面临一个根本性约束:我们能读取蛋白质的基因序列,却无法可靠地预测其形状。
通过实验(X射线晶体学或冷冻电镜)确定一种蛋白质结构,需要数月实验室工作,耗资数十万美元。人类基因组计划为我们提供了约2万种人类蛋白质的序列。而了解它们的形状,才能构建药物、理解疾病、改造生物。
截至2020年,数十年间仅有约17万种蛋白质结构被实验确定。自然界估计存在2亿种蛋白质,形状未知。
AlphaFold 2的工作原理
与2018年的AlphaFold 1(模块化方法)不同,AlphaFold 2采用了新颖的架构,融合了:
- 多序列比对(MSA):利用进化信息——如果两个物种都拥有某种功能性蛋白质,它们共同进化的氨基酸往往在三维空间中相互靠近
- Evoformer:类Transformer的专用模块,联合推理序列和成对距离关系
- 结构模块:利用等变表示直接预测三维坐标,遵循旋转和平移的物理规律
该模型以蛋白质数据库(PDB)中约17万种实验确定的结构为训练集,隐式学习了氨基酸相互作用的物理规律。
影响
AlphaFold 2发布后一年内:
- DeepMind发布AlphaFold蛋白质结构数据库(2021年7月),收录约35万种蛋白质结构,涵盖整个人类蛋白质组
- 至2022年,数据库扩展至2亿种蛋白质结构,覆盖生物学中几乎所有已知蛋白质
- 研究人员利用AlphaFold预测加速了:疫苗研发、癌症研究、抗生素发现、遗传疾病理解及工业酶工程
2024年,Demis Hassabis和John Jumper(AlphaFold首席研究员)获得诺贝尔化学奖——这是首个因AI驱动的科学发现而颁发的诺贝尔奖。
为何意义深远
AlphaFold 2标志着AI首次无可争议地做出了根本性科学发现——不是辅助科学家,而是独立解决了人类科学家无法单独解决的问题。它消弭了"AI作为工具"与"AI作为科学主体"之间的界限。
如果Transformer是解锁语言与推理的架构,AlphaFold则是证明同类方法能解锁生物学、化学乃至物理学的明证。此后每一个"AI for Science"项目——AlphaMissense、AlphaGenome、GNoME(材料)、天气预测——都能追溯到2020年11月的这一时刻。