2022年7月,Deepmind宣布破解了已知的2.14亿个蛋白质结构,在业界惊叹声中为生命科学领域新药研发按下加速键。自那之后,全球的AI蛋白质结构预测、AI蛋白质分子设计等赛道如火如荼。

国外,Meta AI继续探索细菌、病毒和其他尚未被表征的微生物分子结构,预测规模上升至6亿个。国内,多家AI创新制药公司在这一技术上取得进一步突破,并在全球持续蛋白质结构预测竞赛(CAMEO)取得足以媲美Alphafold的好成绩。

AIGC:戴着枷锁的创新

蛋白质是生物体内至关重要的生物大分子,它们参与细胞生命过程中的几乎所有活动。蛋白质在细胞中折叠后的形状与其执行的功能密切相关,准确预测蛋白质结构、确定蛋白质的三维坐标对于理解生物学现象至关重要。

然而,基于物理实验以及分子动力学的传统方法耗时耗力,收效甚微。数据显示,AI技术的引入大幅提高了蛋白质结构预测的效率与蛋白质分子设计的成功率。2016年-2020年,蛋白质结构预测精度提高了50多分,远超此前20多年的研究所取得的成果,也改变了很多分子生物学家研究蛋白质的行为方式。

但现有的蛋白质结构预测模型AlphaFold2在蛋白质复合物结构预测、蛋白质和其他分子的相互作用预测,以及蛋白质的改造与从头设计上,仍有很大的发展空间。

“现在的生成式AI更多是在模仿数据集里的分布,它可以杂糅已有的元素,最终得到一个数据集中原先完全不存在的东西。”上海赛陇生物创始人冀鼎觉告诉动点科技记者,与人相比,AI具备低成本大批量地实时生成新内容的能力,这是其优势也是其限制所在,因为新内容无法跳出原有数据的框架。

赛陇生物创始人冀鼎觉

冀鼎觉认为,生成式AI下一步的突破点在于如何通过已有的数据池得到的信息,获得一个相对更新或过去没有获得的排列组合。

赛陇生物成立于2021年,其正在推进的智能实验大脑项目旨在设计以蛋白质为代表的大分子药物以及可编程的工程分子,提供端到端的数字化解决方案。2022年6月起,赛陇生物先后获得银杏谷资本、奇绩创坛、IMO创投与零一创投的投资。

虽然规模尚无法匹敌传统AIGC模型,但赛陇生物的模型已呈现出产生新数据的能力。通过GPT框架下的NLP模型,赛陇生物已成功生成了新的抗体序列。

最高40倍评价效率提升

在突出的分子建模与设计能力的基础上,赛陇生物更专注与实验室联动的算法解决方案。基于人工智能和优化算法技术,赛陇生物可快速在实验中发现可以用于测试的蛋白质分子样本,并在样本测试后快速反馈到模型中心,建立一个新的符合体系的机器学习模型进行进一步的实验设计与样本推荐,使其以较小的迭代成本获得所需的蛋白质分子并形成一个单实验的闭环。

目前,赛陇生物的研发投入主要由三部分组成:一是人力成本,其研发人员多为国外顶级名校的海归博士,在智能硬件、自动驾驶、医学、互联网、生物学、物理学、化学、计算机等领域有着丰富的行业经验;二是算力成本,赛陇生物已具备可支持10个以上项目的算力,目前已在漕河泾创业中心进行了算力部署,已配备NVIDIA A100显卡支持大模型的运行;三是实验成本,也是目前占比最高的成本支出,因为模型的迭代需要基于真实世界的反馈,意味着必须获得真实完整的实验结果,赛陇通过外部合作伙伴进行数据验证实现了实验闭环。

不同于过去大批量采购、积累数据进行模型训练以获取较高的榜单数值的方式,赛陇生物的解题思路是小批量多次。

赛陇生物的智能实验大脑项目主要分为两个步骤:步骤一,判断已有的蛋白质分子属性,例如通过候选分子与靶点的亲和力判断其药物有效性,赛陇生物的模型可将这一过程的时间缩短为传统算法的四十分之一;步骤二,在快速得到评价结果的底层架构上,赛陇可以大通量快速度地进行分子优化,降低后续试错成本,这也是赛陇生物技术平台的优势所在。

同时,赛陇生物不仅会考虑模型本身的精度,更注重如何向模型喂养能让其学到知识的数据,在此基础上进行实验并得到有效可泛化的数据反馈。

探秘生物大分子

当前,AIGC产业处于爆发初期远未成熟,AI蛋白质结构预测仍是基于相似性的检索产生一些合乎逻辑的结果。基于持续的算力开发与数据分享,AI生成非天然并可成药分子的那一天有望尽快到来。

赛陇生物目前的蛋白质结构预测与设计主要集中于单克隆抗体,之后将逐步丰富抗体的类型,计划包含ADC、双特异性抗体、多特异性抗体等。此外,赛陇生物也在尝试进行核酸相关的研究。药物研发应用之外,赛陇生物还将以设计工程蛋白探索合成生物学领域。

为降低测试成本,赛陇也在积极寻求下一轮融资,着手建立自己的实验室,拓展实验规模并提升学习能力。预计2023年底,赛陇将构建小型的自动化实验平台,以便快速实现实验闭环并将迭代速度逐渐提升至接近国际水准。赛陇还在进行迭代算法的测试,计划丰富采样策略,结合NLP与图模型得到更丰富的生成类模型,丰富已有的抗体库。