预训练模型正在席卷 AI 领域。从大规模无标注数据中提取表征信息,再在小范围标注的下游任务上进行监督学习,正在成为很多领域的事实解决方案。NLP 中有 BERT、GPT-3,CV 中有 ViT,而这样的模式如何助力药物设计,也一直都是人们密切关注的问题。药物分子与图片、语言文字的不同之处在于,“什么是最好的分子表征”依旧是一个人们未能形成共识的问题。主流分子预训练模型均从一维序列或二维图结构出发,但分子结构本身是在三维空间中表示的。能否直接从三维信息出发构建预训练模型、获得更好的分子表征,是一个重要而有意义的问题。
近日,深势科技团队发布了首个三维分子预训练模型 Uni-Mol。Uni-Mol 直接将分子三维结构作为模型输入,而非采用一维序列或二维图结构,在利用 2 亿个分子三维构象和 3 百万个蛋白候选口袋数据进行预训练后,Uni-Mol 在几乎所有与药物分子和蛋白口袋相关的下游任务上都超越了 SOTA(state of the art),也让 Uni-Mol 得以能够直接完成分子构象生成、蛋白-配体结合构象预测等三维构象生成相关的任务,并超越现有解决方案。