在此前的一次苗头化合物发现的项目中,当时我们需要将 PubChem40 万化合物库 的化学空间较好地进行表征与筛选。我们使用主动学习策略训练深度学习模型并筛 选化合物库,在主动学习进行 5 轮迭代后,错误率由最初的 7.98%下降到了不足万 分之一。与此同时,依靠专家经验不停地增广训练数据样本,训练数据样本仅增加 了 1500 余个。总共 2800 多个的训练数据量并不是很大,但它使得机器学习模型表 现出比较强的辨别能力,可以辨别 40 万化合物库中化学空间的情况。 同时,我们对项目中 37 个实验数据进行回溯性验证。从最初的模型到第五个模型, 准确率由 75%提升至 86%。以上内容摘自《2022阿里云生命科学与智能计算峰会演讲合集》电子书,点击https://developer.aliyun.com/ebook/download/7724 可下载完整版
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。