第一,从现有数据里挖掘,我们曾经汇总了全球所有的商业数据库以及 100+开源 数据库,最后淘汰掉了 95%的数据,这也属于对历史的重新审视;
第二,自己做实验,有针对性地补足一些数据,需要明确数据的化学、生物空间分 布,以最少的数据点推动最优的模型表现;
第三,模拟数据,比如 QM 的计算最准,则先用物理的底层采样,最后用这些数据 去换已经耗费的算力,无需再重新进行计算。
以上内容摘自《2022阿里云生命科学与智能计算峰会演讲合集》电子书,点击https://developer.aliyun.com/ebook/download/7724 可下载完整版
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。