基于机器学习算法的AI模型需要持续地通过数据来迭代、优化以提升其在药物研发中计算性能和预测结果的精度。近些年来,可用于算法训练的数据量在迅速增加,但总体来说,这些数据的质和量仍存在不少挑战,比如特定任务可用的数据过少、负样本数据缺失等,这些因素制约了AI药物发现领域的发展。另一方面,这些数据资源通常分布于不同的制药公司、生物技术公司、科研院校和医疗机构之中,对于他们来说,数据的产生与积累来之不易,代价高昂,如果按照传统的方法来分享数据,数据极有可能被数据使用方分享和留存,造成数据资产泄露和流失。这些涉及数据资产安全和隐私合规保护方面的问题,给AI药物发现公司与数据源方的数据协作带来了重重困难。