用增强的联邦学习应对药物发现数据小和偏的困境

简介: 用增强的联邦学习应对药物发现数据小和偏的困境

众所周知,人工智能在药物研发中的应用需要大量的高质量数据,来实现良好的预测性能。

然而,AI制药的发展往往面临数据获取的挑战。药物研发数据 (尤其是药物开发后期阶段的数据) 生成过程耗时、昂贵且保密性极强,严重影响了制药公司及相关数据方分享数据的意愿。

此外,科学研究中的数据偏差也困扰着人工智能在药物发现中的应用。比如,一个特定的药物分子的性质在不同来源的记录中存在很大的差异,即使是在相同的科学测试中。

数据获取的困难和科学试验数据的偏差问题,大大限制了人工智能在药物发现中的应用效果。

目录
相关文章
|
23天前
|
存储 人工智能 自然语言处理
《数据孤岛:AI模型训练之殇,精度与泛化的双重困境》
在人工智能快速发展的今天,数据是模型的“燃料”。然而,数据孤岛现象——即数据因系统、管理和流程原因被孤立存储,缺乏有效整合——正严重阻碍AI的发展。据调研,40%的企业存在50多个数据孤岛,这一问题导致AI模型训练精度和泛化能力下降,影响从医疗诊断到自动驾驶等多领域的应用效果。解决数据孤岛需要企业、科研人员及政府共同努力,通过统一数据标准、创新技术和完善政策,促进数据共享与融合,推动AI技术释放更大价值。
62 19
|
3月前
|
机器学习/深度学习 人工智能 算法
《C++助力无监督学习:挖掘数据潜在结构的高效之道》
在无监督学习中,聚类分析与降维算法至关重要,它们能从未标记数据中发现隐藏结构。使用C++实现时,通过高效计算数据点相似度、优化K-Means算法初始化及采用随机化PCA等技术,可显著提升模型训练和评估的效率。C++的内存管理和多线程特性进一步增强了算法的性能,使其在数据挖掘、图像识别等领域发挥重要作用。
70 11
|
2月前
|
数据采集 人工智能 监控
《平衡之策:C++应对人工智能不平衡训练数据的数据增强方法》
本文探讨了在C++中处理数据不平衡问题的方法,包括几何变换、颜色变换、噪声添加和样本合成等数据增强策略,旨在提升AI模型的性能与可靠性,为C++开发者提供实用指导。
|
3月前
|
机器学习/深度学习 人工智能
大模型合成数据机理分析,人大刘勇团队:信息增益影响泛化能力
中国人民大学刘勇团队研究了合成数据对大型语言模型泛化能力的影响,提出逆瓶颈视角,通过“通过互信息的泛化增益”(GGMI)概念,揭示了后训练模型的泛化能力主要取决于从生成模型中获得的信息增益。这一发现为优化合成数据生成和后训练过程提供了重要理论依据。
96 1
|
4月前
|
机器学习/深度学习 搜索推荐 大数据
深度解析:如何通过精妙的特征工程与创新模型结构大幅提升推荐系统中的召回率,带你一步步攻克大数据检索难题
【10月更文挑战第2天】在处理大规模数据集的推荐系统项目时,提高检索模型的召回率成为关键挑战。本文分享了通过改进特征工程(如加入用户活跃时段和物品相似度)和优化模型结构(引入注意力机制)来提升召回率的具体策略与实现代码。严格的A/B测试验证了新模型的有效性,为改善用户体验奠定了基础。这次实践加深了对特征工程与模型优化的理解,并为未来的技术探索提供了方向。
223 2
深度解析:如何通过精妙的特征工程与创新模型结构大幅提升推荐系统中的召回率,带你一步步攻克大数据检索难题
|
9月前
|
数据采集 算法 大数据
【专栏】大规模数据处理在数据化时代的重要性、应用领域以及面临的挑战
【4月更文挑战第27天】随着信息技术发展,数据成为驱动社会和经济的核心。大规模数据处理技术助力企业优化决策、推动科研创新、促进社会治理现代化,广泛应用于金融、电商、医疗等领域。然而,数据质量、安全、技术更新、法律伦理等问题也随之而来,需通过建立数据管理体系、加强技术研发、人才培养和法规建设等策略应对。大规模数据处理技术在变革生活的同时,其健康发展至关重要。
275 2
|
9月前
|
存储 数据可视化 大数据
大数据分析与处理:探索数据的深层价值
大数据分析与处理:探索数据的深层价值
134 2
|
9月前
|
机器学习/深度学习 算法 前端开发
瞄准核心因素:Boruta特征选择算法助力精准决策
瞄准核心因素:Boruta特征选择算法助力精准决策
863 0
|
9月前
|
机器学习/深度学习 供应链 算法
智能供应链中的预测算法:理论与实践
智能供应链中的预测算法:理论与实践
308 1
|
机器学习/深度学习 自然语言处理 搜索推荐
个性化推荐系统中的深度模型:理论、实践与挑战
个性化推荐系统中的深度模型:理论、实践与挑战
461 0