PrecisionFDA:多组学样本错标校正挑战赛

简介: PrecisionFDA:多组学样本错标校正挑战赛

 多组学联合分析是指对来自不同组学,如基因组学、转录组学、蛋白组学和代谢组学等的数据进行统一处理、比较分析,用以探究生物学问题。由于生物过程具有复杂性和整体性,多种物质共同影响生命系统的表型和性状,例如环境、基因、mRNA、调控因子、蛋白、代谢等,这些组学之间,既相互独立,又互相影响,既有很大的差别,又有相似之处。


多种多样的组学联合分析将不同层面之间信息进行整合,可从不同的组学角度共同探究生物体内潜在的调控网络机制,从而可以更深层次理解各个分子之间的调控及因果关系,更深入的认识生物进程和疾病过程中复杂性状的分子机理和遗传基础。



 


与传统的“大数据”机器学习问题不同,多组学的主要挑战在于其小样本、高维度的特质,即每个样本都有深层数据。Sentieon在多组学数据的联合分析应用中同样有着出色的表现。Sentieon 不断将机器学习和AI 应用到多组学分析中,以实现softPharma更广阔的视野。自2018年以来,Sentieon 参加并赢得了 PrecisionFDA的三项多组学 AI 建模挑战,展示了其解决这些问题的能力。



我们将分三期详细介绍Sentieon参加的多组学数据分析挑战赛。



  • 2018-2019 Multi-omics Enabled Sample Mislabeling Correction Challenge;

  • 2019-2020 Brain Cancer Predictive Modeling and Biomarker Discovery Challenge;

  • 2020 COVID-19 Risk Factor Modeling Challenge.


2018-2019多组学样本错标校正挑战赛


在2018年的FDA多组学数据样本错误标记校正的挑战赛中,主办方共提供了160位病人的临床数据,记录了每个样本的临床特征(样本性别,肿瘤MSI评分),4118蛋白组表达量及17447 mRNA数据。其中以80个样本作为训练集,其余作测试集,每组数据集中包含12个错误标签。目的是通过分析不同组学数据之间的相关性,找出错误标签的数据并进行纠正。本次挑战赛的难点在于如何对缺失数据进行填充,以及在面临小样本,高维度问题时的解决方案。



 


在数据预处理阶段,由于数据集存在部分标签缺失的问题,Sentieon是基于生物学知识将部分空白数据置为0,并结合nearest neighbor拟合的方法对组学数据进行清洗。

在特征筛选阶段,由于数据集存在“小样本,高维度”的问题,为避免模型过拟合,Sentieon使用了LASSO, NSC,ANOVA的方法,通过构建多个模型并对模型结果进行融合,以此评估每个基因与临床标签的相关性,从而有效的降低了数据特征维度,将特征维度从几万多个位点降到几百甚至几十个位点,筛选出与临床标签具有强相关性的基因列表。



通过上述方法,在本次挑战赛的Sub-challenge 1分项赛中,基于蛋白组学数据,Sentieon还引入Label-Weighted randomized k-NN模型对偏移数据进行校正,并同时训练多个分类器,分别计算蛋白表达量与性别,MSI的相关性,最后再对各分类器结果进行综合判断。测试结果显示,Sentieon的训练模型特异性达到100%,准确度得分为0.86,排名第一。



在Sub-challenge 2分项赛中,最大难点是如何融合分析蛋白组及mRNA数据。Sentieon通过回归模型将RNA-seq数据对应映射到蛋白组数据,将样本匹配问题转换为NxN矩阵的minimal distance问题。



 



测试结果显示,Sentieon的训练模型可完美找出每个错标样本,并且将各个错标样本进行纠正,夺得挑战赛冠军。


 


软件试用:Sentieon基因数据分析加速软件 -官方试用下载 (insvast.com)

目录
相关文章
|
7月前
|
机器学习/深度学习 编解码 定位技术
【论文速递】ECCV2022 - 密集高斯过程的小样本语义分割
【论文速递】ECCV2022 - 密集高斯过程的小样本语义分割
|
算法
【分布鲁棒和多目标非负矩阵分解】基于DR-NMF的对NMF问题噪声模型的识别鲁棒性研究(Matlab代码实现)
【分布鲁棒和多目标非负矩阵分解】基于DR-NMF的对NMF问题噪声模型的识别鲁棒性研究(Matlab代码实现)
|
7月前
|
机器学习/深度学习 XML 编解码
ENVI实现最小距离法、最大似然法、支持向量机遥感图像监督分类与分类后处理操作
ENVI实现最小距离法、最大似然法、支持向量机遥感图像监督分类与分类后处理操作
317 1
|
数据安全/隐私保护
DetectGPT:使用概率曲率的零样本机器生成文本检测
DetectGPT的目的是确定一段文本是否由特定的llm生成,例如GPT-3。为了对段落 x 进行分类,DetectGPT 首先使用通用的预训练模型(例如 T5)对段落 ~xi 生成较小的扰动。然后DetectGPT将原始样本x的对数概率与每个扰动样本~xi进行比较。如果平均对数比高,则样本可能来自源模型。
288 0
|
数据挖掘
模糊聚类在负荷实测建模中的应用(Matlab代码实现)
模糊聚类在负荷实测建模中的应用(Matlab代码实现)
【 PMU】信号生成、采样、分割、估计器应用和误差计算(Matlab代码实现)
【 PMU】信号生成、采样、分割、估计器应用和误差计算(Matlab代码实现)
|
机器学习/深度学习 算法 固态存储
目标检测误检与负样本问题
目标检测误检与负样本问题
443 0
|
机器学习/深度学习 传感器 算法
【ANFIS 回归预测】基于平均定位误差 D 的 ANFIS 实现数据非线性回归附matlab代码
【ANFIS 回归预测】基于平均定位误差 D 的 ANFIS 实现数据非线性回归附matlab代码
|
传感器 机器学习/深度学习 分布式计算
基于Matlab实现表征 DSERN 图像传感器的单样本光子计数直方图期望最大化算法 (PCH-EM)
基于Matlab实现表征 DSERN 图像传感器的单样本光子计数直方图期望最大化算法 (PCH-EM)
|
机器学习/深度学习 人工智能 算法
论文推荐:ScoreGrad,基于能量模型的时间序列预测
能量模型(Energy-based model)是一种以自监督方式执行的生成式模型,近年来受到了很多关注。本文将介绍ScoreGrad:基于连续能量生成模型的多变量概率时间序列预测。如果你对时间序列预测感兴趣,推荐继续阅读本文。
298 0