实战药物分子筛选之一_初探

简介: 实战药物分子筛选之一_初探

1. 说明

       基于人工智能的药物分子筛选,是最近在DC大数据平台上看到的一个新比赛.这个题目对于我这种半科盲来说好难.花了一些时间才弄明白它是干嘛的.这是一家药品公词举办的比赛.我理解题目是这样的:给出三种数据:致病蛋白信息(病),小分子信息(药),蛋白和小分子间的亲和力(药和病能否结合),预测N种没见过的致病蛋白与已知的小分子之间的亲和力.简单地说就是知道一些病和药的特征以及它们之间的关系,预测一些新的病用什么药治.具体数据如下:

 

image.png

2. 数据分析

蛋白质由氨基酸组成,氨基酸一共有20种,每一种用一个英文字母表示.蛋白质有四级结构,一级结构是组成蛋白质的氨基酸序列,二三四级还有螺旋折叠什么时,这里我们只考虑其一级结构,即某个蛋白质由哪些氨基酸组成的,它们的长度以及前后顺序是怎样的.在给出的数据(df_protein*.csv)中,氨基酸序列形如: FCIPTSSTIEQQNSTRVRQNTREHPSTANTVDRTNHQLENLEAETAPLP 它是一个由字母组成的序列.最长的一项长度为7023,最短的长度为26个字符.测试集给出了与训练集不同的蛋白质及其序列,用于模拟发现新致病蛋白的场景.

 小分子的数据(df_molecule.csv)中包含分子指纹及对应的18种物化属性,对于训练集和预测集是一样的.而亲和力数据(df_affinity*.csv)是蛋白质和小分子之间的关系(多对多),也是我们要预测的目标.

3. 算法分析

计算的目标是找到有哪些特征的小分子和哪些特征的蛋白质可以结合.小分子数据中包括20个特征,而蛋白质数据只包括氨基酸序列(后简称序列).由于预测集和训练集中的蛋白质没有交集,所以只能通过序列来分析蛋白质的性质.

 比较理想的方法是将把序列拆分成一些氨基酸片断,把是否含有该片断作为蛋白质的特征,代入模型,问题就变成了用小分子的特征和蛋白质的特征预测它们之间亲和力数值大小的回归问题.

 如何拆分序列很关键.有点像自然语言处理(NLP)中,把一个中文句子拆成多个中文词汇,然后找出其中的关键词.而事先并不知道哪些字可以合成一个词,词汇也不定长,具体方法是用一些文章来自我训练,可使用类似Apriori寻找频繁项集的算法.

 从蛋白质的角度看,总是一起出现的字母组合可以看成一个词,在本题中即有意义的片断;从亲和力角度看,如果一个小分子对应的几个蛋白质中都含有相同的片断,可以将其视为有意义的片断.

 当然这里面也有一些坑,比如说某几个蛋白质对应的序列只有一个氨基酸的差异,我们也不能把它们相同的序列都认为是一个有意义的片断,就比如有三个句子:"我喜欢春天的花","我喜欢春天的草","我喜欢春天的树".其中"我喜欢春天的"虽然同时出现了好几次,但明显不是一个词.另外还有大片断包含小片断等等情况.其中的序列长度范围,出现频率都需要边做边调整.

4. 相关知识

(1) IK analyzer

IK Analyzer是一个开源的,基于java语言开发的轻量级中文分词工具包.除了基于字符串的分词,还提供了基于统计和机器学习的分词.

(2) N-Gram

N-Gram是一种语言模型,nltk工具集中包含此工具,它可以评价两个字符串的相似程度.常用于模糊匹配.比如我们可以用它衡量两个蛋白质之间的差异,配合最近邻类的算法使用.但是相对来说,这种算法不容易指向实质.

(3) Gensim的Word2Vec

Word2Vec词向量,可将自然语言中的字词转为计算机可以理解的稠密向量.它描述了每个词和其上下文的词的集合的相关情况.

(4) NCBI

NCBI (National Center for Biotechnology Information)是美国国立生物技术信息中心。在这上面可以查到一些蛋白质序列和DNA序列的信息.

(5) BLAST

BLAST(Basic Local Alignment Search Tool)是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。BLAST程序能迅速与公开数据库进行相似性序列比较。其结果中的得分是对一种对相似性的统计说明。

5. 参考

https://blog.csdn.net/xieyan0811/article/details/79929039

目录
相关文章
|
8月前
|
编解码 算法 数据挖掘
【数据挖掘】聚类趋势估计、簇数确定、质量测定等评估方法详解(图文解释 超详细)
【数据挖掘】聚类趋势估计、簇数确定、质量测定等评估方法详解(图文解释 超详细)
218 0
|
3月前
|
机器学习/深度学习 搜索推荐 数据库
深度学习之药物筛选与发现
基于深度学习的药物筛选与发现是利用深度学习模型自动化和加速药物开发过程的一个重要方向。传统的药物发现过程通常耗时长、成本高,需要大量的实验和计算,而深度学习通过从大规模生物医学数据中学习规律,能够帮助研究人员更快速地筛选潜在药物,并预测其在体内的行为。
95 3
|
6月前
|
机器学习/深度学习 Python
贝叶斯分析与决策理论:用于确定分类问题决策点的应用
在分类问题中,一个常见的难题是决定输出为数字时各类别之间的切分点
73 9
贝叶斯分析与决策理论:用于确定分类问题决策点的应用
|
7月前
|
机器学习/深度学习 数据采集 数据可视化
基于聚类和回归分析方法探究蓝莓产量影响因素与预测模型研究附录
k均值聚类模型多元线性回归模型随机森林模型在数据分析项目中,选择合适的模型是至关重要的。本项目中,我们采用了三种不同的模型来分析蓝莓的生长条件和产量,以确保从不同角度全面理解数据。一、K均值聚类模型K均值聚类模型是一种无监督学习方法,用于根据数据的相似性将样本分成不同的组。在这个项目中,我们使用K均值聚类模型来识别具有相似特征的蓝莓品种。通过聚类分析,我们将蓝莓分为4个类别,每个类别代表了不同的生长条件和产量特性。这种分类有助于我们理解在不同环境条件下,哪些因素对蓝莓产量有显著影响。
基于聚类和回归分析方法探究蓝莓产量影响因素与预测模型研究附录
|
8月前
|
机器学习/深度学习 数据采集 算法
R语言、WEKA关联规则、决策树、聚类、回归分析工业企业创新情况影响因素数据
R语言、WEKA关联规则、决策树、聚类、回归分析工业企业创新情况影响因素数据
|
8月前
|
机器学习/深度学习 数据采集 数据可视化
R语言SVM、决策树与因子分析对城市空气质量分类与影响因素可视化研究
R语言SVM、决策树与因子分析对城市空气质量分类与影响因素可视化研究
|
8月前
|
数据采集 搜索推荐 数据可视化
使用R语言进行药物动力学分析
【4月更文挑战第27天】R语言在药物动力学分析中扮演关键角色,用于数据处理(如dplyr, readr, tidyr包)、模型建立(如drc包的一室、多室模型)、参数估计(nls, nlsList, lme4, FME包)及结果解释(summary, predict, plot, boot, bayesplot包)。通过实例,展示了如何使用R建立药物吸收和清除模型,助力药物研发和个性化医疗。随着数据分析技术发展,R在药物动力学领域的应用将更加广泛。
190 1
|
8月前
|
数据可视化
SPSS用多元逐步回归模型对上证指数预测、描述统计和相关分析可视化研究
SPSS用多元逐步回归模型对上证指数预测、描述统计和相关分析可视化研究
|
8月前
|
机器学习/深度学习 数据可视化 数据挖掘
SPSS用K均值聚类KMEANS、决策树、逻辑回归和T检验研究通勤出行交通方式选择的影响因素调查数据分析
SPSS用K均值聚类KMEANS、决策树、逻辑回归和T检验研究通勤出行交通方式选择的影响因素调查数据分析
|
8月前
|
数据挖掘 网络可视化
R语言APRIORI关联规则、K-MEANS均值聚类分析中药专利复方治疗用药规律网络可视化
R语言APRIORI关联规则、K-MEANS均值聚类分析中药专利复方治疗用药规律网络可视化