学界 | iPOP:首个基于个性化大数据的个性化医学研究

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 该研究是关于 Mike Snyder 教授的「整合性个人组学图谱」(integrative personal omics profile,iPOP);Mike Snyder 教授是该论文的通讯作者,也是斯坦福大学遗传学系主任。这是首项针对个人的健康与疾病状态进行的大规模 iPOP 研究。该论文于 2012 年发表在 Cell 上。

微信图片_20211128123524.jpg

背景


在基因组的层面上,我们与我们的邻居或者朋友具有 99.9% 的相似性。但正是这 0.1% 的不同,让我们每个人都与众不同。这些微小的遗传变异对于我们的健康具有巨大的影响。因此,疾病的发生过程和我们对于治疗的反应都与我们的基因组序列紧密相关。除了我们的基因组,人与人之间的差异也体现在 RNA、蛋白质和代谢产物的层面上。


长时间段的 iPOP 数据的收集


通过在 14 个月中持续收集 Snyder 教授的血液组分,将来自基因组、转录组、蛋白质组、代谢物组、抗体的图谱的结合起来,最终形成了 iPOP 数据集(图 1)。研究者使用了多种技术(包括全基因组测序、RNA 序列、人类细胞因子检测和质谱分析)来生成这一巨大的数据集(其包含采集自 20 多个时间点,总共超过 30 亿个数据点)。简单来说,基因组图谱提供了个体的基因组序列和种系变异。此外,转录组、蛋白质组、代谢物组和抗体图谱使得人们可以观测到个体在一段时间内基因表达趋势的动态变化。


微信图片_20211128123658.jpg

图 1. iPOP 的实验流程和数据分析方法。PBMC:外周血单核细胞(peripheral blood mononuclear cell)。


在该研究过程中,Snyder 教授受到了两次病毒性感染:(1)第一次是开始于第 0 天的人鼻病毒(human rhinovirus,HRV)感染;(2)第二次是开始于第 289 天的呼吸道合胞病毒(respiratory syncytial virus,RSV)感染。它为研究者提供了在病毒感染的反应期间研究基因表达动态变化的绝佳机会。


iPOP 预测与疾病和药物相关的变异


此前的数十年研究已经鉴定了众多与疾病和药物使用相关的遗传变异(即生物标志物)。因此,研究者首先分析了与疾病和药物应答有关的遗传变异。他们发现 Synder 教授的基因组序列包含多种与疾病相关的罕见变异,包括 2 型糖尿病以及一些与药物应答有关的变异(图 2)。


微信图片_20211128123703.jpg

图 2. 一些重要的与疾病和药物相关的遗传变异示例


用 iPOP 监测糖尿病风险并帮助治疗


在此项研究之前,Snyder 教授并没有与糖尿病相关的已知风险因素,并且从实验一开始时血糖水平是正常的。如上所述,Snyder 在研究过程中受到了 RSV 感染(从第 289 天开始)。显而易见,体内免疫反应激活了。令人意外的是,在其身体对病毒产生应答的同时,胰岛素信号通路表达水平下降,并且血糖水平同时升高,这是开始罹患糖尿病的标志(图 3)。在 RSV 感染后长达数月(第 301 天后),血糖水平持续处于高位。


微信图片_20211128123707.jpg

图 3. 本研究中的血糖水平趋势。有两次病毒感染:从第 0 天开始的 HRV 感染(红色箭头),以及从第 289 天开始的 RSV 感染(绿色箭头)


Snyder教授在改变饮食和运动后,监测显示血糖水平呈逐渐下降的趋势。 这些结果表明,基因组序列可用于预估健康个体的患病风险,并且疾病的生物标志物(本文中的血糖)可用于监测和检测该疾病的治疗情况。


整合性组学分析提供更多的生物医学信息


为了进一步利用转录组和基因组数据,作者对每个时间点的转录组、蛋白质组和代谢组学数据进行了整合分析,观察它们与不同生理状态的相关性(图 4)。特别地,他们着眼于系统地寻找随时间变化的相关模式。为了处理时间序列中的数据异质性和缺失数据,他们使用了一种傅立叶谱分析方法(Lomb-Scargle 变换)来为每个时间序列曲线构建周期图。Lomb-Scargle 方法已被成功应用于天文学中以处理非均匀采样的时间序列数据,也被用于多种形式的生物学问题上。


微信图片_20211128123712.jpg

图 4. 转录组、蛋白质组和代谢组数据的整合分析。数据点被聚类以鉴定疾病相关的生物学通路


该数据集的整合分析证实了之前的发现。它表明,在感染 RSV 后的发病以及后续的应答过程中,机体产生了一个全身性的反应,包括在 RSV 感染后第 18 天有一个明显的应答。在随后的时间点中,多种与感染或者应激应答有关的生物学通路,以及与高血糖水平有关的生物学通路均受到影响,其中包括包括胰岛素应答通路。


结论


iPOP 提供了一个针对健康状态的多维视角,包括健康状况、对病毒的应答、疾病恢复以及糖尿病发病。总而言之,该研究证明利用基于 iPOP 的方法是有助于实现个性化医学的:从基因组序列鉴定疾病风险,并且通过其他分子组分指标监测疾病状态。


通过多种高通量技术将基因组信息与检测生理状态的常规方法结合起来,将有助于个性化医学的实现。从这项研究产生的丰富数据将是个性化医学发展领域的宝贵资源。


最后,该论文的作者创建了一个网站,以方便人们使用 iPOP 资源(http://snyderome.stanford.edu)。

微信图片_20211128123717.jpg

图 5. 提供 iPOP 数据和结果的网站


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
机器学习/深度学习 搜索推荐 大数据
大数据与医疗健康:个性化治疗的未来
【10月更文挑战第31天】大数据正以前所未有的方式重塑医疗健康领域,推动个性化治疗从理论走向现实。本文探讨了大数据在医疗健康中的应用,特别是在推动个性化治疗发展方面的潜力与挑战,包括数据挖掘、电子健康记录、远程医疗等方面的技术创新,以及面临的数据安全和隐私保护等问题。未来,大数据将助力医疗健康领域更加智能和人性化。
|
3月前
|
人工智能 分布式计算 大数据
超级计算与大数据:推动科学研究的发展
【9月更文挑战第30天】在信息时代,超级计算和大数据技术正成为推动科学研究的关键力量。超级计算凭借强大的计算能力,在尖端科研、国防军工等领域发挥重要作用;大数据技术则提供高效的数据处理工具,促进跨学科合作与创新。两者融合不仅提升了数据处理效率,还推动了人工智能、生物科学等领域的快速发展。未来,随着技术进步和跨学科合作的加深,超级计算与大数据将在科学研究中扮演更加重要的角色。
|
4月前
|
存储 数据可视化 数据挖掘
大数据环境下的房地产数据分析与预测研究的设计与实现
本文介绍了一个基于Python大数据环境下的昆明房地产市场分析与预测系统,通过数据采集、清洗、分析、机器学习建模和数据可视化技术,为房地产行业提供决策支持和市场洞察,探讨了模型的可行性、功能需求、数据库设计及实现过程,并展望了未来研究方向。
213 4
大数据环境下的房地产数据分析与预测研究的设计与实现
|
4月前
|
机器学习/深度学习 数据采集 大数据
2022年第三届MathorCup高校数学建模挑战赛——大数据竞赛 赛道B 北京移动用户体验影响因素研究 问题一建模方案及代码实现详解
本文详细介绍了2022年第三届MathorCup高校数学建模挑战赛大数据竞赛赛道B的题目——北京移动用户体验影响因素研究,提供了问题一的建模方案、代码实现以及相关性分析,并对问题二的建模方案进行了阐述。
98 0
2022年第三届MathorCup高校数学建模挑战赛——大数据竞赛 赛道B 北京移动用户体验影响因素研究 问题一建模方案及代码实现详解
|
4月前
|
机器学习/深度学习 自然语言处理 数据可视化
基于Python大数据的京东产品评论的情感分析的研究,包括snwonlp情感分析和LDA主题分析
本文探讨了基于Python大数据技术对京东产品评论进行情感分析的研究,涵盖了文本预处理、情感分类、主题建模等步骤,并运用了snwonlp情感分析和LDA主题分析方法,旨在帮助电商企业和消费者做出更明智的决策。
157 1
基于Python大数据的京东产品评论的情感分析的研究,包括snwonlp情感分析和LDA主题分析
|
4月前
|
机器学习/深度学习 数据采集 大数据
2022年第三届MathorCup高校数学建模挑战赛——大数据竞赛 赛道B 北京移动用户体验影响因素研究 问题二建模方案及代码实现详解
本文详细介绍了2022年第三届MathorCup高校数学建模挑战赛大数据竞赛赛道B的问题二的建模方案和Python代码实现,包括数据预处理、特征工程、模型训练以及预测结果的输出,旨在通过数据分析与建模方法帮助中国移动北京公司提升客户满意度。
80 2
|
6月前
|
数据采集 搜索推荐 大数据
基于大数据的市场分析与消费者行为研究
【6月更文挑战第5天】大数据在市场分析与消费者行为研究中扮演关键角色。通过海量数据分析,企业能更全面、精准地了解消费者偏好和市场趋势。Python等工具帮助处理数据,揭示购买习惯,支持个性化营销策略。同时,大数据使深入理解消费者心理、决策过程成为可能,助力企业优化产品,提升客户满意度和忠诚度。在这个数据驱动的时代,大数据是洞悉市场和消费者的魔法力量。
218 2
|
7月前
|
SQL 分布式计算 Hadoop
[AIGC ~大数据] 深入理解Hadoop、HDFS、Hive和Spark:Java大师的大数据研究之旅
[AIGC ~大数据] 深入理解Hadoop、HDFS、Hive和Spark:Java大师的大数据研究之旅
192 0
|
7月前
|
人工智能 安全 大数据
喜报|瓴羊Dataphin入选上海市经信委2023创新攻关成果、IDC企业大数据治理研究代表产品
喜报|瓴羊Dataphin入选上海市经信委2023创新攻关成果、IDC企业大数据治理研究代表产品
107 0
|
存储 人工智能 Cloud Native
云原生大数据架构实践与思考-DataFunTalk
导读: 作者:振策-阿里云计算平台-产品解决方案, 20230805 本文将分享当前云原生大数据架构的发展历程/架构定义/核心能力/应用场景及趋势思考。主要包括以下四个部分: - 从大数据上云看架构 - 云原生数据平台的核心能力 - Data+AI with Cloud-Native - 未来趋势与思考
2095 0