6个创造性案例示范如何玩转医学大数据

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

导读:生物医学已经并且正在产生海量的数据。对这些数据的开源和利用将产生巨大价值。首届开放科学奖(Open Science Prize)正致力于找到开发利用这些数据的好点子。该奖项自去年10月发布后,接收到了来自45个国家96支队伍的参与。昨天,专家小组宣布了六个进入决赛的名单,从模拟果蝇大脑、病毒传播可视化、到创建罕见病基因库,让我们看看这些进入决赛的队伍是如何玩转生物大数据的。

◆ ◆ ◆

关于开放科学奖

生物医学研究产生了海量数据。许多《IEEE综览》(IEEE Spectrum是电气电子工程师学会发行一个杂志,是电气电子工程师学会的旗舰级出版物,致力于探索前沿科技的发展实现与应用——译者注)所关注介绍的诸如传感器、机器人及其它相关技术会产生出太字节(terabyte, 240字节——译者注)至拍字节(petabyte,250字节——译者注)的数据,而这只是在世界范围内所存储的健康信息容量中微不足道的部分。

如今,三家投资机构正在努力刺激工具和平台的开发,来提高研究者获取和使用这些数据的能力。在华盛顿特区举行的第7届医疗数据研讨会上,(美国)国立卫生研究院(National Institute ofHealth,简称NIH)、总部在英国的威康信托基金(Wellcome Trust)以及霍华德?休斯医学研究所(Howard Hughes Medical Institute)宣布了首届开放科学奖(Open Science Prize)的6支决赛队伍名单。

开发这些类型的工具的部分问题是没人知道谁该为它们负责。(美国)国立卫生研究院的数据科学副主任菲利普?伯恩(Philip Bourne)说:“数据的产生是全球性的,但是数据本质上是由国家管理和资助的。

去年10月发布后,来自45个国家96支队伍参加了这个比赛。昨天,专家小组宣布了六个进入决赛的名单,他们将获得8万美元的资助,在接下来的六个月里继续开发他们的原型。

好了,不多说了,让我们看看这些进入决赛的队伍是如何玩转生物大数据的:

◆ ◆ ◆

MyGene2

罕见疾病并不是你所想象的那么罕见。如今,在美国有超过6千种已知罕见疾病发生在大约2千5百万人的身上。但是,超过一半的家庭经历了基因检测而无法确诊为疑似的罕见疾病。一个名为MyGene2的网站(https://www.mygene2.org/MyGene2/)给家庭和临床医生带来一个分享关于罕见疾病的健康和基因信息的地方,以此来推动检测和发现引发疾病的新的罕见情况和基因。

▲MyGene2页面-根据基因或者家庭ID进行搜索

每个(疑似)罕见疾病家庭信息库都涵盖了故事-健康信息-基因数据-联系方式等资料。其中,故事部分介绍包括照片,患者基本情况,和一个有血有肉的真实故事。以96号家庭为例,作者生动地叙述了自己的女儿Ava患病及被确诊的整个过程。

健康信息则包含了这个家庭成员包括“发热”“出汗”“头疼”等一系列病症的信息。

基因数据部分则可以根据” Inheritance Model”和” Confidence in Pathogenicity”的不同维度生过滤生成报告,发现这个家庭的candidate gene。

  ◆ ◆ ◆

Nextstrain

为了干预和阻止流行病的爆发,科学家们需要尽快得到来自病原体的基因数据。Nextstrain项目从世界各地的研究团体聚集了大量的基因数据近乎实时地进行了病毒传播的可视化。例如,可以查看一下他们关于目前寨卡病毒(Zika virus,http://nextstrain.org/zika/)演变的图片。

这一交互可视化作品记录了从2014年11月到现在Zika病毒的时时变化情况。可以按照“地理位置”和“样本时间”两种维度进行划分。

◆ ◆ ◆

OpenAQ

根据世界卫生组织(World Health Organization)的说法,空气污染是导致8分之1全球死亡病例的罪魁祸首,然而空气质量数据一直被存储在不起眼的网站上,难以访问,同时格式也不一致。OpenAQ平台(https://openaq.org/#/)原型将数据进行了合并和标准化,成为公众可得、实时的空气质量数据。它已经收集和分享了来自13个国家500多个地点的970万空气质量检测数据。

  你可以通过地图查看全球各国的Pm2.5数值。

  当然也可以直接用代码拿走你需要的城市和国家的API原始数据。

  ◆ ◆ ◆

Brainbox

能从互联网上得到的脑成像数据量是难以置信的。相对于其它类型的数据,神经成像数据需要更充足的人力,例如:策划和编辑图像。Brainbox是一个在线实验室,它被设计成方便研究人员访问的脑成像数据库(特别之处是无需下载),并启用分布式协作让每个人能分享努力。(https://www.openscienceprize.org/p/s/1838127/)

◆ ◆ ◆

NeuroArch

尽管在映射整个人类大脑上付出了巨大的努力,一个更短期的目标是映射一个更小的大脑,比如果蝇的大脑,它有着超过70%的涉及人类脑部疾病的类似基因。果蝇大脑瞭望台项目(Fruit Fly BrainObservatory project,https://www.openscienceprize.org/p/s/1998747/)将开放一个名为NeuroArch的开放图像数据库平台,这个平台存储和处理跟果蝇大脑有关的信息,包括位置、形状、每个神经元的连接。

在一个地方存放所有这些数据,可能形成一个模拟的果蝇大脑,在通过遗传或给药进行修改时,可以看到发生的相关变化。

◆ ◆ ◆

OpenTrialFDA

当美国食物和药品管理局(U.S Food and Drug Administration)批准一种药物时,该机构公开发布一系列关于该药物的信息,通常包含先前未公开的临床试验。尽管这些信息相当有价值,但难以获得、收集和搜索。OpenTrialFDA努力建立一个用户友好的网站界面让任何人能访问相关信息,还提供应用接口(API),允许第三方平台接入和搜索数据。



本文转自d1net(转载)


相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
6月前
|
关系型数据库 MySQL 大数据
大数据新视界--大数据大厂之MySQL 数据库课程设计:MySQL 数据库 SQL 语句调优的进阶策略与实际案例(2-2)
本文延续前篇,深入探讨 MySQL 数据库 SQL 语句调优进阶策略。包括优化索引使用,介绍多种索引类型及避免索引失效等;调整数据库参数,如缓冲池、连接数和日志参数;还有分区表、垂直拆分等其他优化方法。通过实际案例分析展示调优效果。回顾与数据库课程设计相关文章,强调全面认识 MySQL 数据库重要性。为读者提供综合调优指导,确保数据库高效运行。
|
12月前
|
SQL 分布式计算 NoSQL
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
132 1
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
|
12月前
|
分布式计算 大数据 Linux
大数据体系知识学习(二):WordCount案例实现及错误总结
这篇文章介绍了如何使用PySpark进行WordCount操作,包括环境配置、代码实现、运行结果和遇到的错误。作者在运行过程中遇到了Py4JJavaError和JAVA_HOME未设置的问题,并通过导入findspark初始化和设置环境变量解决了这些问题。文章还讨论了groupByKey和reduceByKey的区别。
193 1
|
12月前
|
消息中间件 存储 druid
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
170 3
|
12月前
|
消息中间件 druid 大数据
大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(二)
大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(二)
142 2
|
12月前
|
存储 大数据 分布式数据库
大数据-165 Apache Kylin Cube优化 案例 2 定义衍生维度及对比 & 聚合组 & RowKeys
大数据-165 Apache Kylin Cube优化 案例 2 定义衍生维度及对比 & 聚合组 & RowKeys
172 1
|
12月前
|
消息中间件 分布式计算 druid
大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(一)
大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(一)
182 1
|
12月前
|
存储 SQL 分布式计算
大数据-142 - ClickHouse 集群 副本和分片 Distributed 附带案例演示
大数据-142 - ClickHouse 集群 副本和分片 Distributed 附带案例演示
1018 0
|
12月前
|
存储 SQL 分布式计算
大数据-139 - ClickHouse 集群 表引擎详解4 - MergeTree 实测案例 ReplacingMergeTree SummingMergeTree
大数据-139 - ClickHouse 集群 表引擎详解4 - MergeTree 实测案例 ReplacingMergeTree SummingMergeTree
166 0
|
12月前
|
SQL 大数据 API
大数据-132 - Flink SQL 基本介绍 与 HelloWorld案例
大数据-132 - Flink SQL 基本介绍 与 HelloWorld案例
226 0

热门文章

最新文章