6个创造性案例示范如何玩转医学大数据

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

导读:生物医学已经并且正在产生海量的数据。对这些数据的开源和利用将产生巨大价值。首届开放科学奖(Open Science Prize)正致力于找到开发利用这些数据的好点子。该奖项自去年10月发布后,接收到了来自45个国家96支队伍的参与。昨天,专家小组宣布了六个进入决赛的名单,从模拟果蝇大脑、病毒传播可视化、到创建罕见病基因库,让我们看看这些进入决赛的队伍是如何玩转生物大数据的。

◆ ◆ ◆

关于开放科学奖

生物医学研究产生了海量数据。许多《IEEE综览》(IEEE Spectrum是电气电子工程师学会发行一个杂志,是电气电子工程师学会的旗舰级出版物,致力于探索前沿科技的发展实现与应用——译者注)所关注介绍的诸如传感器、机器人及其它相关技术会产生出太字节(terabyte, 240字节——译者注)至拍字节(petabyte,250字节——译者注)的数据,而这只是在世界范围内所存储的健康信息容量中微不足道的部分。

如今,三家投资机构正在努力刺激工具和平台的开发,来提高研究者获取和使用这些数据的能力。在华盛顿特区举行的第7届医疗数据研讨会上,(美国)国立卫生研究院(National Institute ofHealth,简称NIH)、总部在英国的威康信托基金(Wellcome Trust)以及霍华德?休斯医学研究所(Howard Hughes Medical Institute)宣布了首届开放科学奖(Open Science Prize)的6支决赛队伍名单。

开发这些类型的工具的部分问题是没人知道谁该为它们负责。(美国)国立卫生研究院的数据科学副主任菲利普?伯恩(Philip Bourne)说:“数据的产生是全球性的,但是数据本质上是由国家管理和资助的。

去年10月发布后,来自45个国家96支队伍参加了这个比赛。昨天,专家小组宣布了六个进入决赛的名单,他们将获得8万美元的资助,在接下来的六个月里继续开发他们的原型。

好了,不多说了,让我们看看这些进入决赛的队伍是如何玩转生物大数据的:

◆ ◆ ◆

MyGene2

罕见疾病并不是你所想象的那么罕见。如今,在美国有超过6千种已知罕见疾病发生在大约2千5百万人的身上。但是,超过一半的家庭经历了基因检测而无法确诊为疑似的罕见疾病。一个名为MyGene2的网站(https://www.mygene2.org/MyGene2/)给家庭和临床医生带来一个分享关于罕见疾病的健康和基因信息的地方,以此来推动检测和发现引发疾病的新的罕见情况和基因。

▲MyGene2页面-根据基因或者家庭ID进行搜索

每个(疑似)罕见疾病家庭信息库都涵盖了故事-健康信息-基因数据-联系方式等资料。其中,故事部分介绍包括照片,患者基本情况,和一个有血有肉的真实故事。以96号家庭为例,作者生动地叙述了自己的女儿Ava患病及被确诊的整个过程。

健康信息则包含了这个家庭成员包括“发热”“出汗”“头疼”等一系列病症的信息。

基因数据部分则可以根据” Inheritance Model”和” Confidence in Pathogenicity”的不同维度生过滤生成报告,发现这个家庭的candidate gene。

  ◆ ◆ ◆

Nextstrain

为了干预和阻止流行病的爆发,科学家们需要尽快得到来自病原体的基因数据。Nextstrain项目从世界各地的研究团体聚集了大量的基因数据近乎实时地进行了病毒传播的可视化。例如,可以查看一下他们关于目前寨卡病毒(Zika virus,http://nextstrain.org/zika/)演变的图片。

这一交互可视化作品记录了从2014年11月到现在Zika病毒的时时变化情况。可以按照“地理位置”和“样本时间”两种维度进行划分。

◆ ◆ ◆

OpenAQ

根据世界卫生组织(World Health Organization)的说法,空气污染是导致8分之1全球死亡病例的罪魁祸首,然而空气质量数据一直被存储在不起眼的网站上,难以访问,同时格式也不一致。OpenAQ平台(https://openaq.org/#/)原型将数据进行了合并和标准化,成为公众可得、实时的空气质量数据。它已经收集和分享了来自13个国家500多个地点的970万空气质量检测数据。

  你可以通过地图查看全球各国的Pm2.5数值。

  当然也可以直接用代码拿走你需要的城市和国家的API原始数据。

  ◆ ◆ ◆

Brainbox

能从互联网上得到的脑成像数据量是难以置信的。相对于其它类型的数据,神经成像数据需要更充足的人力,例如:策划和编辑图像。Brainbox是一个在线实验室,它被设计成方便研究人员访问的脑成像数据库(特别之处是无需下载),并启用分布式协作让每个人能分享努力。(https://www.openscienceprize.org/p/s/1838127/)

◆ ◆ ◆

NeuroArch

尽管在映射整个人类大脑上付出了巨大的努力,一个更短期的目标是映射一个更小的大脑,比如果蝇的大脑,它有着超过70%的涉及人类脑部疾病的类似基因。果蝇大脑瞭望台项目(Fruit Fly BrainObservatory project,https://www.openscienceprize.org/p/s/1998747/)将开放一个名为NeuroArch的开放图像数据库平台,这个平台存储和处理跟果蝇大脑有关的信息,包括位置、形状、每个神经元的连接。

在一个地方存放所有这些数据,可能形成一个模拟的果蝇大脑,在通过遗传或给药进行修改时,可以看到发生的相关变化。

◆ ◆ ◆

OpenTrialFDA

当美国食物和药品管理局(U.S Food and Drug Administration)批准一种药物时,该机构公开发布一系列关于该药物的信息,通常包含先前未公开的临床试验。尽管这些信息相当有价值,但难以获得、收集和搜索。OpenTrialFDA努力建立一个用户友好的网站界面让任何人能访问相关信息,还提供应用接口(API),允许第三方平台接入和搜索数据。



本文转自d1net(转载)


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
分布式计算 监控 大数据
大数据-131 - Flink CEP 案例:检测交易活跃用户、超时未交付
大数据-131 - Flink CEP 案例:检测交易活跃用户、超时未交付
82 0
|
2月前
|
SQL 分布式计算 NoSQL
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
36 1
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
|
2月前
|
分布式计算 大数据 Linux
大数据体系知识学习(二):WordCount案例实现及错误总结
这篇文章介绍了如何使用PySpark进行WordCount操作,包括环境配置、代码实现、运行结果和遇到的错误。作者在运行过程中遇到了Py4JJavaError和JAVA_HOME未设置的问题,并通过导入findspark初始化和设置环境变量解决了这些问题。文章还讨论了groupByKey和reduceByKey的区别。
37 1
|
2月前
|
消息中间件 存储 druid
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
47 3
|
2月前
|
存储 大数据 分布式数据库
大数据-165 Apache Kylin Cube优化 案例 2 定义衍生维度及对比 & 聚合组 & RowKeys
大数据-165 Apache Kylin Cube优化 案例 2 定义衍生维度及对比 & 聚合组 & RowKeys
47 1
|
2月前
|
消息中间件 druid 大数据
大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(二)
大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(二)
40 2
|
2月前
|
消息中间件 分布式计算 druid
大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(一)
大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(一)
60 1
|
2月前
|
存储 SQL 分布式计算
大数据-142 - ClickHouse 集群 副本和分片 Distributed 附带案例演示
大数据-142 - ClickHouse 集群 副本和分片 Distributed 附带案例演示
239 0
|
2月前
|
存储 SQL 分布式计算
大数据-139 - ClickHouse 集群 表引擎详解4 - MergeTree 实测案例 ReplacingMergeTree SummingMergeTree
大数据-139 - ClickHouse 集群 表引擎详解4 - MergeTree 实测案例 ReplacingMergeTree SummingMergeTree
34 0
|
2月前
|
SQL 大数据 API
大数据-132 - Flink SQL 基本介绍 与 HelloWorld案例
大数据-132 - Flink SQL 基本介绍 与 HelloWorld案例
56 0