医工结合之路:草木蔓发,春山可望 | 专访清华统计中心俞声

简介:

清华大学统计学研究中心助理教授俞声,主要的研究方向是基于电子病历的数据分析,他与数据科学研究院的合作始于数据院和清华大学临床医学院合作搭建清华临床医学科研数据平台(以下简称:医学数据平台)。“我们自己去跟医院谈合作,不一定能引起人家的兴趣,医学数据平台的搭建促使我们能够更好的使用医疗数据做研究。”和长庚医院深度合作,俞声认为医学数据平台功不可没。

俞声有着丰富的国外医疗数据统计分析经验,即使是回国后,在与数据院合作之前,他的研究对象依然以美国电子病例为主。相较于国外成熟的医疗数据体系,国内医疗数据的收集、开放、处理都面临着诸多困难。“早期我主要研究美国的电子病历,诸如退伍军人系统这类最优质的数据我们都能拿到,数据根据一套严格的管理规范允许我们使用。但是国内相关的环境和规定还不完善,医院大都不敢提供数据,”他为我们分析道。“另外,中文病历的分析难度也比英文更大。美国有非常完备的术语库,类似字典,包括标准术语和各种常见变体、缩写,可以用来辅助识别病历中的各种医学概念,将文字转化为变量。中文没有类似完整的术语库,所以一方面我们需要开发额外的术语自动识别技术,另一方面也希望国家加大医学信息基础设施建设的投入。”

除了医疗数据的使用和规范之外,国外的医疗数据研究团队也有相对成熟的模式。俞声跟我们介绍,美国研究医学问题的团队历来都会配备生物统计学家,医学背景的人提出研究问题,生物统计学家会帮助设计实验、建立模型、排除干扰变量,并对结果的解读提供统计学指导。“但是在国内,医生很少和统计学家合作科研。”俞声说,“所以数据院和临床医学院搭建的医学数据平台是非常有意义的。联合医学专家和数据科学领域专家,大家术业有专攻。像我个人是有统计和计算机交叉的知识背景,与医学专家合作,我们可以发现许多新问题,从新的角度去解决问题,例如自然语言处理、深度学习这些技术都可以帮助有效处理医疗数据。”

通过医学数据平台,俞声团队在肝癌、脑卒中自由文本数据的信息提取、病历文本挖掘等方面都与医院展开了合作。医院提出和临床直接相关的医学问题并提供数据支持,俞声团队则提供技术支持并进行统计分析,得出和临床相关的结论。“为了数据安全,原始病历数据不能离开医院,所以实际上我们要处理什么数据,都要往医院跑,路上会比较辛苦。”提及与医院合作的过程,俞声有不少感慨:“数据院正在建立的医学数据平台,可以实现数据脱敏,并允许清华IP远程读取存储在医院服务器上的数据,远程处理之后传回结果。相当于数据还是留在医院,但是我们远程就可以实现处理和分析,就不用每次都奔波往返于医院和学校之间了。”

平台还在不断搭建和完善,国内医疗与大数据结合的工作还有许多困难需要克服。俞声相信,数据院和长庚医院的合作模式将会给全国带一个好头。在数据院的推动下,“医工结合”这条路已然草木蔓发,春山终可望!


原文发布时间为:2018-06-11

本文作者:数据派

本文来自云栖社区合作伙伴“数据派THU”,了解相关信息可以关注“数据派THU”。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
CDN
静态资源库CDN服务
使用静态资源库可以访问线上资源文件,比如jquery库、bootstrap库。使用百度静态资源库的居多,但是发现百度暂时不支持https协议,bootcdn是一个不错的选择。
3643 0
|
机器学习/深度学习 TensorFlow 算法框架/工具
使用Python实现深度学习模型:智能数据隐私保护
使用Python实现深度学习模型:智能数据隐私保护 【10月更文挑战第3天】
628 0
|
存储 运维 监控
超越传统模型:从零开始构建高效的日志分析平台——基于Elasticsearch的实战指南
【10月更文挑战第8天】随着互联网应用和微服务架构的普及,系统产生的日志数据量日益增长。有效地收集、存储、检索和分析这些日志对于监控系统健康状态、快速定位问题以及优化性能至关重要。Elasticsearch 作为一种分布式的搜索和分析引擎,以其强大的全文检索能力和实时数据分析能力成为日志处理的理想选择。
864 6
|
弹性计算 运维 Cloud Native
阿里云罗晶分享 | X86+ARM,容器服务 ACK 多架构应用部署最佳实践
2023年8月31日,系列课程第五节《X86+ARM,容器服务ACK多架构应用部署最佳实践》正式上线,由阿里云云原生应用平台产品专家罗晶主讲,内容涵盖:容器服务ACK简介;ACK支持倚天ARM实例;ACK多架构应用部署最佳实践。
|
存储 SQL 关系型数据库
|
SQL 存储 缓存
【MySQL】一文了解MySQL的基础架构及各个组件的作用
不管是开运、运维、测试,都或多或少的要接触MySQL,了解MySQL的基础架构及各个组件之间的关系,有助于我们更加深入的理解MySQL
1363 6
【MySQL】一文了解MySQL的基础架构及各个组件的作用
|
设计模式 前端开发 安全
理解最常用的MVC分层模型及其变种
【6月更文挑战第24天】 本文介绍架构模式如MVC、MVVM和MVP是解决软件结构问题的通用方案。。每种模式有其优缺点,适用场景不同。
904 0
理解最常用的MVC分层模型及其变种
|
存储 NoSQL 算法
理解JWT的使用场景和优劣
理解JWT的使用场景和优劣
1553 0
|
网络架构
IP 地址规划实例
IP 地址规划实例小知识
618 0
IP 地址规划实例
|
Java
18、Java——NullPointerException异常的原因和解决办法
18、Java——NullPointerException异常的原因和解决办法
1538 0
18、Java——NullPointerException异常的原因和解决办法