哥伦比亚大学副教授翁春华:大量的医疗数据不正确、不完整并且不可用-阿里云开发者社区

开发者社区> 行者武松> 正文

哥伦比亚大学副教授翁春华:大量的医疗数据不正确、不完整并且不可用

简介:
+关注继续查看

雷锋网(公众号:雷锋网)消息,近日,由HC3i中国数字医疗网、中关村移动互联网产业联盟移动医疗专委会主办的《2017中美智能医疗大数据峰会》在北京召开,众多专家出席探讨了智能医疗大数据存在的问题。

其中哥伦比亚大学医疗信息学系副教授翁春华以“云计算和大数据带来了很好的机会,但拥抱的同时也应该知道数据可能存在的局限性”开始了她的演讲,她指出医疗数据现状令人担忧。

据翁春华副教授介绍,医疗大数据存在的问题有数据质量不高、数据不完整、信息不具体、数据重复、数据分布不均与、信息不集中等。

哥伦比亚大学副教授翁春华:大量的医疗数据不正确、不完整并且不可用

以下是其演讲内容,雷锋网做了精简编辑。

数据不正确

医院常用的疾病分类标准是ICD9/10,诊断信息最常见的问题是粒度不够。ICD的信息本来都是统计出来的,所以真正有意义的深度信息和表型信息应该来自于文本或者是其它更有意义的数据类型。另外,ICD9/10有漏诊和过渡诊断的问题。

如果生成的数据是医生特别忙的时候,他们可能没有时间把正确的代码找出来,只是找几个特别有用的或可以代表病人疾病的数据,漏掉其它非主要的疾病。如果诊断信息不是医生生成,而是专门人员生成,他们可能会漏掉一些经济价值不高的信息。

我们有一次做研究寻找高血压病人,让他们参与有关高血压的临床测试,结果我们发现所有病人都没有关于高血压的ICD9/10数据,医生说因为所有人都有高血压,所以懒得把信息放在病例里,病人患其它疾病时才会把信息放在病例里。可以看到,电子病例的很多信息是否记录是基于记录人的需要,之后信息会被用来重用或做其他研究分析,如果不知道当初记录信息时的筛选标准,有可能产生误导。

还有就是过度诊断的问题,患者的情况不断变化,有可能以前患有的病现在已经治好了,但这些信息还继续留在那里,当你拿到电子病例的时候,可能以为这个病人还患有这种病。如果基于这些信息分析的话,有可能会被误导。

数据不完整

衡量数据是否完整有4个维度,分别是:有多少医疗事件会被记录;数据类型有多少;同一数据类型是否有完整的数据收集结果;是否有具体的数据值。

长老医院有450万病人的电子病历记录,可以说数据是非常庞大的,但如果用这四个维度衡量一下,结果让人大吃一惊。

我们的实验中纳入了390万个病人信息,只有一半左右的病例满足其中一种完整性标准;1/4满足更严格的数据完整性要求,比如其文本信息和来访时间记录吻合或有多个来访记录等;仅有小部分有充分信息或有研究价值;只有0.6%的病历完全符合4种数据完整性定义。

在此之前,我们乐观地认为有海量数据,可以做很多事情。但分析之后,我们才知道在用数据之前衡量一下数据能做什么非常重要。

数据不可用

数据的重复性严重影响数据挖掘的算法结果解释。病人疾病进展记录中54%是重复的,出院记录的30.7%和登记记录完全一样。电子病例中有很多没有价值、不产生新信息的数据,这些数据分析影响特别大,带来偏见和噪音,降低数据的可用价值,其实其中很多信息根本没用。大家都继续粘贴和复制,更加加大了数据的不一致性。如果需要使用要寻找真实的信息和信息来源,但这个过程很困难。如果欲根据其中数据概念的频率了解概念和疾病的相关性,不能直接用,因为频率受重复性的影响,很多概念是通过拷贝生成的。

更多关于雷锋网的人工智能升级传统行业文章,请关注雷锋网AI商业化垂直微信公众号:AI掘金志(ID:HealthAI)


本文作者:张利

本文转自雷锋网禁止二次转载,原文链接


版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
超越最新视频压缩标准H.266,字节跳动编码新技术让视频缩小13%
联合视频专家组 JVET 官网显示,字节跳动设立在美国的研发团队于今年初发起了一项视频压缩技术提案,并命名为 DAM(Deep-filtering with Adaptive Model-selection)。相比 H.266/VVC 最新标准,DAM 能够为视频编码性能带来显著提升,亮度信号 Y 可实现 10.28% 的性能增益。两个色度信号 U 和 V 的性能增益也分别达到 28.22% 和 27.97%。这是业界公开的单个智能编码工具的最佳性能增益。
4 0
AI的哲学系思考—认知不变性与AI
本文从科学认知的不变性(Hard To Vary, HTV)入手,介绍了HTV存在的必要性以及广义上如何基于内部可变性(internal variablity)和外部可变性(external variability)在AI中衡量并实现这种不变性,最后介绍了几个刚刚提出的实现认知不变性的具体标准。
3 0
网易有道词典一个小更新,消除了你和全球一半人类的沟通障碍
完全不懂外语的你也可以拿起手机,和老外直接对话了:甚至不需要选择彼此说着的是什么语言。
5 0
如何让Transformer在GPU上跑得更快?快手:需要GPU底层优化
Transformer 对计算和存储的高要求阻碍了其在 GPU 上的大规模部署。在本文中,来自快手异构计算团队的研究者分享了如何在 GPU 上实现基于 Transformer 架构的 AI 模型的极限加速,介绍了算子融合重构、混合精度量化、先进内存管理、Input Padding 移除以及 GEMM 配置等优化方法。
6 0
不出所料,百度EasyDL市场份额还是第一
在 2020 年的中国机器学习平台市场,百度的 EasyDL 又拿了第一。
3 0
车联网元年来了?全球首款5G智能车正式开卖
一些人还在问「5G 除了跑测速还能做什么」的时候,首款 5G 智能汽车已经向我们走来了。
3 0
两篇AAAI论文,揭示微信如何做文章质量评估
本文介绍了微信搜索数据质量团队在 AAAI 2021 大会发表的两篇研究。
4 0
2020学术会议回顾:从这些最佳论文中一窥研究趋势
2020 年,是充满变化的一年。人工智能学术会议也不例外,线上举办、改革评审制度、增加可复现性要求、伦理要求等,这些是「变」。而不变的是大家对学术会议的热情,以及我们总能透过这些会议探究学术前沿发展趋势。
3 0
【小白视角】大数据基础实践(三)HDFS的简单基本操作
HDFS的简单基本操作 1. 实验环境 2. HDFS 2.1 简介 2.2 体系结构 2.2.1 NameNode 2.2.2 SecondaryNameNode 2.2.3 DataNode 2.2.4 通讯协议 2.2.5 局限性 3. 利用Shell命令HDFS进行交互 3.1 概要 3.2 目录操作 3.3 文件操作 4. 利用web界面管理HDFS 5. 使用JavaApi进行管理HDFS 5.1 导包并测试 5.2 题目 第一题 第二题 第三题 6. 在集群上运行 7. 结语 最后
3 0
+关注
行者武松
杀人者,打虎武松也。
14545
文章
2569
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载