周轶璐教授:服务好医生,如何更全面地了解数据、利用数据?-阿里云开发者社区

开发者社区> 雷锋网> 正文

周轶璐教授:服务好医生,如何更全面地了解数据、利用数据?

简介:

进入2017年,人工智能与医疗的结合受业界瞩目,后者被认为是AI最有可能率先实现商业化的领域。在此背景下,人工智能到底该如何与医学场景真正结合?或者说AI能为医疗行业带来些什么?

美国福特汉姆大学副教授周轶璐在近日的一个论坛上给出了他的看法。

在他看来,现在各处都有医疗的相关数据,这些数据杂乱无章,如果利用AI就能很好地将这些数据分类,进而更好地为医护人员提供便利;另外,如果利用数据挖掘及机器学习的方法对这些数据进行分析,还可以知悉数据背后的“含义”,从而发现病灶并预测个人的健康状况。

值得一提的是,通过AI还可以预估相关医疗设备可能出现的故障以及时间,实现从事后的维修到事前的预警监测,实现高效地医疗设备管理。

以下是周轶璐的大会分享,雷锋网(公众号:雷锋网)作了不改变原意的编辑及修改:

很高兴今天有机会在这里跟大家分享一些关于医学信息化和智能化方面的研究进展,以及我与成都数联医信公司一起合作的一些项目。

我今天原本的演讲题为《Medical Informatics And Intelligence》。美国有些机构在很早之前就已经着手研究此类课题,我当时在想如何才能将其准确翻译成中文,一开始是医疗信息化与智能化,后来我管它叫医学,因为我认为它应该是个比医疗更广泛的概念。

那么在医学领域,我们怎么看待信息化、智能化呢?可以从大数据中去体现他们的价值。

如今我们有很多数据,拿病患信息来说,现在很多医院都还是纸质信息,原因在于患者在不同时期于各个医院的就诊信息并没有共享。而信息化就是通过云服务等过程将这些信息电子化并实时共享。

大数据也并不是说数据足够大、足够多,而是体现在数据的多样性及实用性。所谓多样性就是一个病人的信息可能不仅仅是存在医院里面的一些数据,而是与这个患者相关的所有信息。比如说如果研究传染病学的话,其实就可以了解与其接触的的各个人,这些其实都是医学信息化的一部分。

数据信息化之后,AI的出现就显得是那么“合乎时宜”。

AI其实就是在信息化的数据中寻找出模型,然后把模型应用到其他数据上去。IBM在2011年有一个电视问答节目,如果选手答对所有题就会赢得一大笔奖金,而最后获胜者就是IBM Watson。要知道,在AlphaGo出来之前,它在美国也引起了较大轰动。

其实它背后用到的就是大量的文本训练、自然语言处理以及对语义的理解。当IBM有了足够数据就可以训练机器做任何事情。目前在医学领域,也有一个Doctor.Watson,它一直“深耕”在医疗领域,目前已经学习了3000多本医疗书籍、69个Guidelines,超过10万个医学相关的测试。在这个过程中,怎样把这些信息集成起来植入“Watson”的大脑中其实是非常困难的。

接下来,我会分享一些我自己参与的研究项目和案例,但是在这之前我想讲两个概念。

一、这些项目中的核心参与者是谁?核心内容是什么?

  • 政府:政府利用这些数据做信息标准化、信息集成和信息分享。在美国,信息分享是个非常大的问题,各个州是联邦制,各个州之间的信息也相互不开放,如果说纽约州的病人到了加州,这个信息就不一定能连接的上;在警察局也有同样的问题;

  • 医院:医院会收集病人就诊的一些信息,但这些数据太过碎片化;

  • 患者:患者目前会产生很多信息,但它不仅仅局限于医院,很大一部分在社交媒体上,尤其是抑郁症、糖尿病等慢性疾病患者,我们可以看到在很多网站上,病人之间在相互分享他们如何用药、用药以后的反应,这些数据其实对于疾病的治疗也非常重要;

  • 设备:之前我们关注的焦点总是在政府、医院以及患者,但其实设备这块也值得被关注,医院拥有大量医疗设备,比如放射科的CT,ICU的呼吸机等。国内目前有2.8万多家专业医院,近100万家医疗机构,拥有万亿级设备资产,但设备在医院,存在离散分布、维修保养过程缺乏高效管理等痛点。种种问题单靠传统的设备管理软件无法得到根治;另外这些设备中也包含了很多有用数据,目前都得不到应用。

从这看来,如今我们有很多数据可以利用,但正如上文所说,在数据收集方面显得有些不足。

二、了解数据

因此,我们在收集数据前必须了解数据,对你的数据进行分类和积累。比如说某个医院哪种疾病的上升率最高,而在这个类别中得到的结果就叫信息,这些信息对我们来说非常有价值;再往上深究,我们要归纳这些信息里有什么,是否可以总结出一些规律用到后期的案例中去,比如是什么因素导致了肺癌的上升,如果能总结出这样的规律,这些规律就成了知识;当然,再往上,依据这些知识以及医生的个人经验就可以上升到智慧的范畴,比如某种疾病有几十种治疗方案,哪种是最佳的。

从这来看,了解数据之后,医护人员就可以做到从数据到信息到知识到智慧的逐层转换。

接下来我就讲一些案例。第一个案例是基于现在疾病增长的速度之快,为此我们为医生提供了一个更为简便的分类系统:HelpfulMed。这个系统看上去跟搜索引擎一样,但是与百度、Google会有所不同。

它能做一些什么事情呢?比如搜索一个医学词语,它会进行思考然后在一个“医学字典”中自动搜索并自动生成最佳结果。值得注意的是,由于医学词汇是在不停的拓展当中,因此这个“医学字典”是自动生成并实时更新的;另外,我们还做了一个SomMap,它是基于一个2-3层的神经网络做的应用,当你获得一连串信息的时候,它就能将这些信息全部整合在一起形成一个Map,在这个Map上还会显示具体参数来代表这些文章的关联度及语义上的相近度。

 由于搭载神经网络,用户还可以点击进入下一层网络,其中会有更为深度及系统的分类。需要注意的是,这些分类都不是由医生操作的,而是机器根据文章之间的“关系”自动聚类。

而这样做的目的就是为了让医生能够更快、更便捷地看到相关信息(一般搜索引擎中的医学信息多且杂、而且非常不专业)。

后来我们又做了更深入的应用,我们除了想知道这篇文章与什么有关,还想知道其中的潜在内容,当你把这些关系全部梳理清之后,就能得到一个更加复杂的Gene Map,而根据基因分析就能做更多事情,比如预测个人健康状况,我们利用数据挖掘和机器学习的办法,可以分析处理医学影像数据并自动发现病灶,甚至自动搜索从数据到病理的关系,实现机器自动诊断;另外,通过挖掘海量病例数据还可以帮助我们分析各种治疗手段和药物的预后效果,推荐适合的治疗方案。

再讲第二个案例,我们把一些病情跟Periodis放在一起研究。拿禽流感来说,我们设计了一个系统,这个系统也显示Map以及时间等信息,比如通过观察“红颜色”的点就可以发现疫情在哪些地方发生、在何时发生以及是如何蔓延发展的,研究人员就能根据这些信息做一些预案。

最后讲一下医疗设备的案例,我与成都的数联医信合作,做了一个数联医信设备的大数据平台。

第一步是对数据进行标准化研究,其实我们对于中国标准化上的研究花了很多心思。由于数据及业务定义不标准,数据与信息化系统强耦合,院内院外数据壁垒森森,一线人员参与动力不足等多种原因,导致当下的医疗数据(尤其是诊疗数据)并未完成外部化,而外界也低估了这些医疗大数据的意义。而我们必须去适配各个医院设备及标签体系,这其实是非常复杂的自然语言处理的过程。

再往下我们还要对每一台设备的生命周期进行统计和研究,将所有医疗设备统一管理,让大量的设备相关数据得到有效存储和利用。经过数据分析和挖掘,可以预估这台设备有可能出现故障的部件、时间等规律,实现从事后维修到事前预警监测的突破。同时将互联网、云计算、大数据应用到医疗设备的管理中,指导制定医疗设备购置、档案处理等方方面面,实现最合理高效的医疗设备管理。

最后我们还做了一些故障预测,数联医信通过选取品牌、品类、医院、科室和维修记录等10个基础特征,经过笛卡尔积、特征离散化和特征聚类,筛选出429个特征,对设备即将发生的故障进行预测,准确率已经达到92.87%。

如今我们正在开发其他的更多功能。



本文作者:张栋
本文转自雷锋网禁止二次转载,原文链接

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
+ 订阅

秉承“关注智能与未来”的宗旨,持续对全球前沿技术趋势与产品动态进行深入调研与解读。

官网链接