今天,我们的人工智能技术在疫情防控方面面临最大的挑战是,需要更多的数据!算法都是用大量数据喂出来的,如果有更多的数据,我们可以帮助疾控中心的传染病防控专家做更深入的感染路径分析、传播链数据分析,不断调优。当下,将流行病学调查智能分析系统这样的智能系统用起来,感染路径分析、数据分析才能更加高效和精准。
突如其来的新型冠状病毒肺炎疫情防控中,人工智能在疾控中心必有用武之地。
疾控中心,监测、跟踪分析、制定疫情防控方案的核心技术部门,在疫情期间要和病毒抢时间,快速评估风险、防控重点人群,出具专业的流行病学调查报告,他们的每一项工作都与数据密切相关。阿里巴巴达摩院的机器学习、语音智能、自然语言智能、知识图谱等为代表的人工智能技术,进入了广州市疾控中心的视野。
智能外呼、疫情报告自动生成工具、病例智能分析系统到数据大屏,一系列的系统、工具确保采集上来的数据及时、精准,为疫情研判打下坚实的基础,搭了把手、帮了个忙。
抽丝剥茧,探寻流调报告背后的“真相”
随着对病毒了解的逐步深入,我们对疾病的特征有了更多的认识,比如人传人的特征十分明显,从飞沫传播到接触传播、再到特定条件下气溶胶传播,潜伏期最长达14天等等,因此尽早跟踪和隔离密切接触者,才能有效的防控聚集性传播,避免二次传播的可能。
确诊病例的流行病学调查报告(流调),是疾控中心最核心的基础资料库,它能确定传染源,回溯病例传播路径,依据流行病学的专业分析方法,才能确定传播和控制的手段——这成为疾控中心的首要任务。
在流行病学调查智能分析系统上线之前,广州疾控中心手中就有几百份亟待处理的确诊病例的流调报告,早期主要依靠‘人工’的方式进行,存在着分析效率低、关键要素提取慢、回溯传播踪迹难度大,流调报告无法快速可视化等诸多挑战。
一般,从医院发热门诊或定点医院得知确诊患者后,疾控中心会火速对病例展开一对一的访谈,然后把访谈手动变成Word格式的流调报告,再把关键信息提取、整理成Excel调查表,摘出人名、地点轨迹、亲属关系、病症、诊断等与疫情蔓延密切相关的信息,再进行流行病学的分析。
整个过程中,最具挑战性的是关键信息的抽取,疾控中心的工作人员需要像‘侦探’一样,抽丝剥茧,把每一份报告里的人名、时间、地点等连在一起,搞清楚谁是谁的传染源、谁在什么时间、什么地点、如何接触到了另外一个人,才能知道谁还有可能出现在这个时间地点,成为重点检测人群。甚至这个患者是不是有意无意的漏掉了什么时间地点信息……
对单一确诊病例的行动轨迹和传播面进行分析,可能不是什么难事。但在新冠这样蔓延速度极快的公共卫生事件面前,快速增长的确诊病例所形成的成百上千的流调报告,将这些信息快速、有效的串联起来,再做分析,挑战可想而知。
而这正是人工智能最该出现的地方,凭借阿里达摩院提供的人工智能技术,将非结构化的确诊病例、调查问卷,通过机器学习将流行病学需要的关键要素提取出来——这是第一步,机器替代人做的事情。
“广州市疾控中心给了我们60多项关键要素,我们也是第一次知道原来流行病学分析需要这么多要素才能进行,但机器学习不怕,要素越多越精准”,阿里达摩院自然语言智能实验室的资深算法专家黄松芳说。
关键要素主要可分为两大类,通用的实体信息和专业的医疗信息。通用实体信息是以人、地址为主,比如确诊病例的姓名、住址、时间、交通工具、车次航班、活动场所等;医疗信息,比如症状、临床检查结果、症状体征、诊疗手段等。
目前,利用流行病学调查智能分析系统,极大提升了流调报告分析的效率。首先,系统通过扫描流调Word文档,将60多项关键数据抽取出来;其次,利用机器学习算法自动生成病例的传播链、关系网、时间线,确认疑似病例的输入源和传播对象;最后,通过可视化的方式呈现出来。“甚至还能用来发现流调电子文档缺失了哪些关键信息”黄松芳解释道。
流行病学调查智能分析系统,在底层,融合了阿里达摩院积累的机器学习算法,通用实体知识图谱,医疗健康行业的专业知识图谱等。但是,系统最初完全是‘冷启动’,数据量有限,只能依靠现有的算法和知识图谱,对疾控中心需要的关键信息进行抽取。“我们在抽取信息的过程中,我们还发现了十几个关键信息,反馈给疾控中心,要不断反复比对,才能知道哪些信息是必需的”,黄松芳强调。
系统的核心能力体现在三个方面:
第一,系统对文档结构的理解。比如每一个段落涉及的内容,是个人信息,是检查结果,还是病患行为路径上二次传播的密切接触者信息。因为流调电子文档由不同人撰写,语言、规范、调查问题的顺序都不太一样,所以首先要先解决系统对文档结构的认知问题。
第二,要让系统对代词有清晰的理解。比如调查报告中出现了大量的“患者一“、”患者二“、“他的父亲”、“这个人”,这些词汇究竟是指代哪一个人名,这也是机器学习里的一个重要点。
第三,系统对实体名的识别,最为重要的是人名和地址。黄松芳举例道,“比如张自忠路,系统要知道这是人名还是地址?比如广州的xx村,它其实是不是外地同名的一个村,而是一个城中村或者小区。还有患者第一次发热就医的机构,市八院、市一院,这是医疗机构的俗称或者大家惯常的叫法,它准确的名字是什么?”
利用阿里达摩院积累的地址归一化技术,首先将文本中的地址片段识别出来,之后对地址做结构化解析,可以有效的对地址做补全和归一化,如“阿里巴巴西溪园区”,经过地址解析技术后产生的结果是“浙江省 杭州市 余杭区 五常街道 文一西路 969号 阿里巴巴西溪园区”。这项技术在疾控中心的流调报告中可以有效的绘制出确诊患者的活动轨迹。
医疗专业术语的识别和归一化技术来自于阿里达摩院医学团队,凭借高效的医学实体识别算法和团队积累医学知识图谱,可以准确识别包括身体部位、症状体征、检验检查、诊断等多类医学实体,并可对同一医学概念的不同描述进行有效归一,如“发烧/发热”,“上感/上呼吸道感染”,便于疾控中心人员对流调患者进行后续的统计分析,为防疫控疫提供决策依据。
当针对人、地址、时间、医学、车次航班、经过场所等等实体信息被一一抽取出来之后,系统就会将确诊病例的传播链、关系网、时间线以可视化的方式呈现出来。让疾控中心根据流行病学来更加清晰的回溯。
智能外呼,让疫情监测更有“温度”
2月4日早上8:40阿里云的同事接到了来自广州市疾控中心的电话,事出紧急,要求在尽可能短的时间内完成一项艰巨的任务:搭建智能外呼平台。15:30外呼提示的短信全部发出,晚上21:43完成了所有外呼的紧急请求,23:47赶在零点之前重点人群的外呼排查结果就交到了疾控中心的手中。
“您好,这里是广州市疾病预防控制中心智能语音呼叫助理,来电是给您进行健康随访,感谢您的配合……”
这段开场白,来自广州市疾病预防控制中心的智能外呼系统,虽然你听着好像是真人询问,但其实对方是“机器人”。截至目前,智能外呼系统已累计帮助广州市疾控中心完成对重点隔离人群外呼12000人次,“声”入人心的健康随访,不仅大大提升了广州市疾控中心疫情监测的时效性,也让身处疫情中的千万广州市民感受到了丝丝暖意。
在完成针对确诊病例的流调分析之后,密切接触者人群的传播路径清晰的呈现在疾控中心。当然隔离人群名单的来源是多渠道的,广州市疾控中心智能外呼系统整合了外省市(重要疫区)来穗人员,进行健康随访,系统可实时进行语音识别记录,收集是否发热、干咳等健康信息,是否有疫区接触史、旅游史等等。
通过每天定时两次,14天为周期的智能外呼,大大提升了广州市疾控中心的疫情监测效率、时效性和准确率。也避免了人工排查可能造成更多工作人员被感染的可能性。
智能外呼系统得到了阿里达摩院语音智能和自然语言智能实验室的技术支持。“阿里达摩院整合了主流的语音和语义算法模型,能对语音识别的方言识别、吐字不准、多轮对话等问题进行精准处理,这是我们这么多年,阿里巴巴自己商业实践中,累积下来的智能语音语言系统的技术能力”,黄松芳说。
智能外呼在广州市有多个应用场景。首先,疾控中心智能外呼系统主要承担的是疑似病例、密切接触者等已隔离人群的外呼工作;此外,阿里云提供的智能外呼系统,还应用在广州市南沙区、海珠区等开展疫情排查,阿里云数字政府团队业务发展专家黄礼智说,“针对广州市(包含市疾控、海珠区、南沙区)的疫情排查,累计外呼人次已经超过30万次。”
提到智能外呼,人们首先会想到广告电话、商业调查等推销营销手段,为了减少对被访人情绪的影响,疾控中心的智能外呼系统在话术、对话流、外呼前的政府宣传等方面都做了很多细致的工作。
在外呼前,疾控中心首先会通过短信的方式,提醒人们当接到“020-12320”的来电时,请不要着急挂断,积极配合智能呼叫调查,耐心倾听每一个提问,如实回答提供信息。
“智能外呼跟人与人之间的沟通是一样,我们在语音合成、语速、语调等方面都尽量人性化;在话术和对话流的设计上,尽量采用“是/否”的方式来形成对话流,涉及到需要回答具体问题的部分,如具体地址等,也尽量引导被访者提供区、街道等选项方式,让整个过程尽量简单,让被访者顺畅的将信息提供出来”,阿里云数字政府团队高级解决方案架构师杨振宇说。
“据我们统计,广州疾控中心智能外呼的接通率整体在80%以上,完成率超过85%”,黄礼智强调。
智能外呼的数据会自动生成的标准的调查表,随后会导入自动化报告生成工具。该工具是阿里云针对广州市疾控中心的疫情防控上报而专门定制开发的工具,以帮助疾控中心将各类采集数据快速生成疫情监测报告,上报给政府部门做疫情研判的决策。
“生成的疫情报告能够帮助政府和卫健委及时了解广州市整体新冠肺炎的感染情况、传播情况,以及隔离人群的情况。之前手工撰写报告效率很低,自动化报告生成工具会依据固定格式,将每天的数据导入进去,生成图表。疾控中心只需要加入疫情分析的意见,即可快速完成报告,”杨振宇说。
结语
每一次智能外呼,每一份自动化报告,每一份流行性疾病调查分析报告,都成为了广州市整体疫情防控最为有力的“智能”表达。对广州疾控中心来说,每天拿到的数据都是“人命关天”的。
黄松芳坦言,“在新冠疫情以来,人工智能技术在疫情防控方面涌现了不少的应用场景,但我们今天面临最大的挑战是数据量,算法都是用大量数据喂出来的准确性,如果可能有更多省市的数据,我们可以帮助疾控中心的流行病防疫专家做更深入的路径分析、数据分析,不断调优系统,让决策更加精准。只有更多省市将流行病学调查智能分析系统这样的人工智能技术用起来,感染路径分析、数据分析才能更加精准。”
本文来源:云智时代
作者:陈毅东