分析720万条疫情信息后,阿里张子柯首次将舆情数据引入传染病模型

简介: 分析720万条疫情信息后,阿里张子柯首次将舆情数据引入传染病模型

傅里叶说,数学主要的目标是公众利益和自然现象的解释,显然,在这次疫情中,这两个目标得到了统一。

自从一月份疫情初期开始,文摘就报道了来自《柳叶刀》、《自然》等期刊和帝国理工学院、CDC等学校和机构提出的各种数学模型。

模型是现实的模拟,但是单一的模型不能解释复杂的世界,就像斯科特•佩奇在《模型思维》一书中体现的核心思想—— “多模型范式”,他认为关键不止是找到一组相关统计工具并且反复使用它们,而是通过从几个模型对事物进行建模来测试我们对事物的理解。

这项工作不止是大学和研究机构在做,科技公司也在依托自己特有的视角来审视这场疫情,阿里巴巴商学院复杂科学研究中心的张子柯教授及其合作者就发现,在新型冠状病毒疫情不断发展的同时,信息扩散的规模和速度也在增大,显然,舆情和疫情之间有着明显的相关性

在进一步的研究中,张子柯教授和合作者通过舆情和疫情的相关数据建立了“基于信息扩散的新型肺炎网络传播模型”,试图从舆情的角度去理解疫情。文摘也在第一时间就这一研究成果对张子柯教授进行了采访。

从微观尺度去观察和监督疫情,舆情是“感知社会的显微镜”

为什么说舆情可以反映疫情的发展?

张子柯教授和其合作者分析了网上与本次疫情相关的全媒体信息,来源涵盖了2020年1月1日-31日期间来自新闻媒体报道、微博、微信公众号、论坛、各大客户端等媒体共计720多万条信息,并对比了同期的疫情发展态势。

舆情信息与疫情发展二者之间,有着明显的相关性,这预示着通过网络舆情信息来研究疫情发展态势是可行的

我们也可以看到,从1月20日开始,疫情进入了爆发期,也是在这一天,国家卫健委高级别专家组组长钟南山院士在接受央视连线时明确表示,此次新型冠状病毒感染的肺炎,存在人传人的现象

同日,国务院总理李克强1月20日主持召开国务院常务会议,要求武汉市要严格落实防控措施,把好相关市场关闭、野生动物管控和机场、车站、码头等体温筛检关口。

问题的严重性也引发了网络上的强烈反响,关于疫情的舆情信息也在这个时候进入了爆发期,人们对这次疫情的重视程度在短时间内就产生了质的变化,正如张子柯教授在采访中所说,“这种高度关注度反过来又会影响到人们采取自我保护措施的意识强弱。因此,运用舆情和疫情所呈现的相关性展开研究,正是大数据思维研究的体现。

为何湖北作为疫情爆发中心,舆情数量却不是最高?

一般而言,如果传染数量增加和传染范围扩大,预示着疫情发展越来越糟糕。相应的舆情数量会更多,也多表现为悲观情绪。反之,随着疫情减少,相关舆情数量也会逐减少,也会逐渐更多地表现为乐观情绪。

张子柯教授表示,“从舆情信息的数量和内容两方面着手进行观察,如果我们能设计一套能够反映真实情况的舆情的系统,是可以一定程度上从微观尺度去观察和监督疫情的发展态势。

根据团队绘制的新型肺炎疫情和网络信息舆情的地理分布,可以看出,总体而言,这两者之间存在一定的相关性。同时也可以看出,舆情信息最多的地方其实并不是疫情最严重的地方,而是北京市、上海市和广东省这样的一线省市。

针对这一情况,张子柯解释说,原因可能很复杂,一是在疫情非常严重的地方,人们可能更加关注身边疫情的发展和防治措施;二是也与当地的网络媒体发展程度有关。

我们应该都记得,在疫情进入爆发期之后,武汉多个医院的医务工作者曾在网上物资求助信息,可以想见的是,这些医务工作者在发完求助帖之后,转身就去关注病人了,这时候全国各地会争相转发响应,导致舆情信息的扩散效应。

张子柯教授表示,“从这个意义上来说, 更能体现舆情和疫情的相关性和相互作用。

建立舆情-疫情的模型,既可帮助了解疫情,也能指导疫情防控

舆情和疫情在时空关系和数量上的相关性给了张子柯教授两点启发。


  • 网络舆情信息可以一定程度上反映疫情发展的态势;
  • (正面)舆情信息有助于帮助人们了解新型肺炎,并积极做好防范措施。


此外,鉴于一个感染者不太可能接触到所有其他人员(即有限接触范围),因此在人群构建上选用了传统网络模型——BA网络(即无标度网络)。基于以上几点,张子柯教授构建了基于信息扩散的新冠肺炎传播的SEIR模型。

β : 易感者被感染的概率;η :  潜伏期的个体转化为感染者的概率;μ : 感染者恢复概率;γ : 有意识的易感者感染概率减少因子;γ₁ : 有意识的感染者感染别人概率有效因子;γ₂ : 有意识的潜伏者感染别人概率有效因子;γ₃ : 无意识的潜伏着感染别人概率有效因子;α : 新型肺炎相关信息传播率;N:网络规模总数(即人数);( bij )NxN:信息传播层网络邻接矩阵;( bij )NxN:疾病传播层网络邻接矩阵;S:健康人群;E:处于潜伏期的感染人群;I:感染人群;R:恢复人群

其中,处于潜伏期的人群也有感染易感者的风险。伴随着肺炎病毒的传播,相关信息也会在人群中传播开来,因此,又将人群分为有疾病意识的人群(A)和无疾病意识的人群(U)。无意识的人群会通过网络媒介或口口相传得知疫情信息,从而成为有意识的人群。有意识的易感者(SA)会通过减少出行、戴口罩、自我隔离、以及洗手消毒等行为减少被感染的风险。同时有意识的感染者(IA)会被隔离起来,其感染人群的概率也会相应减少。

通过计算该模型(具体过程略),可以得出疫情爆发时的有效感染阈值 β c/μ (注:当疾病传播的有效传播率达到或者大于该值时,疾病会在网络上持续传播并发生爆发,反之则不会传播且逐渐消亡)可以转化为计算矩阵 H=[1-(1-γ)piA ]bji 的特征值问题,

结果显示,公众自我保护意识越强烈,疫情越难爆发。同时,模型结果也表明:疫情爆发阈值和人群规模相关。因此,除了加大信息公开和宣传力度外,将大规模人群分区块隔离,也可以有效降低疫情爆发的概率。

将舆情数据引入R0,在疫情防控中提升舆情导向效力

根据基本再生数R0的定义,张子柯教授及其合作者进一步得到基本再生数R0(注:R0 可以简单地认为是一个传染者其平均患病期内可所以传染的人数)为:

如果以R0=1为临界点,结果表明,在人口数为千万级的城市中,如果自我保护意识概率达到在0.5以上,同时疫情关注度在0.9以上时;或者自我保护意识概率在0.75以上,同时疫情关注度在0.7以上,疫情将极有可能被抑制,不再蔓延。

从之前文摘报道中可以看到,不同的模型得出的R0数据不尽相同,但是首次将舆情数据纳入R0的估计,其目的也是从舆情的角度给出建议,指导正面舆论的产出。

张子柯教授在采访中表示,“希望通过互联网手段,让自我保护意识深入人心,从而病毒通过人际接触进行传染的机会,降低R0,最终缓解疫情。

尽管这是首个结合舆情数据的疫情传播模型,张子柯教授认为后期还有很多工作要做。比如“后面还需要考虑到舆情对人口流动、出行行为、返工等因素的影响,从时间和空间两个维度同时考虑舆情与疫情的相互耦合作用关系。

考虑到流行病传染主要在于人类本身的不卫生和不文明行为,张子柯教授认为这个模型给未来我国疫情防控措施的启示意义在于:通过对疫情正向的舆论引导,如果能将大众的自我保护意识转换为一个常态化的防控行为,人们对戴口罩、勤洗手、常备消毒液、拒绝吃野生动物等行为有了普遍的认同,就可以从源头上杜绝大部分传染性疾病的大规模扩散。
最后一点小福利,文章中提到的斯科特•佩奇的《模型思维》一书,由湛庐文化出版译本,在文章中留言获得点赞最多的两位读者将获赠该书一本,大家踊跃留言噢!


相关文章
|
5月前
|
数据采集 数据管理
240万亿巨量数据被洗出,足够训出18个GPT-4!全球23所机构联手,清洗秘籍公开
【7月更文挑战第5天】全球23所机构合作的DCLM项目揭示了数据清洗新范式,从240T海量数据中提炼出2.6T高质量集,提升语言模型效能。DCLM-Baseline数据集在减少40%计算量的同时,使70亿参数模型在MMLU上达到64%准确率,超越MAP-Neo并媲美其他LLMs。然而,数据偏见和伦理问题仍是挑战。[论文链接](https://arxiv.org/abs/2406.11794)**
104 1
|
机器学习/深度学习 JSON 自然语言处理
全国大数据与计算智能挑战赛:面向低资源的命名实体识别基线方案,排名13/64
全国大数据与计算智能挑战赛:面向低资源的命名实体识别baseline,排名13/64。第一名:0.68962791,基线:0.67902593 ,感兴趣小伙伴可以刷刷榜。 国防科技大学系统工程学院(大数据与决策实验室)
全国大数据与计算智能挑战赛:面向低资源的命名实体识别基线方案,排名13/64
|
人工智能 算法 安全
理想自研认知大模型、无图城市NOA信息曝光,纯电MEGA定价50万以上
理想自研认知大模型、无图城市NOA信息曝光,纯电MEGA定价50万以上
232 0
|
自然语言处理 达摩院 数据格式
带你读《达摩院智能客服知识运营白皮书》——3.2 如何进行知识收集?--基于知识来源收集候选知识
带你读《达摩院智能客服知识运营白皮书》——3.2 如何进行知识收集?--基于知识来源收集候选知识
149 0
|
机器学习/深度学习 数据采集 数据可视化
数据分析案例-基于随机森林模型探究电商网站推销商品的影响因素
数据分析案例-基于随机森林模型探究电商网站推销商品的影响因素
1029 0
数据分析案例-基于随机森林模型探究电商网站推销商品的影响因素
|
存储 监控 计算机视觉
谈谈企业数据价值计量的一个可行方法【航空公司案例】
当有人指出“数据是宝贵的企业资产”时,通常每个人都会点头表示赞同。但没有多少人有实际方法来证明和展示数据的实际价值。
谈谈企业数据价值计量的一个可行方法【航空公司案例】
|
存储 SQL 分布式计算
阿里云Lindorm联合智臾科技发布 金融高频交易数据量化分析与处理方案
面向银行、保险、券商和私募的高频数据高性能一站式解决方案。
603 0
阿里云Lindorm联合智臾科技发布 金融高频交易数据量化分析与处理方案
|
安全 API 开发工具
深度分析国内APP推广渠道和方法
深度分析国内APP推广渠道和方法
306 0
深度分析国内APP推广渠道和方法
|
机器学习/深度学习 人工智能 自然语言处理
国内的智能客服发展到哪一步了?这里有份追踪报告
智能客服市场有多大?有哪些优秀玩家?这些玩家提供了哪些解决方案?解决了什么痛点?在这份报告中,我们进行了详细解读。
573 0
国内的智能客服发展到哪一步了?这里有份追踪报告
|
存储 SQL 分布式计算
阿里云Lindorm联合智臾科技发布金融高频交易数据量化分析与处理方案
阿里云原生多模数据库Lindorm联合浙江智臾DolphinDB发布金融高频交易数据量化分析与处理方案,通过云原生方式整合DolphinDB实时高效的数据处理能力和Lindorm多模海量数据融合存储分析能力,集成了功能强大的编程语言和高容量高速度的流数据分析系统,为金融场景海量时序数据的量化分析计算提供一站式解决方案。方案操作简单,可扩展性强,具有良好的容错能力及优异的多用户并发访问能力。
2718 0
阿里云Lindorm联合智臾科技发布金融高频交易数据量化分析与处理方案