【干货】贺克斌院士:大数据与雾霾污染治理

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

演讲全文:


非常高兴有机会跟大家分享一下我们所了解的关于雾霾污染治理与大数据支撑方面的话题。我本人是做雾霾治理的,我不太了解什么是大数据,但是我曾经和信息学院的教授交流过,大数据多大?他说你这个环境体系绝对算大数据。在大数据与雾霾治理方面,讲三个问题:污染现状特征、治理数据支撑、典型案例分析。

 

   

蓝天白云都是大家非常喜欢的,请大家回顾一下,在今年的四、五月份,北京市民兴高采烈地晒蓝天。9月3号的阅兵大家也十分高兴。但自从北京进入秋冬季节以后,就不断地出现雾霾的现象。像这样的图片还没有达到红色预警,至少还可以看到轮廓。真正严重的时候,比如说,今年12月1号的时候,我们根本就看不出来是什么地方。


    

这张图中,上面两行是2013年八次雾霾波及的范围,下面一行是2014年的。这个数据是2015年11月30号到12月1号,媒体也一直在讲为什么没有启动红色预警,首先是启动标准方面有点技术的原因,当然,就我个人观点而言这已经达到了红色预警的水平。


我展示了这么多图,给出的还是两个概念,雾、霾,雾霾这两个字分开说是典型的气象术语,连起来说,既不是气象术语也不是环保术语,是近年来新的新闻用语。但是由于传播快,所以大家都认同。


但是从环境研究者的视角来看,雾、霾我们叫做污染,连起来叫雾霾污染。一说污染就不是自然的雾和霾。这个污染对环境来说,一定要找是什么样的污染物造成的能见度急促下降,是什么样的污染物对呼吸造成影响。




上图给出的是2013年典型的雾霾范围,右边一张图是PM2.5的浓度。雾霾现象的核心污染物是PM2.5,PM2.5不简单是一次污染,也是由多次污染形成的。所以在中国,PM2.5的污染有什么基本特点?



  

第一个特点是浓度的绝对值非常高,现在,就像全球还没有PM10一样,世界卫生组织有上千个大小城市的地面测试浓度值,PM2.5是一部分国家有,中国走得也还比较靠前。


现在全世界靠卫星反演的方式做,中国的东部和印度的北部是目前全世界浓度非常高的地区。所以我们经常看到我们的浓度值达到多少倍,地面和发达国家相比高了很多,这个现象一点也不奇怪。




第二个特点是有很强的区域性。左边这张图是2013年受到波及的范围,基本上全国260多万平方公里都受到了影响,将近六亿人的健康都受到了不同程度的影响。


右边的图是2013年12月份的演变过程,大的是我们传统说的京津冀、长三角已经不够用了,会把山东、河南连成一片。这是浓度波及范围和浓度值,这样的情况很难用一个城市或者一个省解决。所以现在京津冀、长三角都成立了联防联动的国务院领导机制。



  

PM2.5还有一个比较复杂的情况,我们传统的说要控制二氧化硫的污染就减二氧化硫,控制氮氧化物的污染就减氮氧化物。但是控制PM2.5的污染不仅仅是控制一次检测出来的PM2.5。


因为在大气中产生的PM2.5有两种来源,一种是我们肉眼看得到的,直接排出的一次PM2.5,比如说柴油车冒的黑烟。第二种就是二氧化硫会产生的化学反应,这些反应会增加PM2.5。既有一次排放,又有气态转化的。


这个基础上又可以解释,为什么北京11月27、28号蓝天白云,但是30号的时候那么严重。气象条件变化以后,物理的积累,水平风速慢了,垂直方向低了,这些东西呆在一起产生化学反应,所以这两个因素导致了这样的现象。


我们今天有很重的雾霾天气,实际上有另外一个特别重要的原因,就是气象特征。雾霾是哪里形成的?核心就是这两句话,内因是排放,外因是气象。当外因的条件不那么严重的时,11、12月份偶尔也能出现蓝天白云。


比如说12月1号,有的都是600、700的情况下,12月2号一下子就变成了10,一场六级大风吹过来了。所以说这个气象条件会左右,但是主要核心的内力还是排放。



  

在过去的1990-2010二十年间,全中国主要跟雾霾相关排放物增长的情况。二氧化硫、氮氧化物、一次PM2.5等全部都在涨。


同样的气象条件,在1990年的12月份也曾经有过,为什么没有那么严重的雾霾?就是内因完全不一样。所以左边第一个柱子就是1990年的排放量,如果我们的排放量是那个水平,就不会出现现在严重的雾霾。所以治理雾霾就是减排,把排放量拉回到当年的水平,就会逐渐回到这个现象。



  

如图所示,我们这些总排放量都聚集在东部,特别是京津冀地区。所以回顾以上的图,所有的雾霾每一次的出现京津冀都逃不了,长三角时有发生,珠三角偶尔发生。都是跟排放强度相关的,所以这就是现有基本污染的特征。

 

“我要治理雾霾”的话,现在很多领导下了很大的决心,话已经说到位了,狠话绝对到位。痛下决心,但是也讲了“科学治污、精准治霾”。没有比这个再狠的话了,但是什么叫科学?什么叫精准?最起码你要有基本可靠和足够的数据来支撑,那才叫科学,那才可以说是基本精准。



  

雾霾的内因是排放,中国现在面临的工业体系,排放是全世界构成最复杂的,我用了一个最字,现在大家说要慎用“最”,但是中国现在面临的排放体系就是“最”复杂。一个月以前我们刚刚在环境学院开了全球污染源排放清单科学研究年会,全世界几十个国家都有代表参与此年会,这个信息完全可以支撑。


中国现在的工业体系是一个技术分布最宽的,比如说钢铁,有全世界最先进的宝钢,也有最落后中西部小的钢铁。你如果到东南亚去,只有后半段,到欧美只有前半段。但是在现在的中国,这样的污染源是“最”。这么多的污染物、污染源是一个大数据的概念,排放出来的污染物又跟气象条件相关,就把气象数据单独拿出来也是一个大数据体系,排放数据和气象数据之间形成了一定的逻辑关系,就会导致浓度的升和降。大风一来就能从800降到10。


所以我们要抓这三组大数据:排放数据、气象数据、天上的浓度数据。从地面排放,由大气理化过程形成PM2.5污染物。




我们应该如何抓到这些数据来构成一个治理雾霾的支撑体系?这里有三种核心技术:排放清单技术、立体观测技术、数值模拟技术,把气象条件集合起来,最后形成浓度演变的规律。比如说我们敢报这样的浓度,是依靠这三种数据。


现在需要有一个理念的转变,我们在工信部、环保部等讨论大气污染核心治理方式是什么?大家经常想到的是火电厂脱硫技术,机动车的三元催化转化技术,这些对不对?绝对是对的。但是仅有这些行不行?绝对是不行的。


原因是什么?


现在我的治理不是以某一个行业的污染物减多少为最终目标,我是以一个地域污染物的浓度降多少为最终目标。所以一个行业一方面的技术绝对是支撑的,但是不仅仅是一部分。或者用总理的话说向污染宣战,只能支撑一次战斗,把火电厂的都战胜了。但是并不意味着这个区域的战略目标达到了。所以说战略目标要达到,一定要有这三种技术:立体观测、数值模拟、排放清单,这个就构成了沙盘推演的技术,后面就需要大数据的支撑。



  

我们以现有的中国环境管理体系为主,对大气污染源的覆盖范围还是非常有限的。原因是中国的污染治理是以工业污染治理切入的,所以有很强的特点。


表面上看我们有很多数据来源,有在线监测、总量核查等等,但是这些都聚集在固定燃烧源、工艺过程源、非道路移动源、溶剂使用源等方面,农业、生物质燃烧,这些在现有的体系里没有数据,应该说在一个非常大的数据缺少的情况下,要弥补它就要不断地用科研成果改进。







 

举一个例子,我们经常讲到一个交通的数据不仅有车流量,还要有排放数据,最后还要有气象影响数据。


一个工业体系里,不同的工业采用的生产技术和最后的环保控制技术,最后在烟囱口排放出来的数据。现在都有大量地采集这些数据,正在逐渐建成。这次清华大学在过去20年建的中国多尺度排放清单模型及在线数据共享平台,现在全世界有两百多家都在用。从1990-2013年,800多种排放源,有600多种VOC成分,这个已经是全世界非常知名的数据平台。可以提供的是全国区域、城市高分辨率的排放清单,可以在一天24小时的演变,全国的特殊地域都可以做到。


    

这方面是说我们的排放源都有很多工作要做。目前很多做大数据的往往是在空间上直接抓浓度变化,也就是现在讲的区域的立体观测。目前地下排放这些到了天上以后,通过大气物理化学过程呈现了浓度,这个浓度在时空变化上怎么获取,现在有地面观测、飞机的航测,还有更高层卫星的遥测来获得这样的数据。


一个地面观测的尺度范围比较小,时间尺度可以是小时,大家空间范围一般一个点也就代表两公里,一个通量塔的范围和地面是相似的。航测可以管到几十公里的范围,但是航测有非常大的代价,跟空军合作飞一次就是几十万。卫星遥测时间很大,但是分辨率在几十公里是比较合理的。




这是典型的地面观测,从2013年1月开始,中国的国控点现在有1497个,每小时更新的数据是10479个。大家现在在手机上可以看到NPI的高低。




现在有非常多的技术支撑数据公司,还有一些做传感器的公司也在做相对廉价、微型的观测站,也报这个数据,这个数据来跟我们国控点的数据对比是不能评价空气质量的,但是可以在时空范围做他那套体系的高低比较。


包括最近地方政府的环境管理,因为把格点做得很小,一公里里边就有一个,去抓附近可能出现异常浓度升高的时候,哪些污染源疑似偷排嫌疑,执法人员可以迅速到现场排查。这是属于直接报出了污染物的浓度,重污染的形成。在清华园里也有这样的,有一批在线监测的仪器,可以逐秒的环境变化给记录下来。



2013年1月的31天,中间的污染浓度为什么一下子上去了?主要是由气态转化过来的二氧化硫等有机物,这个有一定的方法去追溯,但是现在的方法还不成熟。所以造成有些媒体报道时过于强调某些方面,比如说这次过程以燃煤为主,大家就理解为这次是燃煤的,下次是机动车。


其实是众多的污染源共同造成的,只是在不同的地域、不同的气象条件下,某一种占的比例成分更高一些,但是每一个都忽视不了。从空间范围来看,这些化学成分在全国的各个地域也是有不同的时空变化的。



 

卫星有相对的独立性,我们现在说大数据,大数据的前提首先要是真数据。你在环境管理里,由于各种利益的博弈,会使数据之中不排除有造假数据的情况,包括企业和环保管理部门搞猫捉老鼠的游戏。


但是现在有一个非常好的手段,在全世界发展得非常快,就是卫星遥感。因为地面的数据都是有可能改的,但是没有人可以爬到卫星上把传感器给调整。全世界卫星的数据都是公开的,只要你能找到地面反演好的方法,二氧化碳、二氧化硫、甲烷、臭氧等等这些污染,这些都是可以监测到的。


 

当排放数据、空气质量监测数据要拿来给决策者用的时候,要合成起来做成一个沙盘推演,就是我们说的数字预报。这项技术成熟到一定程度以后,这个数字预报预警就可以帮助我们预测有没有重污染,同时也可以帮助我们预估,当我采取了单双号,预计能把这个污染缓解到什么程度,这是短期应急方案。


从2008年奥运会开始做,一直到今年的阅兵,在什么情况下临时把污染源调控到什么程度,在技术经济比较合理的范围之内,达到当时的环境预期目标,这是短期的。同时也可以做长期的,比如说五年计划,逐步把污染降到什么程度,效果就可以更好,这是非常好的沙盘推演过程。



         

最后举一个案例分享,我们大气要在京津冀降25%的PM2.5污染浓度,这是任务最重的。河北省做了一个类似于沙盘推演的平台,给出了高分辨率的清单、污染源解析等多种方案情景,这里给出的是河北省各种污染物排出来的情况,可以给出河北省这些污染源各种污染合成以后空间分布的情况。


所以说,河北省给出面对这些污染源制定的所有的行动计划,能源机构怎么调整,机动车怎么治理,这些措施全部列到一起以后可以估算可以减多少污染物。这是列出来的数据,那个时候我列出这些数据以后往往不去预评估,五年以后是不是能达到这个浓度的变化,这些事情并没有人去做。



     

我们用这个平台做了分析以后,发现分别能减这么多污染物,但是用数字模拟预计,2017年的时候,北京污染物下降25%能达到,天津和河北达不到,天津和河北只能达到百分之十四点多。进一步说,河北省的污染物排放标准怎么能达到?再去检查敏感的污染成分,这样的话11个城市减污染物的情况又重新合计,变成一种新的污染现象。


这种减排方案加进去以后再合计,减排的比例可以达到28%,河北省直接用这个成果,在原来2013年已经公布的省的基本行动计划之上最后又公布了一个深入治理的计划,两个加在一起要达到28%,因为省长是要跟国务院签军令状的。


          

9.3日阅兵,河北省所有的城市、省直管县都有自己的保障方案,这些保障方案放到平台,每天晚上加,最后累计暂停了多少企业,使多少污染物降下来。这里面你可以很清晰地看到,粉红色的柱子是平常排放的污染物,下面那一点是周末排放往下掉的情况。在阅兵期间都是蓝色的,累计减排量降了这么多。省里的省长在指挥平台上可以很清晰地看到这个过程。


谢谢大家!


原文发布时间为:2017-03-16

本文来自云栖社区合作伙伴“数据派THU”,了解相关信息可以关注“数据派THU”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
113 1
|
4天前
|
数据采集 机器学习/深度学习 DataWorks
DataWorks产品评测:大数据开发治理的深度体验
DataWorks产品评测:大数据开发治理的深度体验
35 1
|
1月前
|
机器学习/深度学习 存储 数据采集
解锁DataWorks:一站式大数据治理神器
解锁DataWorks:一站式大数据治理神器
57 1
|
7月前
|
数据采集 监控 大数据
大数据时代的数据质量与数据治理策略
在大数据时代,高质量数据对驱动企业决策和创新至关重要。然而,数据量的爆炸式增长带来了数据质量挑战,如准确性、完整性和时效性问题。本文探讨了数据质量的定义、重要性及评估方法,并提出数据治理策略,包括建立治理体系、数据质量管理流程和生命周期管理。通过使用Apache Nifi等工具进行数据质量监控和问题修复,结合元数据管理和数据集成工具,企业可以提升数据质量,释放数据价值。数据治理需要全员参与和持续优化,以应对数据质量挑战并推动企业发展。
1861 3
|
2月前
|
数据采集 分布式计算 大数据
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第27天】在数字化时代,数据治理对于确保数据资产的保值增值至关重要。本文探讨了大数据平台的搭建和数据质量管理的重要性及实践方法。大数据平台应包括数据存储、处理、分析和展示等功能,常用工具如Hadoop、Apache Spark和Flink。数据质量管理则涉及数据的准确性、一致性和完整性,通过建立数据质量评估和监控体系,确保数据分析结果的可靠性。企业应设立数据治理委员会,投资相关工具和技术,提升数据治理的效率和效果。
161 2
|
8月前
|
存储 SQL 分布式计算
闲侃数仓优化-大数据治理和优化
闲侃数仓优化-大数据治理和优化
83 0
|
8月前
|
存储 数据采集 算法
大数据平台治理——运营的角度看数仓
大数据平台治理——运营的角度看数仓
69 0
|
7月前
|
存储 分布式计算 DataWorks
MaxCompute产品使用问题之dataworks仅支持maxcompute上面的数据治理吗
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
8月前
|
数据采集 存储 监控
大数据治理:确保数据质量和合规性
【5月更文挑战第30天】大数据治理涉及数据分类、访问控制和质量监控,以确保数据安全和合规性。企业需保护个人隐私,防止数据泄露,并遵守各地法规,如GDPR和CCPA。技术实践包括数据加密、匿名化和严格访问控制。管理策略则强调制定政策、员工培训和法律合作。全面的数据治理能保障数据质量,驱动组织的创新和价值增长。
340 0
|
8月前
|
存储 SQL 分布式计算
大数据平台治理资源成本化
大数据平台治理资源成本化
103 0