[独家]大数据版穹顶之下:清华人气男模解码雾霾分布

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

【导读】:柴静的一部穹顶之下将对雾霾的讨论推到风口浪尖,与此同时在太平洋的另一端,一群来自中国大陆的合伙人也在针对雾霾展开一场大数据战场的较量。


怎样的“个人恩怨”引发了针对雾霾的创业?又是怎样的机缘巧合让三位创始人一拍即合?清华男模、国旗仪仗队成员、单车骑行西藏、阿拉斯加极地穿越……大数据原点栏目本期为您专访佳格霾图的情怀团队,直击他们的创业点滴,用大数据解密雾霾。


未来的“雾霾预警图” — 佳格“霾图”

佳格霾图是王蕴刚及佳格公司设计的一款基于环境大数据,对大气污染进行实时监测预警的产品。霾图用地图的形式实时展现我国任一地区的大气污染数据,并预测未来五天的空气质量。佳格霾图的实时数据目前每小时更新一次,空间精度为五公里。佳格计划将来做到每二十分钟更新一次,空间精度达到一公里。

用大数据直面雾霾这块“硬骨头”不仅需要充分准确的数据源、优秀的数据处理和可视化能力,更重要的是一种可以时刻激励自己奋斗下去的情怀,而王蕴刚的创业就始于这样一种情怀。


佳格霾图截屏


跟雾霾有“私人恩怨”的不只是柴静

很多创业者的创业灵感都来自一个不经意的“灵光一闪”,而佳格(GAGO Inc.)创始人王蕴刚对于空气的“情怀”却是从初中就开始酝酿了。


王蕴刚的初中同桌因为一次煤气中毒意外去世,那是王蕴刚第一次了解到死亡的无情,也是他懵懂的跟“有毒气体”结下梁子的开始。“很想知道这种无色无味的气体是怎么夺走人的生命的。”这个‘私人恩怨’ 到了高中进一步深化,“北京的沙尘暴那几年特别严重,沙尘过境的时候天空瞬间会变成橘子皮的颜色,坐在教室的倒数第二排都看不清讲台上的老师。” 王蕴刚如今说起自己的家乡还会苦笑,“特别恨空气污染,把我的家乡(北京)变成这个样子”。因为这个“私人恩怨”,王蕴刚高中毕业后毅然报考清华大学环境工程专业,并选择了当时并不热门的大气污染方向。


本科从清华毕业后王蕴刚选择去美国深造。从Texas A&MUniversity;的研究生到Clarkson University的博士再到加州大学伯克利分校Lawrence Berkeley国家实验室的博士后,王蕴刚花了近十年的时间研究美国、加拿大以及墨西哥的大气问题。采访中他对于大气遥感知识和相关的国内外学派以及理论信手拈来、如数家珍,这为之后的创业打下了坚实的基础。


在美国做“中国合伙人”

与雾霾的斗争是一件艰苦的事业,一个人“单打独斗”总会有动摇的时候。“创业当中最难的是找到一个真正跟自己合得来的合伙人,这会是你动摇时候最坚强的后盾。” 王蕴刚在回忆自己的创业之路时把合伙人放在一个特别重要的地位上,他跟另外两个合伙人的创业之路也是一个发生在美国的“中国合伙人”故事。


博士后毕业的王蕴刚在一家全球环境咨询公司任空气污染与气候变化高级工程师。多年的海外留学跟科研经历并没有让他忘记跟大气污染的“私人恩怨”,创业的欲望一直在,他需要找到志同道合的人跟他一起迈出第一步。


王蕴刚的第一位合伙人是自己的高中同校师兄,也是在伯克利熟识很久的朋友张弓。张弓的本科就读于南京大学环境系,硕士就读于北京大学地理系,之后在美国犹他州立大学攻读遥感与卫星大数据的博士。两人相遇时张弓在湾区环境研究所工作,从业于同一领域并是校友的他们经常一起交流想法,渴望把复杂的科研成果转化成真正通俗易懂的产品供人使用。甚至还产生过把学术论文翻译成更通俗的语言发到微信上给更多人看的想法。


2013年1月,美国驻北京大使馆的PM2.5浓度监测数据爆表,纽约时报连续报道这件事。“我第一次看到对一个城市的空气质量的形容不仅仅是bad,还是crazy bad”, 王蕴刚一方面心里很痛,但一方面也觉得创业的时机到了。经过对政府政策,市场现状,盈利模式等多方面的深入考察,王蕴刚于2014年决定将公司定位成2B的经营模式,即向政府以及企业提供佳格“霾图”。 2B的经营模式对数据分析以及用户体验有了更高的要求。

第三位“合伙人”刘志成的加入解决了这个燃眉之急。刘志成是大数据可视化的专家,斯坦福的博士后毕业后在全球最大的数据可视化公司做核心产品的研究科学家。刘志成的入伙完善了佳格的创始团队。这个平均学历是博士后的环境大数据专家团队组成了佳格最核心最早期的“三人帮”。


佳格三位合伙人合照


佳格的运作模式

在中国环境方向做2B模式有两种可行的方向,一是跟国内行业的前辈公司合作,做软件产品出来,让感兴趣的环保机构来定制、购买以及使用自己的产品;二是直接跟政府环保部门合作。当佳格刚刚推出“霾图”的想法的时候,国家地方环保局对此已经表现出了浓厚的兴趣。


国内地方政府对佳格霾图的青睐与当时环保局一个新的政策有关:在未来五年内在全国范围内推行大气污染预警系统。国内的大气污染的数据来源主要是通过地面监测站点,而目前中国的地面监测站点还非常不完善,尤其在西部地区非常少,短时间内要进行大气污染预警在这些地方难度很大。佳格“霾图”可以作为地面站点采集到的数据的很好的补充,节省政府基建费用。这也是国内目前非常流行的 PPP(private public partnership)模式。


从不同的国际卫星拿到数据源

做环境大数据,首先要拿到准确的数据源。佳格霾图的数据源主要来自几个不同国家的极轨卫星,静止卫星和激光卫星。据王蕴刚叙述,这些卫星数据是公开的,它一直在往地球发射信号,理论上只要有接收器就可以搜集卫星数据,并且全球无死点,各地数据都是可以拿到的。

极轨卫星每天两次飞越地球表面上的同一个点,而且总是在同一个钟点(极轨卫星所在的瞬时轨道平面与太阳始终保持固定的取向,可以使得卫星所经过地点的地方时基本相同,卫星遥感探测资料具有长期可比性。由于这种卫星轨道的倾角接近90°,卫星近乎通过极地,所以称它为“近极地太阳同步轨道卫星”,简称极轨卫星。)。它的优点是空间分辨率高;不同于极轨卫星,静止卫星则定点在某个地方,每二十分钟提供一个采样点,优点是时间精度很高;激光卫星,则能给大气污染物垂直方向分布有一个测量,人的呼吸空气是地表空气,而前两种卫星测量大气高度相对较高,所以这个卫星可以纠正之前的数据。

三种卫星的数据融合后,再加上地面数据进行矫正。地面数据首先包括从交通部门拿到的车流量数据。王蕴刚举了个例子,比如某个地方车流量很大,该地区空气质量就会比较差。除此之外,地面数据还包括了地形数据,气象数据等。


佳格霾图的数据存储、整合及算法

佳格在初期从Amazon WebService (AWS)租了入门级的服务器来存储数据。随着产品的不断开发,此存储器已远不能满足数据的需求量。现在佳格使用的是AWS的升级扩容版的服务器,但是存储量依然不能满足实时的需求 - 只留存三十天的数据,并且只储存处理过的数据而不是原始数据。从卫星和地面收集的原数据量极大,实时的话每小时就可以达到数十GB左右的数据。未来佳格将会把服务器搬回国内,使用国内的数据服务器来存储佳格所需的环境大数据。


对采集到的大量数据,需要进行整合处理才能用来生成佳格霾图。佳格霾图的数据算法主要包含两个任务:


(1)数据同化和实时展示任务。佳格可以拿到的卫星数据主要分两种,一种是时间分辨率高的数据,一种是空间分辨率高的数据,佳格需要把这两种数据进行融合;同时卫星并不会直接给出PM2.5的测量数据,而是一类的光学指标,其中包括大气气溶胶光学厚度(aerosol optical depth)。佳格利用基于不同城市的自主研发的算法将这个变量计算出准确的PM2.5浓度值,并在霾图上实时展示。

(2)预测任务。现今国内空气质量预测主要有两种传统方法:第一种是根据大气物理化学(污染物的沉降,运输和扩散以及二次气溶胶反应)的经典算法跟污染物排放清单的集合对未来大气情况进行推测;第二种则是基于数理统计模型方法,比如拿到过去年的数据,通过对时间序列的季节性,趋势性进行分析来做预测,最终辅以人工判断。这两种方法主要使用的都是地面监测点提供的数据,并没有用到卫星数据。同时国内排放清单数据存在时效性弱的弊端,并且地面监测点分布不均且数据容易受到人为因素的影响。这样所得到的预测结果存在着极大的偏差和局限,准确度较低。

相比这两种传统方法,佳格所开发的预测方法和模型具有自己的特点:首先,佳格做预测的数据是更精确均匀的卫星数据。其次,佳格运用模型最优化方法,综合考虑多种国际上最先进的气候预测模型,通过算法选出动态的最合适的预测模型,用于预测未来五天内的空气质量情况。


佳格的未来 - 用大数据“雪中送碳”

“通过卫星大数据其实可以解决很多环境问题”,王蕴刚希望未来的佳格能够用大数据解决更多人们关心的问题。除了“霾图”,王蕴刚认为农业也是一个很有发展潜力的方向,卫星数据可以反应出地表植被,花期,作物何时成熟,土壤肥度,何时降水,地下水分布等农民关心的问题。“希望我们能够通过大数据产品解决农民耕种的实际问题,像何时耕种,种什么更高效,提高农作物产量等等,相比‘锦上添花’的产品,我们更希望自己能够‘雪中送炭’。”


小编的话:王总充满磁性的声音、幽默的语言、清晰的逻辑让两个小时的访谈轻松愉快。王总采访间隙中还和小编们爆料曾经“清华人气男模”以及“国旗仪仗队队员”的难忘经历,并和小编们分享了即将做爸爸的喜悦。这让小编们深切体会了一把这位曾经的“人气男模”、现今的佳格公司创始人、未来的“好爸爸”的个人魅力。


另外王总一直强调跟几个价值观合拍的合伙人一起做一件有意义的工作是特别幸福的事情。这一点小编们也深有体会,大数据文摘聚合了一批对大数据感兴趣、来自世界各地的志同道合的小伙伴,跟原点栏目一起工作的每天都充满乐趣,也欢迎对大数据及创业感兴趣的各位读者加入我们。回复“志愿者”可了解更多信息。


采访结束之时,王总还特意让小编带给大数据文摘原点栏目的读者一些自己的创业及工作上的启发。小编在此原文附送。

王蕴刚任清华国旗仪仗队成员照


王蕴刚给读者的话:

给创业者:

首先,创业当中最难的是找到一个真正契合的合伙人,现在回头看创业这条路很难,特别是当还没有完全退出自己之前工作的公司的时候,很多诱惑,有时候会想不如继续呆在原地,这个时候合伙人就是自己坚强的后盾;其次,创业公司早期人数不要多,2、3个人互相支持,是比较合理的方案;最后,我觉得创业不分老幼,如果觉得自己目前已经准备好了了,觉得能够很好的时间管理,就可以了,逼自己一下,人的潜力是很大的。

给大数据行业专家、工作者及爱好者:

大数据是一个比较新的行业,但是这个行业往前发展的前景非常光明,就像第四次产业革命,堪比瓦特发明蒸汽机,会颠覆很多传统行业,如果你们能坚持在这个行业,以后会有非常好的发展,如果想创业,目前也是一个非常好的创业时机,可以出来试试看。佳格目前在擂鼓征召海内外各类大数据行业技术人才,有感兴趣的朋友请直接与佳格取得联系。


给投资人:

佳格公司目前处于天使轮融资阶段,我们欢迎价值观以及专业背景与我们锲和的投资人入伙一起做些能写进未来史书的事情。



原文发布时间为:2015-05-15

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
分布式计算 数据可视化 数据挖掘
对maxcompute的数据进行临时分析 比如数据分布什么的 用什么工具比较好?
对maxcompute的数据进行临时分析 比如数据分布什么的 用什么工具比较好?
84 3
|
大数据
大数据透视《西游记》之妖怪分布
在《西游记》中,唐僧师徒四人历经九九八十一难,途中遭遇各路妖怪,有上仙的坐骑,有“倒插门”的女婿,有自行修炼成精的……,具体妖怪的统计从唐僧收了孙悟空之后(既第十四回以后)算起,人类的强盗不计算在内。
1713 0
|
分布式计算 大数据 Hadoop
好程序员大数据教程Hadoop全分布安装(非HA)
   机器名称 启动服务  linux11 namenode secondrynamenode datanode  linux12 datanode  linux13 datanode  第一步:更改主机名,临时修改+永久修改  临时修改:hostname linux11  永久修改: vi /e.
1222 0
|
存储 分布式计算 算法
|
存储 分布式计算 算法