MaxCompute2.0助力众安保险快速成长

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 摘要:2017云栖大会阿里云大数据计算服务(MaxCompute)专场,众安保险数据总监王超群带来MaxCompute助力众安保险方面的演讲。本文主要从MaxCompute优势开始谈起,进而谈及大数据能够公司运营带来的好处,最后重点分析了众安保险的数据平台建设,包括任务调度、元数据和数据质量监控等。

摘要:2017云栖大会阿里云大数据计算服务(MaxCompute)专场,众安保险数据总监王超群带来MaxCompute助力众安保险方面的演讲。本文主要从MaxCompute优势开始谈起,进而谈及大数据能够为公司运营带来的好处,最后重点分析了众安保险的数据平台建设,包括任务调度、元数据和数据质量监控等。

 

以下是精彩内容整理:

众安保险作为国内第一家互联网公司,我们从创立之初计算平台就使用MaxCompute。

 6d26c2c1ef9bb11d35cc5d8693606df14ced8370

为什么会选择MaxCompute

成立之初我们也在自建平台和MaxCompute上作出了选择,我们主要从五方面考虑:健壮性、与应用系统交互、扩展性、强数据安全和低成本。

健壮性:7*24的服务能力、异常恢复时长;

与应用系统交互:数据源的获取与数据输出效率和成本;

扩展性:当数据成倍增长时,计算能力弹性;

数据安全:数据异常攻击防护,提供多层沙箱防护及权限体系;

成本:自建成本和MaxCompute成本对比。

4ed20d1f89ab19c282083d0cbedf3e1749987a63

首先,2013年能够提供完整能力的计算平台并不是很多,MaxCompute孵化于阿里金融的生产系统验证后对外输出,支持5000台以上的计算能力,满足我们对弹性和扩展性的要求;其次,我们对阿里云专业能力的信任,可以看到阿里云在国内的计算份额遥遥领先;最后,MaxCompute不仅仅是一个计算平台,它还提供了分析和挖掘工具的能力支持,提供可用的IDE(DataWorks、Studio)开发工具,这会降低我们最初加工开发过程中的开发成本。

 

大数据能给公司运营带来哪些颠覆?

da283bf47efc9449064ba7cdcc699e03b6f889bc

云计算和大数据整体生态链的发展如图,国内云计算年增长率超60%,AWS新增功能数可观,云计算正日益接近生活,从hadoop诞生以来,十年间产品丰富性大大增加,生态圈越来越大。


大数据不仅仅在于它的工具、平台和生态圈,更在于它能够赋能于人、场景,通过赋能支持生态发展,阿里每天都有上万人在使用MaxCompute在工作,大数据是对人赋能创造的新职业,反过来从业者也会反馈大数据,丰富大数据的场景,在十年的发展中,人和资源的投入也在反馈结果,同时还有资本的良性回报继续投入大数据行业,形成闭环。


9d25e8748aaeeee7732053f22e9077c9dcbe0528


众安是一家以保险为核心的公司,我们提供跨生态的连接,与各个子行业进行跨生态合作,包括电商、3C、汽车等,这些产品打通了各个生态伙伴同时也会增加我们对用户的接触,通过与300多个生态伙伴的合作,我们积累了大量用户数据及信息。最终,我们希望众安既能服务这些生态,又能通过数据积累、客户积累、品牌积累来做大做强众安自己的开放平台。

截至到2016年底,我们服务的用户为4.92亿,保单数72亿,为中国互联网的新生代提供了第一张保单。其中,30岁以下人群大约占比50%,说明众安保险代表这新的生活理念方式,而且这群人群有着充足的资产生产能力,他们对保险的认可度和意识是更高的,他们是将来的消费主力。

 

众安保险的数据平台建设

每串数字后面都是公司全体员工努力的结果,那么,基于MaxCompute数据平台做了哪些事情呢?怎样支撑业务快速发展?


567a347c0bb3a2aaf1480f9caf66c6c63cdc3820


数据平台分为平台工具、数据监控和数据服务。数据本身是有多源异构数据,数据价值体现在于它的流动性和开放性,只有把数据经过加工、质检提供到用户手中,才能产生价值。平台工具包括MaxCompute、数据同步、任务调度和计算存储管理;数据监控有预警系统、元数据、血缘关系和数据质量;数据服务包括数据门户、自助取数和服务API。


任务调度系统


125500b259a6a7a5d7e158542ebacaa5f3d7feba


任务调度本质上是要完成数据加工工作流的状态,数据加工是一个多链路的过程,如何保证数据顺序的正确性,我们支持日、周、月等不同周期调度,支持分组优先级,支持小时任务,支持自定义时间调度,日任务量超1W。

任务调度是一个有向图,每一个节点都可以看到来源数据是非常多的,红色数据代表出错状态,蓝色代表成功,绿色代表正在运行,黄色是存在的状态。不同任务加工来源于很多的数据源,就会给我们带来困惑,如果信息出现错误,那么到底是自身任务出错还是上游数据源结果引来的问题呢?那么,怎么让开发更快的定位问题,减轻开发成本,提供统一口径?我们通过元数据来解决。


元数据


57dfdc03cc2df65f961985b97a10e3c4862f4c3b


数据包括打通数据和数据间关系,利于模型优化和异常定位,打通数据与人之间的关系,利于成本优化。数据关系包括数据字典信息、血缘信息、存储和产出信息、表责任人信息和业务元数据信息,推动存储计算优化来降低MaxCompute使用成本。

左图为数据间的基本信息,还有数据产出信息、血缘关系;右图展示表的来源,输出会影响下一轮哪些表,获取信息以后,我们会把数据和数据之间打通,人和数据之间打通。


0d5b12ce19253524b376a682ae7bfd58fa567215


存储优化后成本下降了30%,通过存储计算优化降低无效存储,计算效率会提升。


数据质量监控

cacd21798b3db3ef5091d2f702e3880f2c7d6f51


数据质量监控通过切片方式嵌入到任务自身执行状态中,执行任务的自处理,自己判定自己的状态,基于规则与模板验证数据的准确性,只有Ok才会被下游使用,这样避免了数据污染,自身暴露错误不依赖于下游。它的特点是利用MaxCompute的统计项收集功能,规则是统计项规则,包含表和字段级别,模板为规则+周期+统计函数的整合,把事后监控变为事中监控,支持用户自定义,覆盖重点任务,覆盖率30%。


数据服务与安全

在消费时,我们会去考虑哪些东西呢?数据是要开放和流通的,在开放和流通中我们还要小心什么?数据泄露和安全都会导致公司的灾难。


在技术上,我们基于ACL与角色管理,赋予不同等级,我们做了表和字段级别的权限等级控制,建立敏感信息掩码、涉密信息的加密审批流程,开放与安全,基于技术控制和流程控制,各种角色需要数据。开放基础是安全控制,开放关键在流程管理,我们在开放与安全间做平衡。


在数据平台的建设中,要保持可用、易用、适用三个阶段,需要经历多次迭代升级系统。数据即服务,要满足用户不同的数据需求,数据是基础设施,每家公司都面临数据平台的搭建和使用。


MaxCompute生态的丰富,资源与工具的共享,对挖掘算法的深入及支持都可强大到满足我们的使用需求,我们可以有更多时间去接触用户,为用户创造价值。MaxCompute成本也在逐步下降。未来,希望MaxCompute提供更多种模式支持,包括UDF\资源库如IP库,包括挖掘的python算法包、人工智能平台支持。


6c4b69af9fd1b465628b63fcee73224de0b62357


MaxCompute招聘信息:DT时代,与坚持梦想者同行!


阿里巴巴大数据-玩家社区 https://yq.aliyun.com/teams/6/

---阿里大数据博文,问答,社群,实践,有朋自远方来,不亦说乎……

bba01b493e1c5d904e882b1c380673c6ebe49a98

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
算法 搜索推荐 大数据
保险大数据的实践与实战
保险大数据的实践与实战
保险大数据的实践与实战
|
算法 搜索推荐 大数据
保险大数据的实践与实战
以保险业为例,一方面大数据为保险业带来了新的商业价值,既改变了管理者的经营理念和决策支持,也促进深入有效发掘客户需求。而另一方面,大数据也变成了双刃剑,互联网公司凭借更完整的数据链条,对传统保险业形成新的压力。
|
机器学习/深度学习 人工智能 安全
|
监控 算法 大数据
【云栖大会】全国社会保险大数据应用创新大赛结果揭晓,互联网+人社产生新火花
传统的数据比对、诊疗规则筛查等审核手段难以适应医保监管的新要求,推进医保监管智能化迫在眉睫。通过大数据、云服务等互联网+基础建设,让人社大数据流动起来,为“互联网+人社”发展打造一条快速通道成为了必然之选。
2318 0
|
机器学习/深度学习 安全 搜索推荐

相关产品

  • 云原生大数据计算服务 MaxCompute