云场景实践研究第81期:大搜车

简介: 2017云栖大会HBase专场,大搜车高级数据架构师申玉宝带来阿里云云数据库HBase在大搜车金融业务中的应用实践。本文主要从数据大屏开始谈起,进而分享了GPS风控实践,包括架构、聚集分析等,最后还分享了流式数据统计,包括数据流、数据合流和服务监控等。

更多云场景实践研究案例,点击这里:【云场景实践研究合集】联合不是简单的加法,而是无限的生态,谁会是下一个独角兽

2017云栖大会HBase专场,大搜车高级数据架构师申玉宝带来阿里云云数据库HBase在大搜车金融业务中的应用实践。本文主要从数据大屏开始谈起,进而分享了GPS风控实践,包括架构、聚集分析等,最后还分享了流式数据统计,包括数据流、数据合流和服务监控等。

“最近几年二手车业务发展非常迅猛,大搜车一直做B端的业务,我们在B端里面4S店的市场占有率已经达到90%以上。今年年初我们觉得时机成熟了,我们就做了弹个车,它是比较典型的汽车金融。无论是车商业务,还是金融业务,都对我们数据采集、数据整理、数据使用提出了非常多的挑战。而HBase性能比较稳定,也可以水平拓展,很好地支撑了我们的业务。”

——申玉宝

大搜车高级数据架构师


采用的阿里云产品

  • 阿里云云数据库 HBase版本
  • 阿里云消息队列 MQ
  • 阿里云云数据库 RDS

为什么使用阿里云

HBase性能比较稳定,支持水平拓展,很好地支撑了公司的业务。


关于 大搜车

大搜车是中国领先的汽车新零售和新金融平台。凭借多年对汽车行业的深刻洞察与理解,大搜车推出了“大风车业务管理系统”、“车牛二手车经营APP”、汽车消费金融方案“弹个车”、新车B2B交易服务平台“车行168”等产品,为汽车经销商提供软件、金融、交易及营销等一站式服务,驱动中国汽车及二手车行业的创新发展。


为什么选择阿里云?

数据大屏实践

8e93877bcaca40a65f7f03900f19cd17ec78a98b

图为大搜车平台展示的其中一个数据大屏,它是上海地区弹个车业务一个小时以内的行驶轨迹,看起来还是比较震撼的。该大屏还有一个配置的页面,用户可以选择时间、城市,业务同学可以自己配备报表,方便他们对外做一些商务事务。

a71d5e8bbee8211171d2f41bc7729b47189e9a34

我们看一下报表是如何实现的。这个报表的数据源来自车载GPS设备,GPS设备会定时上报一些数据,包括精度、纬度、点火状态的数据,这些数据会先经过GPS上报,会做状态的管理、里程,之后生成想要的报表,数据到达终点。这个数据会通过数据网关,数据网关是对外提供产品都要经过的地方,并且会进行系统跟踪等。车载设备上传各种的基础数据会存到GPS。针对这个场景,我们根据时间、城市来查数据,所以需要对报表单独建立一个索引。因为我们在查数据的时候,这个场景只需要精度和纬度,这样在查数据的时候直接在索引中就可以完成所有数据查询,不用再回主表,大大减少了产品的耗时。

c9a6169c9ff29a64c662b5366b5b7545c8856f24


平台在报表的应用层也做了一些优化,大屏里面是该地区所有车辆轨迹,这个数据量是非常巨大的,如果直接浏览就会卡死,所以平台首先做了分片。刚开始只查询一个小时的少量数据,这个数据拿到以后开始渲染,数据请求下一时间段的数据,前端渲染是不停的,后端数据也一直往上堆积,所以平台在打开页面的时候可以立即开始整个页面的展示。另外,因为数据传输非常频繁,使用Websocket减少建立 HTTP 请求耗时。

743d12a558dd88b0e92a41c9c250be0f6eba3427

刚才的大屏是离线大屏,而现实中实时业务大屏非常常见,这是弹个车实时成交数据大屏。大屏数据来自公司平台的业务埋点日志,大屏当中也会用到基础的纬度数据,平台直接拉到了MySQL,平台内部的计算框架会根据MQ进行数据的处理,组装成需要的数据,放到终点Phoenix当中。

业务架构

文本颜色0a5ad78aff37f02168f6f2c19e9987bf461d98a4


最早设备是来自厂商上报的,后来因为对接的厂商比较多,发现了一些故障。平台上报到网关,包括设备注册、状态维护、里程纠偏,设计运营环境非常复杂,有可能这辆车没有电了,里面存储的数据没有了,也有可能跑到非常偏远的地方,没有办法上报数据,还有一些上报的里程非常奇怪,本来是两万多,突然变成一万,表现在数据上可能会是非常诡异的点,。针对这部分,平台做了一些清洗,比如说偏移,平台会根据前后一些点的关系做一些数据的过滤。还有里程纠偏,平台对时间做了一些分片,每分钟都会有一个点,平台会统计这分钟结束时间减去起始,计算出真正的里程,可以对这块数据作出处理,对一天的影响就非常小。平台在这里花了大量的精力,一大半时间都在清洗数据。

接下来数据通过MQHBase,实时轨迹、电子围栏、停留点分析、聚焦分析,这些数据会和材料验证一块提供给平台的贷后运维同学来判断风险。平台发现很多骗贷的并不是个人,而是一些机构,有些村子都是骗贷的团伙,有些是负责伪造材料,有些是负责申请贷款,平台针对这些场景,把每个车的具体情况分析出来,因为正常是面向C端用户,不应该大量车聚焦在一个地方。最后这些数据进入到预警后台。

流式数据统计

d0b639e8adc34908887b4a44a1c1925a0edfc856

有些车辆列表大家看到的并不是动态的,会根据流量数量、地理位置来决定一个智能点的排序,这就需要很多特征、流式计算的场景。全国实时车交数据和报表,产品经理都比较人性化,所有数据都想立刻在报表里面更新,所以这些也是主要的场景。

这些业务特点:

实时数据间隔非常短,平台会要求10秒或者5秒的时间窗口就要更新过来;

数据量比较大,平台遇到了一些百万兆、亿兆的;这些场景还有并发要求,毕竟是线上业务,我们是一个B端业务,所以对内部要求还没有太高,100QPS就可以满足我们这个阶段的要求;

业务变化非常快,如果一个需求真的做一个月,做完了以后规则就变了,所以查询纬度很多、变化很大,针对这些平台会细分一些性能,然后提高开放的速度。

3c1507ca980d7276c36312ccb0eb14b89b965800

这是数据流,最多的数据还是来自RDS,把数据库的各种数据变更转化成MQ消息,再加上以前还有很多埋点消息都会统一到MQ。所有数据会在平台计算框架里面聚合起来,按照平台的业务场景把它放在Phoenix里面,先放到明细数据。平台针对每个场景单独聚合好,可以直接查询。还有一些场景计算量很大,会有一些统计数据,以此来支撑平台的线上业务。A、B、C业务通过数据网关来访问数据。

3425dec21b8885df7f6cc866ae1287b7b21aaa13

数据合流是平台现在遇到的比较大的问题,有一个定单表,里面有金额、品牌等等,需要把所有数据合并到一起提供服务,对流式处理来说这个问题非常棘手,因为数据是流式到达的,而且到达是无序的。平台也做了一些处理,对每一个处理流里面立一个表为主表,每次数据到达的时候会有一个监测模块,看是否符合合流条件,会从库里面检查数据是否真的到达了,按照业务规则组合数据。这里也要做优化,并不是直接查,是要经过数据缓存。

97a3880c81d9f0bbecfe86251cb557e32ceffafe

性能测试方面平台找最低配的集群,Master(2C4G)+CORE(4C8G)×2,数据量:—100Million,这对平台场景来说已经绰绰有余,再加上Phoenix性能的拓展非常方便。这些性能测试其实跟性能条件关系非常大,这只是平台内部的测试,更标准的数据还要参考官方的数据。

656e21b055f22e2cc28caa027a542e4c78ae2875

服务监控上,流式和离线不太一样,流式数据一天24小时在线,所以它的稳定性非常重要,不能跑着跑着就挂了。阿里云后台本身的监控可以看到一些机器的信息。另外,平台内部开发了一套业务监控系统,平台所有请求都是通过数据网关,数据网关的重要功能就是整个服务的监控,它每次访问都会记一个日志,日志里面有访问的数量、访问的时间,按表来查,这样对平台查询问题帮助非常大。另外,平台业务监控系统也有移动版,以前出什么问题在公交车上都得拿出电脑,现在直接在移动端里查,比较方便。


拥抱阿里云所带来的成效

最近几年二手车业务发展非常迅猛,大搜车一直做B端的业务,大搜车高级数据架构师申玉宝反映,在B端里面4S店的市场占有率已经达到90%以上。今年年初公司认为时机较为成熟,他们就做了弹个车,它是比较典型的汽车金融。无论是车商业务,还是金融业务,都对他们数据采集、数据整理、数据使用提出了非常多的挑战。而HBase性能比较稳定,也可以水平拓展,很好地支撑了他们的业务。


关于大搜车的更多实践详情:HBase在大搜车金融业务中的应用实践
原文发布日期:2018-01-11
云栖社区场景研究小组成员:沈金凤,仲浩。

相关实践学习
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
分布式计算 大数据 关系型数据库
云场景实践研究第83期:众安保险
当传统保险公司还在将“开门红”作为重中之重提前几个月做准备的时候,互联网保险公司关注的则是“双十一”和“双十二”。2017年双十一当日,刚刚在香港上市的众安保险的保单量突破3亿,比2014年增长超过200%。阿里云所输出的服务,则在帮助基础设施建设发挥“乘数效应”。
1894 0
|
存储 弹性计算 安全
云场景实践研究第80期:华大基因
作为全球最大的基因组学研究中心,华大基因在阿里云的帮助下,实现了海量数据的及时获取、快速分析、安全储存。本文将带领大家一同了解华大基因的基于大数据分析的云计算实践之路。
4366 1
|
新零售 分布式计算 监控
云场景实践研究第40期:网聚宝
作为阿里云的深度用户,网聚宝的成长和阿里云的成长已经深深交织在了一起,在公开的5个产品技术上总投入资源大约是同类产品的1/5。作为一个中小规模的技术团队,客户已有3000多家品牌。本文将详细解读网聚宝在使用阿里云产品4年的过程中,基于云计算的架构心得。
1971 0
|
存储 分布式计算 安全
云场景实践研究第84期:东润环能
让东润环能选择阿里云的原因,除了阿里云强大的云平台能力之外,还有阿里云数加MaxCompute的全方位服务能力及其稳定安全的表现。最重要的是采用阿里云数加,东润环能可以将所有精力都放在业务上,节省了自建机房在学习成本、开发成本、管理成本、投入机房资源和运维成本的总成本,将更多的精力和成本投入到业务方面。
2303 0
|
监控 数据可视化 大数据
云场景实践研究第86期:美甲帮
借助阿里云的力量,美甲帮实现了针对百万用户的精细运营,并且在业务上更敏捷、更智能、更具洞察力,还能够快速响应新业务的数据及分析需求。
2006 0
|
运维 关系型数据库 数据库
云场景实践研究第52期:畅游
混合云在安全上有很重要的优势,阿里安全体系很健全,混合云模式既保证了用户线下的场景核心需求,同时依托阿里安全防护体系,将安全堡垒又加固了一层,混合云可能比常规的云上云下打通更实际,优势更明显。借助阿里云提供的混合云解决方案,畅游在游戏的维护成本等各方面都有很大的进步,其故障修复和应用上线的时间速度提升几十倍甚至上百倍。
2418 0
|
新零售 存储 安全
云场景实践研究第62期:华栖云
在云栖大会成都峰会上,华栖云联合阿里云发布“云上电视台”解决方案,面向电视台新媒体部门,面向视频PGC/UGC,在阿里公共云上,一站式提供从直播、点播、短视频的生产、制作、发布到用户数据存留分析、精准推送、视频内容的生命周期管理等全套的解决方案。
2287 0
|
数据采集 分布式计算 算法
云场景实践研究第57期:明源云
本文中,明源云分享了整个的地产行业在阿里云大数据平台上的探索应用实践。自定义构建设计企业内部数据管理平台DMP平台,并通过应用场景诠释了大数据在地产行业的作用。
2125 0
|
安全 云计算 CDN
云场景实践研究第33期:神州优车
神州优车已经使用了阿里云的ECS以及OSS服务以及CDN等非常多的云产品,并且实现了稳定的私有云与阿里云的混合云架构,阿里云在效率质量与成本上的高性价比也为神州优车带来了较高的收益与很好的口碑。
1559 0
|
安全 NoSQL 大数据
云场景实践研究第51期:趣店
对于像趣店这样的创业团队而言,由于成本问题,自建IDC显然是不现实的,所以趣店在创业之初就选择了上云。如今,趣店对于阿里云存在着深度依赖的关系,只要有需求一来,技术团队首先会去思考阿里云有没有这样的服务,这样的方式帮助趣店将精力集中在自己的业务本身,使得产品能够迅速得以迭代。
2091 0