云场景实践研究第23期:掌慧纵盈

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,内容安全 1000次 1年
应用型负载均衡 ALB,每月750个小时 15LCU
简介: 2016年,掌慧纵盈通过阿里云产品,率先构建了业界领先的大数据平台。本文将具体分析掌慧纵盈如何选择阿里云E-MapReduce等产品来满足需求和相应业务架构的实现。
更多云场景实践研究案例,点击这里: 【云场景实践研究合集】联合不是简单的加法,而是无限的生态,谁会是下一个独角兽
借助“互联网+大数据+机场”三轮驱动,掌慧纵盈每年为6.4亿人次出行提供无线网络连接服务。随着业务的拓展,随之后来的挑战是数据量的暴增。2016年,掌慧纵盈通过阿里云产品,率先构建了业界领先的大数据平台。本文将具体分析掌慧纵盈如何选择阿里云E-MapReduce等产品来满足需求以及相应业务架构的实现。
“综合考察国内的云服务提供商,我们选择了阿里云,尤其是其E-MapReduce产品,购买之后,集群马上就创建好,Hive, Spark, HBase等开源大数据组件即刻可用。
——艾佳
掌慧纵盈科技股份有限公司大数据平台架构师

采用的阿里云产品
  • 阿里云 E-MapReduce
  • 阿里云对象存储  OSS
  • 阿里云云服务器 ECS
  • 阿里云日志服务 Log Service
  • 阿里云消息队列 MQ
  • 阿里云负载均衡 SLB
  • 阿里云大数据计算服务 MaxCompute

为什么使用阿里云
希望通过云平台将基础设施安装运维外包。
大数据技术日新月异,希望组件版本能够及时更新。
外部商业环境迅速变化,希望计算资源可以动态增减,以节约成本。
希望以较低的成本获取相对专业的安全服务。
尽量使用开源组件,方便整体输出。

关于掌慧纵盈
掌慧纵盈是中国领先的全球数据网络服务商,2009年成立于北京,是集智能硬件、云平台、精准广告营销、商业大数据应用、全球数据漫游于一体的生态型移动互联网企业。掌慧纵盈以“联接能力”为核心,致力于为全球用户提供便捷、安全、稳定的无线网络服务;为行业伙伴输出高效的经营能力;为企业提供基于场景化的大数据营销解决方案。

为什么选择阿里云?

掌慧纵盈上云之路
综合考察国内的云服务提供商,掌慧纵盈选择了阿里云,尤其是其E-MapReduce产品,购买之后,集群马上就创建好了,Hive, Spark, HBase等开源大数据组件即刻可用。

3b7f8bec9c8b1099f0186e8772a3a38927073ee0

首先在数据存储引擎上,以存储25TB的数据为基准,考察各个选项的性能和价格。从上图可以看出,针对离线分析来说,如果想用开源组件,可以考虑 Hive on OSS的模式,来存储近一年的数据。针对在线分析的场景,使用 HBase存储近三个月的数据,可以获得很高的性价比,这个方案可以多表联查,但是SQL的响应对场景敏感,不同复杂度的SQL响应时间是不一样的。如果希望响应时间恒定,可以考虑基于索引的方案,即 日志服务,缺点就是不能多表联查;如果想使用开源组件,可以自行在 ECS上搭建 ELK

3f328da941d1250abd51cc591622fc554c17b4ca

接下来在查询引擎选择上,掌慧纵盈使用一个基准SQL,方便对其响应时间进行横向对比,基准SQL如上图所示,结论是使用Phoenix基于HBase进行交互式查询,可以获得很满意的响应周期。

22f93046eb07bc3058ce63740fe8a8ff02ef386f

大数据平台的技术架构概览上图所示,图中几乎所有的服务和功能都是通过阿里云产品来实现的,其中开发测试环境也是基于 阿里云的ECS搭建的。从图中可以看出, 我们并不需要关心机房的电源、网络、虚拟化、硬盘更换等一系列基础设施问题,直接基于云平台,专注于我们自己的业务。

一般人我不告诉他(她)——阿里云产品的使用心得

E-MapReduce
阿里云的E-MapReduce是掌慧纵盈大数据平台的核心产品,其涵盖了 Hive, Spark, HBase, Storm等大数据领域核心的开源组件,还有 Phoenix, Presto等业界前沿的查询引擎,其 Zeppelin, Hue等交互组件也是开箱即用。

E-MapReduce所用的机器配置都很高,用来存储数据就可惜了,数据可以存储在OSS上,使用Hive加载即可。不过要使用HBase还是要把数据存到E-MapReduce上,一但放到E-MapReduce上,这个集群就不能随意销毁了。所以,我们实践当中将数据集群和计算集群分开,计算集群可以随时销毁和升级,数据集群需要长期稳定提供服务。这两种的集群配置也是不一样的,计算集群用SSD,主攻“快”,数据集群(HBase)用高效云盘,主攻“大”。

工单管理
使用阿里的云服务,最吸引人的就是工单服务。由于我们的运维团队会经常遇到复杂且需要紧迫解决的问题,团队成员可以直接通过工单请求阿里的工程师协助解决。沟通问题的过程也是我们学习的过程,我们向阿里云服务的工程师们学到了不少的东西。

软件视图
基于技术概览,掌慧纵盈技术架构中的软件视图如下所示:

2852b934d13c8cc287a1f672dab48dea71b6f18f

为了管理方便,掌慧纵盈将所有ECS都去掉了外网带宽,统一走 SLB,共享SLB的外网带宽,包括SSH等所有应用的端口都是用SLB转发。SLB带宽不受限制,速度上来了,成本下来了。掌慧纵盈采用 包月加自动续费的模式,随时增减机器,随时增配减配。 ONS即阿里的日志服务,阿里内部叫 MQ,其响应时间很快,吞吐量很大,可以应用于实时性非常高的场景,例如实时竞价。 Log Service包含 Logtail,LogStore, LogHub,LogShipper和LogSearch服务,其中日志投递( LogShipper)功能很有用,可以自动将采集的日志投递到OSS,这样就可以直接使用Hive加载了,不过目前只支持json格式。目前E-MapReduce已经提供了 Storm组件,想要使用此组件,有两个选择: 从日志服务消费;或者通过引导操作在E-MapReduce上安装Kafka,支持增加节点OSS主要用于存储,与E-MapReduce结合,实现了计算与存储的分离。 Zeppelin可以通过Web的形式使用 HiveQL, SparkSQL, Phoenix, Presto等对数据进行探索式和交互式的查询,而无需编程和登录SSH,并且可以保存过往的查询,还可以形成简单的柱状图饼图。

关于 掌慧纵盈的更多实践详情: 首次揭秘|为6.4亿人次出行提供无线网络的技术架构
原文发布日期:2016-12-29
云栖社区场景研究小组成员:丁匀泰,仲浩。
相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
人工智能 物联网 大数据
云场景实践研究第89期:中信集团
中信云平台从立项到上线仅用了1个月,用户数从0发展到13万仅用了5个月。快,是中信2016年的工作总结重要的一项。如今,中信集团正在通过云计算、大数据、人工智能等技术实现互联互通的数字化建设,并通过数字化实现业务转型,找到新价值定位,形成新商业模式。
3182 0
|
存储 分布式计算 安全
云场景实践研究第84期:东润环能
让东润环能选择阿里云的原因,除了阿里云强大的云平台能力之外,还有阿里云数加MaxCompute的全方位服务能力及其稳定安全的表现。最重要的是采用阿里云数加,东润环能可以将所有精力都放在业务上,节省了自建机房在学习成本、开发成本、管理成本、投入机房资源和运维成本的总成本,将更多的精力和成本投入到业务方面。
2350 0
|
监控 数据可视化 大数据
云场景实践研究第86期:美甲帮
借助阿里云的力量,美甲帮实现了针对百万用户的精细运营,并且在业务上更敏捷、更智能、更具洞察力,还能够快速响应新业务的数据及分析需求。
2110 0
|
数据采集 分布式计算 算法
云场景实践研究第57期:明源云
本文中,明源云分享了整个的地产行业在阿里云大数据平台上的探索应用实践。自定义构建设计企业内部数据管理平台DMP平台,并通过应用场景诠释了大数据在地产行业的作用。
2174 0
|
运维 物联网 关系型数据库
云场景实践研究第58期:华信瑞德
华信瑞德做为国内首家标识系统全产业链整体解决方案服务商,大多服务传统企业,通过拥抱云计算,发展空间更广阔。阿里云为其推荐了其认证的区域服务商——上海驻云信息科技有限公司。帮助华信瑞德轻松上云,并实现云上系统以及应用稳定、高效的运行,让其能更加专注于自身业务。
1949 0
|
新零售 存储 安全
云场景实践研究第62期:华栖云
在云栖大会成都峰会上,华栖云联合阿里云发布“云上电视台”解决方案,面向电视台新媒体部门,面向视频PGC/UGC,在阿里公共云上,一站式提供从直播、点播、短视频的生产、制作、发布到用户数据存留分析、精准推送、视频内容的生命周期管理等全套的解决方案。
2346 0
|
存储 Web App开发 弹性计算
云场景实践研究第48期:九游
要提升业务交付能力,亦要保证成本,九游利用阿里云OSS的能力,提升交付,降低成本,实现了发行高服务能力及高性价比的完美平衡。本文将从技术方面,向大家展示阿里云是如何支持九游的运维的。
1844 0
|
存储 弹性计算
云场景实践研究第44期:昆山必捷必
作为目前国内公共文化领域排名前三的顶级集成商,昆山必捷必在上云之后,实例可用性达 99.95%,云盘数据可靠性不低于 99.9999999%。本文将带领大家一同了解昆山必捷必的上云之路。
1704 0
|
存储 弹性计算 API
云场景实践研究第39期:WeGene
作为一家主打个人基因测序服务的公司,WeGene(微基因),通过使用阿里云服务,不仅为用户提供健壮的网络服务,而且还为公司提供基因分析需要的海量计算资源。本文将具体分析阿里云在实际中如何帮助WeGene简化数据存储、传输、计算等方面的问题。
2376 0
|
弹性计算 关系型数据库 测试技术
云场景实践研究第50期:咕咚
咕咚是独树一帜的互联网运动品牌,全国最大的全民运动社交平台,近几年,企业的活跃用户数在快速增加,对云资源的需求也在不断增长,原有的云资源已无法满足业务诉求。在阿里云的帮助下,企业选择从原有的经典网络迁移到专有网络,很好地满足了对云资源的需求。
2577 0