云场景实践研究第22期:泰为

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,内容安全 1000次 1年
对象存储 OSS,恶意文件检测 1000次 1年
简介: 作为全球无线位置领域领跑者之一的泰为,通过基于阿里云EMR,实现了弹性调整集群规模、保证可靠性、可用性、用户作业信息安全性,SLA上升为99.999%,并且减少了企业运维的维护成本。本文将具体分析泰为ETL在阿里云EMR数据处理流程和数据准确性校验的探索与实践过程。
更多云场景实践研究案例,点击这里: 【云场景实践研究合集】联合不是简单的加法,而是无限的生态,谁会是下一个独角兽
作为全球无线位置领域领跑者之一的泰为,通过基于阿里云EMR,实现了弹性调整集群规模、保证可靠性、可用性、用户作业信息安全性,SLA上升为99.999%,并且减少了企业运维的维护成本。本文将具体分析泰为ETL在阿里云EMR数据处理流程和数据准确性校验的探索与实践过程。
“阿里云EMR从2015年11月发布EMR-1.0.0版本以来,至今才1年不到,已经升级为EMR-2.1.0版本,增加了许多的功能,如用户作业信息加密、与OSS存储无私接缝等等。在开发者与用户之间的积极良好沟通之中,我们有理由地相信,阿里云EMR在未来,会越走越远,越做越好!”
——武基鹏
泰为公司大数据平台产品技术工作负责人

采用的阿里云产品
  • 阿里云 E-MapReduce
  • 阿里云对象存储  OSS
  • 阿里云云服务器 ECS
  • 阿里云云数据库 RDS 版

为什么使用阿里云
阿里云EMR产品具有易用性、和OSS、RDS等产品深度结合、较高的安全性、较低的价格四个优势,同时支持按需创建方案。

关于 泰为
泰为公司成立于1999年,总部坐落于美国硅谷所在地加利福尼亚的桑尼维尔市。泰为公司是全球无线位置领域的领跑者之一,其手机导航产品曾服务于无线运营商AT&T, Sprint, CMCC等。Telenav自有品牌Scout产品,是当今能与Google map和Apple map竞争的为数不多的产品。也是全球车载导航产品的供应商,目前其导航产品正在Ford等世界顶级车厂中进行商用服务。

不足中寻求突破——运维之痛
在过去的ETL业务中,使用ECS机器搭建ETL集群环境耗费资源成本过大,运维人员的的维护成本较高。公司的Product Job需要在每天凌晨运行,需要很适合公司当前ETL 业务的创建方案,而且当Job 执行结束时,无论执行计划是否成功,都需要释放集群资源来降低企业的成本。

为什么选择阿里云?

泰为上云之路
在计划迁移Rundeck上的Product Job到阿里云EMR上,一定要先充分地了解现有业务的处理逻辑、Job脚本代码以及集群组件Hadoop、Hive环境等。为了不影响现有产品环境的稳定性,所以一般要先选择Stage的Job进行迁移,调试。其ETL业务在ETL Cluster的基本架构如图所示:

c23c05e9172358ce02911450e02838be4e890284

在接下来的工作中,仔细调研阿里云EMR产品,发现有四点优势: 有易用性有和OSS、RDS等产品深度结合有较高的安全性,主要整合了阿里云 RAM 资源权限管理系统,通过主子账号对服务权限进行隔离;其实还有更重要一点,在 [2016云栖大会] 上, 其价格再次降低,更加受企业青睐。由于公司的Product Job是每天凌晨run,所以阿里云EMR的 按需创建方案很适合我们当前的ETL 业务,而且当Job run结束时,无论执行计划是否成功,都会释放集群资源,降低企业的cost。

泰为ETL在阿里云EMR数据处理流程和数据准确性校验的探索与实践过程中,主要采用深究ETL业务逻辑、定制化所属自己的集群环境、迁移Stage Job至阿里云EMR、验证阿里云EMR Job Run数据的准确性、迁移Product Job 至阿里云EMR和验证结果数据准确性、停止前身Rundeck Job,正式调度阿里云EMR的执行计划几个主要环节。其中ETL业务在阿里云EMR的基本架构如下图所示。

59d4ae8c140629a18c63eb71e51a4e1ce087752e


实践中总结经验——拥抱阿里云EMR的成效
从公司方面来说:
减少运维人员的维护成本,更加易用;
每天调度EMR的Product执行计划,每月共只需约295元,而之前搭建ETL集群环境的5台ECS机器资源,每月共需3625元,大大降低地公司的项目费用;
释放集群机器资源,降低成本;
可以弹性调整集群规模;
可靠性和可用性得到了保证(SLA为99.999%);
加强用户作业信息的安全性;
提高管理控制,并建立战略继续提高生产力。

从个人方面来说:
对业务逻辑有着深刻了解;
Hive手工打补丁和编译版本;
对大数据这块有着更深刻的理解。

关于泰为的更多实践详情: 泰为基于EMR的考量与实践
原文发布日期:2016-11-07
云栖社区场景研究小组成员:丁匀泰,仲浩。
相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
相关文章
|
人工智能 物联网 大数据
云场景实践研究第89期:中信集团
中信云平台从立项到上线仅用了1个月,用户数从0发展到13万仅用了5个月。快,是中信2016年的工作总结重要的一项。如今,中信集团正在通过云计算、大数据、人工智能等技术实现互联互通的数字化建设,并通过数字化实现业务转型,找到新价值定位,形成新商业模式。
3184 0
|
存储 分布式计算 安全
云场景实践研究第84期:东润环能
让东润环能选择阿里云的原因,除了阿里云强大的云平台能力之外,还有阿里云数加MaxCompute的全方位服务能力及其稳定安全的表现。最重要的是采用阿里云数加,东润环能可以将所有精力都放在业务上,节省了自建机房在学习成本、开发成本、管理成本、投入机房资源和运维成本的总成本,将更多的精力和成本投入到业务方面。
2352 0
|
监控 数据可视化 大数据
云场景实践研究第86期:美甲帮
借助阿里云的力量,美甲帮实现了针对百万用户的精细运营,并且在业务上更敏捷、更智能、更具洞察力,还能够快速响应新业务的数据及分析需求。
2110 0
|
运维 物联网 关系型数据库
云场景实践研究第58期:华信瑞德
华信瑞德做为国内首家标识系统全产业链整体解决方案服务商,大多服务传统企业,通过拥抱云计算,发展空间更广阔。阿里云为其推荐了其认证的区域服务商——上海驻云信息科技有限公司。帮助华信瑞德轻松上云,并实现云上系统以及应用稳定、高效的运行,让其能更加专注于自身业务。
1950 0
|
新零售 存储 安全
云场景实践研究第62期:华栖云
在云栖大会成都峰会上,华栖云联合阿里云发布“云上电视台”解决方案,面向电视台新媒体部门,面向视频PGC/UGC,在阿里公共云上,一站式提供从直播、点播、短视频的生产、制作、发布到用户数据存留分析、精准推送、视频内容的生命周期管理等全套的解决方案。
2350 0
|
数据采集 分布式计算 算法
云场景实践研究第57期:明源云
本文中,明源云分享了整个的地产行业在阿里云大数据平台上的探索应用实践。自定义构建设计企业内部数据管理平台DMP平台,并通过应用场景诠释了大数据在地产行业的作用。
2175 0
|
新零售 分布式计算 算法
云场景实践研究第54期:小红唇
小红唇的业务数据库已经完全迁移到了阿里的RDS平台,借助阿里云的QUICK BI,小红唇能够非常方便地根据实际的运营数据对进一步的决策和运营商的策略进行调整,极大提高了运营效率。小红唇借助于阿里云MaxCompute比较完善的整个生态系统设计了大数据平台,并且无需专职数据团队,降低了人员成本,还拥有了在21天内搭建推荐系统的能力。
2259 0
|
存储 弹性计算 API
云场景实践研究第39期:WeGene
作为一家主打个人基因测序服务的公司,WeGene(微基因),通过使用阿里云服务,不仅为用户提供健壮的网络服务,而且还为公司提供基因分析需要的海量计算资源。本文将具体分析阿里云在实际中如何帮助WeGene简化数据存储、传输、计算等方面的问题。
2376 0
|
弹性计算 关系型数据库 RDS
云场景实践研究第30期:梅子淘源
梅子淘源作为一家初创公司,在上云后快速搭建了业务流程,使其可以再最熟悉的环境下起步,同时在云盾的保护下,保障了平台网站安全。本文将带领大家一同领略梅子淘源在上云之路中的感悟。
1677 0
|
监控 大数据 API
云场景实践研究第42期:趣医网
随着趣医网业务快速增长,技术架构也不断随之调整和优化,云架构体系高可用性、高扩展性、易运维的优点越来越突出。本文主要介绍趣医网与阿里云平台相关的早期技术选型以及三年来逐步上云之路。
1775 0