如何构建云原生的开源大数据平台 | InMobi 基于阿里云开源大数据服务的最佳实践-阿里云开发者社区

开发者社区> 阿里云E-MapReduce团队> 正文

如何构建云原生的开源大数据平台 | InMobi 基于阿里云开源大数据服务的最佳实践

简介: 随着开源技术与云原生的高度融合,阿里云开源大数据平台在功能性、易用性、安全性上积累了丰富的实践经验,已成功服务数千家企业,助力其聚焦自身核心业务优势,缩短开发周期、简化运维难度,拓展更多业务创新。10月29日,阿里云发布“如何构建云原生的开源大数据平台”解决方案,邀请到了来自阿里云、微淼、Inmobi的技术专家为大家现身说法,呈现上云实践。
+关注继续查看


随着开源技术与云原生的高度融合,阿里云开源大数据平台在功能性、易用性、安全性上积累了丰富的实践经验,已成功服务数千家企业,助力其聚焦自身核心业务优势,缩短开发周期、简化运维难度,拓展更多业务创新。10月29日,阿里云发布“如何构建云原生的开源大数据平台”解决方案,邀请到了来自阿里云、微淼、Inmobi的技术专家为大家现身说法,呈现上云实践。

288103CD-01F9-43de-842D-B960F73F7FE1.png

本文主要分享 InMobi 基于阿里云开源大数据服务的最佳实践


分享嘉宾: Murray Zhu,InMobi 技术运维负责人

视频地址:https://yqh.aliyun.com/live/bigdataop


一、公司介绍

InMobi AI 和效果驱动的全球化移动广告和营销科技平台,基于全球对接的海量 App和用户,为国内品牌和 App 提供移动广告推广和营销科技服务,为App开发者提供 App广告商业化变现服务。该平台成立于2007年,在2011年进入中国市场,以研发技术为导向,在移动端广告平台行业占据重量级地位,其专业技术在全球和中国都非常领先。InMobi 通过分布全球的23个国家和地区的本地化服务团队,触达10亿以上月活跃独立用户,提供数万个以上精细化受众分类,上千种维度标签,千万级用户自定义样本库的数据和 LBS 服务为基础的精准移动端广告。


作为一家全球领先的科技公司,InMobi CNBC 评为2019年度“全球50大颠覆公司”之一,亦被 Fast Company 杂志评为2018年度“最创新”公司之一。


二、InMobi 中国大数据解决方案

image.png

上图是 InMobi 原有的中国大数据集群架构,主要分为数据的摄入层、存储层、计算层,以及报表层。首先通过数据摄入层摄入广告前端的各种广告数据,特别是 RR 等数据,然后将数据存储到离线的 HDFS 大数据集群,再通过计算集群进行数据任务的处理,最后将处理完的任务,通过报表的方式展现给终端用户。

 

在大数据集群的运维过程中,一些问题逐渐暴露:

  • 大数据集群构建在 IDC,不利于资源伸缩和扩展

当计算资源不够用的时候,需要调配甚至暂停一些任务,优先跑重要的任务,对报表的生成并不友好

  • 数据报表实时性较差

数据报表实时性差,无法匹配业务方报表分钟级展现的需求

  • 用于处理实时报表数据的 Vertica 数据库,价格较为昂贵


三、InMobi 中国大数据集群优化方案

大数据集群的优化思考

InMobi 基于上述三个典型问题,针对优化方案进行了如下思考:

  • 构建混合云架构,引入阿里云大数据服务,解决伸缩的存储和计算资源扩展性问题

在云上开启更多大数据服务节点,通过大数据服务的弹性能力扩展短缺的计算和存储能力。特别是针对一些临时性的,如618、双十一等资源使用较为紧张的场景。

  • 通过 EMR ClickHouse 替换 Vertica 数据库,提升实时报表数据查询效率,并节省成本

ClickHouse 作为一个开源产品,目前已经大规模的在中国各种互联网公司的业务场景落地

  • 构建基于 Flink+EMR ClickHouse 的实时数仓体系,彻底解决数据报表实时性问题

解决数据报表实时性问题,至少达到分钟级,针对有特殊要求的报表达到秒级。


大数据集群的具体优化方案

  • 实时数仓和离线数仓解耦
    • IDC 大数据集群中,将离线数据报表资源和实时报表资源完全解耦
    • IDC 大数据集群中将离线数据报表任务和实时报表任务完全解耦
  • 重构实时数仓
    • Kafka 日志集群迁移到阿里云
    • 在阿里云上,基于 Flink+EMR ClickHouse 重构实时数仓集群
    • IDC 中,将原有 Storm 任务迁移到新的实时数仓集群
  • 优化离线数仓
    • 优化和回收利用 IDC 中的 HDP 大数据集群资源,节省成本;
    • 建立离线数据仓库 Hive
    • 在阿里云上开启新的数据节点,加入到离线大数据集群,扩展存储和计算资源;
    • 在阿里云上构建新的 Flume 集群,将 KafKa 中原始数据落盘到HDFS存储


优化后的大数据集群架构

image.png

如上图所示,优化后的大数据集群架构主要分为两部分:

  • AliCloud(Real Time),阿里云主要负责实时数据的处理。

从 KafKa 中读取rr log,通过 ClickHouse 写入到实时报表,根据业务要求,从 KafKa 中读取有用数据落到 MySQI 和 PostgreSQL 上。

  • IDC (Offline),IDC 主要负责处理离线的数据和报表业务。

通过 Flume 将 KafKa 里面的原始数据全量落盘到整个 HDFS 集群进行存储,然后进行数据分析和数据规整。在离线大数据集群上,将离线报表的业务需求通过 Spark 任务全部跑出,最后再将任务写回到 ClickHouse 中做离线数据报表的展现。


四、未来更多的技术探索和落地

基于 Flink+Hologres 构建流批一体的实时数仓

众所周知,Hologres 的架构是存算分离的。计算完全部署在 K8s 上,存储可以使用共享存储,根据业务需求选择 HDFS 或者云上的 OSS,实现资源的弹性扩缩容,完美解决资源不够带来的并发问题,非常适合 InMobi 的广告业务场景。


此外,Flink 做流、批数据的 ETL 处理,将处理的数据写入 Hologres 做统一的存储和查询,实现业务端直接对接 Hologres 提供在线服务,大大提高生产效率。



以上就是 Inmobi 基于阿里云开源大数据服务的最佳实践的全部内容。





相关信息


⭐点击链接观看直播回放,超多活动信息等你来

https://yqh.aliyun.com/live/bigdataop

⭐更多EMR相关信息,欢迎前往EMR产品详情页:    https://www.aliyun.com/product/emapreduce


欢迎钉钉扫码加入EMR相关产品交流群,为您提供最新的产品直播、产品活动及技术支持!

image.psd (9).png

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
今天登录金山的开源网址出现的错误
今天在群里看到金山的金山卫士开源 GUI框架代码,WTL写的,于是到网上找了下下载地址想去看一下,结果出了这样的问题 http://code.ijinshan.com 这个是开源的地址   Traceback (most recent call last): File "/data/app/python2.
640 0
阿里云Cloud Shell中使用日志服务CLI最佳实践
目前阿里云云命令行Cloud Shell已经部署日志服务CLI,免部署配置,一键管理日志服务资源与下载日志服务数据更轻松!
11440 0
阿里云大数据计算服务MaxCompute命令行工具——odpscmd的操作使用
在MaxCompute生态中,命令行工具究竟处于什么样的位置?它又发挥着什么样的作用?能够帮助开发者如何更好使用MaxCompute?在本文中,阿里巴巴计算平台产品专家曲宁将通过一个完整简单的小例子为大家介绍MaxCompute命令行工具odpscmd的使用以及其所具有的各种能力。
4708 0
这可能是大型复杂项目下数据流的最佳实践
实际项目中沉淀的数据流最佳实践。
1233 0
使用阿里云容器服务 ACK 和文件存储 NAS 构建现代化企业应用
大规模构建容器化应用程序需要高可靠、弹性、共享且支持高性能数据处理的数据存储解决方案。通过迁移到公共云,企业可以获得更高的生产效率和更低的成本。阿里云文件存储可以为现代化应用提供强健的数据稳定性,可靠性,高性能和在线扩展能力。
1317 0
217
文章
14
问答
来源圈子
更多
E-MapReduce是构建于阿里云ECS弹性虚拟机之上,利用开源大数据生态系统,包括Hadoop和Spark,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。加入钉钉群聊阿里云E-MapReduce交流2群,点击进入查看详情 https://qr.dingtalk.com/action/joingroup?code=v1,k1,cNBcqHn4TvG0iHpN3cSc1B86D1831SGMdvGu7PW+sm4=&_dt_no_comment=1&origin=11
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载