如何构建云原生的开源大数据平台 | 云原生开源大数据应用实战

本文涉及的产品
EMR Serverless Spark 免费试用,1000 CU*H 有效期3个月
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 随着开源技术与云原生的高度融合,阿里云开源大数据平台在功能性、易用性、安全性上积累了丰富的实践经验,已成功服务数千家企业,助力其聚焦自身核心业务优势,缩短开发周期、简化运维难度,拓展更多业务创新。10月29日,阿里云发布“如何构建云原生的开源大数据平台”解决方案,邀请到了来自阿里云、微淼、Inmobi的技术专家为大家现身说法,呈现上云实践。


随着开源技术与云原生的高度融合,阿里云开源大数据平台在功能性、易用性、安全性上积累了丰富的实践经验,已成功服务数千家企业,助力其聚焦自身核心业务优势,缩短开发周期、简化运维难度,拓展更多业务创新。10月29日,阿里云发布“如何构建云原生的开源大数据平台”解决方案,邀请到了来自阿里云、微淼、Inmobi的技术专家为大家现身说法,呈现上云实践。

image.png

本文主要从数据湖、实时数仓、检索分析等场景展开分享了云原生开源大数据应用实战


分享嘉宾: 刘玉全,阿里云智能大数据解决方案架构师


视频地址:https://yqh.aliyun.com/live/bigdataop


一、前言

随着各行各业的数据越来越多,自建大数据基础设施逐渐暴露出各种问题,比如采购周期长、运维成本高,技术栈复杂等。而选择上云成为抵抗该类问题的较优选择,企业不仅可以享受到云上强大的基础设施能力,同时云上丰富的生态计算和存储的弹性伸缩能力,为企业降本增效。


互联网中的 APP 普遍存在着内容推荐、实时风控、信息检索等各类解决方案需求,而实现这类需求则需要强大的计算和存储的能力。

 

二、云原生的开源大数据统一平台

image.png

云原生的开源大数据统一平台,是构建在云上,基于云原生的资源,如ECS \ OSS,这类云主机和云存储的 IaaS 基础设施。云原生开源大数据平台提供弹性伸缩、智能诊断、数据开发和监控报警等基础功能。


同时整个云原生大数据平台产品,可以基于开源 Apache Hadoop 生态运行,也可以基于 K8S 的资源管理平台来构建,而产品体系大概分为两类:

  • 半托管形态

以 E-MapReduce(简称 EMR,下同)产品为代表,EMR 为用户提供主流开源大数据组件,比如 HivesparkKafkaPrestoClickhouse 等,用户可以自由搭配使用,并由 EMR 提供产品管控功能,让用户方便的使用开源大数据产品。

  • 全托管形态

如 FlinkSparkHadoopKafkaElasticsearch 等主流计算引擎或平台,提供全托管的 Service 服务。全托管的实时计算平台 Flink VervericaSpark 原厂的 Databricks Cloudera CDP 平台以及阿里云 Elasticsearch,为不同用户提供不同开源产品的使用方法。

同时阿里云也有中心化的产品,数据湖——“数据湖构建 DLF”,为用户提供统一的元数据入湖、管理等功能,与其他产品进行组合,提供完整的数据湖解决方案。

 

三、开源大数据上云

开源大数据平台 E-MapReduce 

image.png

大数据上云主要使用开源大数据平台 EMR,是运行在阿里云平台上的大数据处理系统解决方案。基于开源组件,进行了优化增强,性能远高于开源版本,并且跟随开源版本升级,与各个组件进行适配,保证兼容性的同时,具有足够的稳定性:

  • 兼容开源大数据组件

针对 Spark、Hadoop Kafka 等组件,基于开源版本进行了优化增强,性能得到极大提升。

  • 半托管形态

对于半托管式架构,用户自主可控参与度大,可与现有大数据资源进行无缝的迁移。

  • 云原生

阿里云云原生生态,支持数十种的 ECS 实例族,包括计算型、内存型、通用型、大数据型和 GPU 异构计算型,匹配不同大数据场景,同时提供分钟级集群创建和扩容,并支持弹性伸缩和竞价实例。

由于大数据场景一般有明显的数据波峰波谷的特点。比如凌晨的任务,需要一个比较高的 SLA 保障。而白天可能就是一个资源低谷,主要完成一些开发任务。我们通过弹性缩容能力,可以很好的达到节省成本的效果。


  • 云原生支持阿里云的对象存储 OSS

采用 JindoFS 加速 OSS 的性能,降低数据存储的成本。与阿里云的其他产品进行深度的集成,可以在 DataWorks 上使用 EMR,作为作业计算和数据存储的引擎,集成数据湖构建 DLF,实现数据湖场景下的多引擎的统一元数据的管理。


  • 企业级特性

比如 EMR APM,在集群主机服务作业层面的一个监控告警和诊断,支持 KerberosRAM 作为鉴权平台 Ranger 的权限管理,保证数据的安全。阿里云企业资源组和标签,方便企业做成本核算。

 

开源大数据上云方案

image.png

开源大数据搬站上云,是将 IDC 中自建或其他大数据平台,迁移到阿里云上,并通过EMR 产品延续开源技术栈,链接阿里云生态和开源大数据的生态。


根据数据规模和预算的不同,可以通过闪电立方、专线和公网的方式,按照计划,高效的把数据和任务迁移到云上,上云后集成阿里云整个数据生态:

  • 集成 DataWorks

提供高效、安全可靠的一站式大数据开发和治理平台。

  • 集成对象存储 OSS

EMR 中所有的计算引擎均支持采用 OSS 作为存储,可以将 OSS HDFS 一样使用,并采用 JindoFS OSS 数据读写进行加速。JindoFS 是数据湖的一个重要组件,现在有大量的用户在使用 JindoFS 构建云上的数据湖,实现数据库的分层存储,降低存储成本。

  • 集成数据湖构建 DLF

EMR 默认支持使用数据湖构建 DLF 进行元数据的管理,方便数据湖场景下的元数据管理。阿里云数据湖构建 DLF,使用阿里云对象存储 OSS 作为云上数据湖的统一存储

在云上,可以使用多种计算引擎,面向不同的大数据计算场景,使用统一的数据湖存储方案,避免数据同步产生的复杂性和一些运维的成本。

 

云原生的弹性:20%成本优化

image.png

云原生的弹性能力可以带来20%的成本优化。


传统的大数据计算业务具有很强的周期性,比如明显的波峰波谷,凌晨负载高而白天负载低,用户在规划集群的时候,传统模式下是要按照峰值规划集群,对资源有一定程度的冗余。


EMR JindoFS+ OSS 的数据湖方案,实现与 HDFS 基本一致的性能表现,为客户实现云上大数据架构的升级,实现了存算分离,让客户享受到计算弹性扩展与存储弹性扩展的红利,让客户更专注在应用层的开发。


使用存算分离架构后,集群根据业务周期和负载进行弹性伸缩,使用固定资源池加弹性资源池的方式:

对于比较固定的计算资源,使用固定的资源,确保可以锁定资源完成计算。

对于波峰或者是突发计算任务,采用弹性资源池来应对,以降低对计算资源的浪费。


四、云上实时应用

典型实时应用场景

image.png

大数据经过这么多年的发展,大规模计算的能力已经不是问题,时效性成为了一个重要的特性。


在阿里双11的场景中,当天所有的数据分析基本都是实时化,秒级更新;由于越来越多的离线处理,无法满足业务的发展,而需要更多的实时处理嫩能力,比如实时数仓,实时大屏,实时报表等。

市场投放同学基于实时投放的统计效果,实时调整投放策略;实时推荐,基于用户的实时行为计算用户的兴趣,然后帮助用户选择合适的内容;实时风控基于用户的行为特征,实时判断用户是否为作弊的用户,对作弊用户进行一些处罚的操作。


实时计算Flink

image.png

阿里云实时计算Flink ,是一套基于 Apache Flink 构建的一站式实时大数据分析平台,提供标准 SQL,降低业务的开发门槛,帮助企业向实时化、智能化大数据计算升级。


Flink 作为实时计算的流式计算引擎,可以处理多种实时数据,包括在线服务日志、IOT传感器数据、云上业务数据库 RDS 中的 Binlog


Flink 订阅 Kafka,消息队列中的实时数据,进行数据分析和处理,然后将分析的结果,实时写入到不同的数据存储中。例如 ClickhouseHologresElasticsearch 等产品,通过数据服务,支撑上层的数据应用。


实时计算Flink 基于平台底座,提供 Serverless 服务,全托管的容器化支撑:

  • 计算引擎 Runtime

包括了自研的流状态存储引擎 GeminiSQL 算子和作业调度的深度优化及丰富的开箱即用的 Flink connector 开发平台,提供了作业照顾的全生命周期管理。


  • AutoPilot 这个智能调优

可以在保证各个算子和流作业上下游性能稳定的前提下,调整作业并行度和资源的配置,然后全局优化作业,解决因吞吐量不足,导致全链路反压和资源浪费等各种性能调优的问题。


  • Prometheus 的全链路监控报警

所有的 Flink 实施任务都是要保证7×24小时运行,所以需要一个完善的监控体系,提供完善的任务运行监控指标,然后查看任务运行的健康状态。当作业发生异常时,及时通知相关人员介入处理。

 

云上开源实时数仓的最佳实践

image.png

在云上可以通过 FlinkKafkaClickhouse 实现一套全链路的实时数仓的最佳实践。

将业务日志、业务数据,实时采集到消息引擎 Kafka 中,利用 Flink 对数据进行实时的ETL 处理汇总分析,然后将结果保存到 Clickhouse 中,通过 Clickhouse 支撑上层大数据的应用,比如实时报表,实时营销的分析,AB 实验的功能。


五、云上检索应用

典型检索应用场景

image.png

现在每一个移动互联网中的用户,每天都在查询各种各样的信息。比如附近的餐厅、酒店、你的购物订单、物流的信息应用。

那么就需要帮助用户高效的获取信息,提供一个面向海量数据的信息检索的服务。


日常如我们在购物时搜索自己感兴趣的商品,朋友聚餐时寻找附近有特色餐厅和咖啡馆,研发同学,在业务系统产生异常日志异常时,通过日志进行分析排查问题。


阿里云 Elasticsearch

上述场景都需要一个信息检索的服务,而 Elasticsearch 拥有强大的全文检索的能力,可以实现复杂的组合条件和模糊的查询,然后轻松应对各种文本和地理位置信息的检索查询。

阿里云 Elasticsearch 提供全托管的ELK服务,100%兼容开源,免费提供 X-pack 商业插件,即开即用,按需付费。同时,深入功能与内核性能优化,提供更丰富的分析检索能力,更安全、高可用的服务:

  • 整体成本降低

与自建ES相比,由于整体云上托管,无需底层资源的运维投入,实现较低的运维成本

  • 集群管控

实现集群弹性扩缩容、Eyou 智能运维统一监控。

  • 与自建ES的能力差异

提供免费的 X-pack 插件、达摩院 NLP 分词插件、以及向量检索插件

  • 安全高可用

X-pack 安全组件和字段级别的安全控制,满足高可用和数据自动备份,同城多活架构,实现服务可靠性达到99.9999999%

 

云上信息检索应用最佳实践

image.png

各个企业在经营过程中,都会产生大量数据,有结构化和半结构化的数据。

比如说行业知识、地理位置信息、订单信息,音视频数据。这些数据可能存储在数据库RDS 或者是对象存储 OSS 中,亦或者是大数据存储引擎中。

通过数据集成工具,可以将这些数据同步到消息引擎或者是数据仓库中,通过Flink 对数据进行实时的处理,由 Maxcompute 或者 EMR SparkHive ,然后进行离线计算,将结果保存到 Elasticsearch中,为上层的数据应用提供检索服务,比如全文的检索和地址的查找。

 

以上就是云原生开源大数据应用实战分享的全部内容。




相关信息


点击链接观看直播回放,超多活动信息等你来

https://yqh.aliyun.com/live/bigdataop

⭐更多EMR相关信息,欢迎前往EMR产品详情页:    https://www.aliyun.com/product/emapreduce


⭐更多数据湖相关信息,欢迎前往数据湖构建DLF 产品详情页:  

https://www.aliyun.com/product/bigdata/dlf


欢迎钉钉扫码加入EMR产品交流群,为您提供最新的产品直播、产品活动及技术支持!

image.png

同重云E-MapReduce交...

Spark

美容瑞华天省新修康教电进重人,就锁

WOA量OTODO:OOAOODAOOO

微信公众号

关注我们获取最新资讯

EMR产品交流钉钉群


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
打赏
0
0
0
0
1336
分享
相关文章
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
392 1
课时6:阿里云MaxCompute:轻松玩转大数据
阿里云MaxCompute是全新的大数据计算服务,提供快速、完全托管的PB级数据仓库解决方案。它拥有高效的压缩存储技术、强大的计算能力和丰富的用户接口,支持SQL查询、机器学习等高级分析。MaxCompute兼容多种计算模型,开箱即用,具备金融级安全性和灵活的数据授权功能,帮助企业节省成本并提升效率。
云原生与大数据
【8月更文挑战第27天】云原生与大数据
111 5
软硬结合助力倚天云原生算力再进化,加速大数据、视频转码上云步伐
本文介绍了云原生算力的进化,重点讨论了倚天710 CPU在大数据和视频转码场景中的应用与优势。倚天710采用ARM架构,通过物理核设计和CIPU加速卡优化,显著提升了高负载下的性能稳定性,并在实际应用中帮助客户实现了20%-40%的性能提升和成本降低。此外,文章还探讨了操作系统、编译器等底层软件的优化,以及如何通过龙蜥社区和阿里云平台支持更多应用场景,助力企业实现高效迁移和性能优化。
大数据及AI典型场景实践问题之通过KafKa+OTS+MaxCompute完成物联网系统技术重构如何解决
大数据及AI典型场景实践问题之通过KafKa+OTS+MaxCompute完成物联网系统技术重构如何解决
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
飞天大数据平台产品问题之AIRec在阿里巴巴飞天大数据平台中的功能如何解决
飞天大数据平台产品问题之AIRec在阿里巴巴飞天大数据平台中的功能如何解决
深入解析大数据核心概念:数据平台、数据中台、数据湖与数据仓库的异同与应用
深入解析大数据核心概念:数据平台、数据中台、数据湖与数据仓库的异同与应用
MaxCompute 入门:大数据处理的第一步
【8月更文第31天】在当今数字化转型的时代,企业和组织每天都在产生大量的数据。有效地管理和分析这些数据变得至关重要。阿里云的 MaxCompute(原名 ODPS)是一个用于处理海量数据的大规模分布式计算服务。它提供了强大的存储能力以及丰富的数据处理功能,让开发者能够快速构建数据仓库、实时报表系统、数据挖掘等应用。本文将介绍 MaxCompute 的基本概念、架构,并演示如何开始使用这一大数据处理平台。
1071 0
"大数据计算难题揭秘:MaxCompute中hash join内存超限,究竟该如何破解?"
【8月更文挑战第20天】在大数据处理领域,阿里云的MaxCompute以高效稳定著称,但复杂的hash join操作常导致内存超限。本文通过一个实例解析此问题:数据分析师小王需对两个共计300GB的大表进行join,却遭遇内存不足。经分析发现,单个mapper任务内存默认为2GB,不足以支持大型hash表的构建。为此,提出三种解决方案:1) 提升mapper任务内存;2) 利用map join优化小表连接;3) 实施分而治之策略,将大表分割后逐一处理再合并结果。这些方法有助于提升大数据处理效率及稳定性。
190 0
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等