如何构建云原生的开源大数据平台 | 云原生开源大数据应用实战

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 随着开源技术与云原生的高度融合,阿里云开源大数据平台在功能性、易用性、安全性上积累了丰富的实践经验,已成功服务数千家企业,助力其聚焦自身核心业务优势,缩短开发周期、简化运维难度,拓展更多业务创新。10月29日,阿里云发布“如何构建云原生的开源大数据平台”解决方案,邀请到了来自阿里云、微淼、Inmobi的技术专家为大家现身说法,呈现上云实践。


随着开源技术与云原生的高度融合,阿里云开源大数据平台在功能性、易用性、安全性上积累了丰富的实践经验,已成功服务数千家企业,助力其聚焦自身核心业务优势,缩短开发周期、简化运维难度,拓展更多业务创新。10月29日,阿里云发布“如何构建云原生的开源大数据平台”解决方案,邀请到了来自阿里云、微淼、Inmobi的技术专家为大家现身说法,呈现上云实践。

image.png

本文主要从数据湖、实时数仓、检索分析等场景展开分享了云原生开源大数据应用实战


分享嘉宾: 刘玉全,阿里云智能大数据解决方案架构师


视频地址:https://yqh.aliyun.com/live/bigdataop


一、前言

随着各行各业的数据越来越多,自建大数据基础设施逐渐暴露出各种问题,比如采购周期长、运维成本高,技术栈复杂等。而选择上云成为抵抗该类问题的较优选择,企业不仅可以享受到云上强大的基础设施能力,同时云上丰富的生态计算和存储的弹性伸缩能力,为企业降本增效。


互联网中的 APP 普遍存在着内容推荐、实时风控、信息检索等各类解决方案需求,而实现这类需求则需要强大的计算和存储的能力。

 

二、云原生的开源大数据统一平台

image.png

云原生的开源大数据统一平台,是构建在云上,基于云原生的资源,如ECS \ OSS,这类云主机和云存储的 IaaS 基础设施。云原生开源大数据平台提供弹性伸缩、智能诊断、数据开发和监控报警等基础功能。


同时整个云原生大数据平台产品,可以基于开源 Apache Hadoop 生态运行,也可以基于 K8S 的资源管理平台来构建,而产品体系大概分为两类:

  • 半托管形态

以 E-MapReduce(简称 EMR,下同)产品为代表,EMR 为用户提供主流开源大数据组件,比如 HivesparkKafkaPrestoClickhouse 等,用户可以自由搭配使用,并由 EMR 提供产品管控功能,让用户方便的使用开源大数据产品。

  • 全托管形态

如 FlinkSparkHadoopKafkaElasticsearch 等主流计算引擎或平台,提供全托管的 Service 服务。全托管的实时计算平台 Flink VervericaSpark 原厂的 Databricks Cloudera CDP 平台以及阿里云 Elasticsearch,为不同用户提供不同开源产品的使用方法。

同时阿里云也有中心化的产品,数据湖——“数据湖构建 DLF”,为用户提供统一的元数据入湖、管理等功能,与其他产品进行组合,提供完整的数据湖解决方案。

 

三、开源大数据上云

开源大数据平台 E-MapReduce 

image.png

大数据上云主要使用开源大数据平台 EMR,是运行在阿里云平台上的大数据处理系统解决方案。基于开源组件,进行了优化增强,性能远高于开源版本,并且跟随开源版本升级,与各个组件进行适配,保证兼容性的同时,具有足够的稳定性:

  • 兼容开源大数据组件

针对 Spark、Hadoop Kafka 等组件,基于开源版本进行了优化增强,性能得到极大提升。

  • 半托管形态

对于半托管式架构,用户自主可控参与度大,可与现有大数据资源进行无缝的迁移。

  • 云原生

阿里云云原生生态,支持数十种的 ECS 实例族,包括计算型、内存型、通用型、大数据型和 GPU 异构计算型,匹配不同大数据场景,同时提供分钟级集群创建和扩容,并支持弹性伸缩和竞价实例。

由于大数据场景一般有明显的数据波峰波谷的特点。比如凌晨的任务,需要一个比较高的 SLA 保障。而白天可能就是一个资源低谷,主要完成一些开发任务。我们通过弹性缩容能力,可以很好的达到节省成本的效果。


  • 云原生支持阿里云的对象存储 OSS

采用 JindoFS 加速 OSS 的性能,降低数据存储的成本。与阿里云的其他产品进行深度的集成,可以在 DataWorks 上使用 EMR,作为作业计算和数据存储的引擎,集成数据湖构建 DLF,实现数据湖场景下的多引擎的统一元数据的管理。


  • 企业级特性

比如 EMR APM,在集群主机服务作业层面的一个监控告警和诊断,支持 KerberosRAM 作为鉴权平台 Ranger 的权限管理,保证数据的安全。阿里云企业资源组和标签,方便企业做成本核算。

 

开源大数据上云方案

image.png

开源大数据搬站上云,是将 IDC 中自建或其他大数据平台,迁移到阿里云上,并通过EMR 产品延续开源技术栈,链接阿里云生态和开源大数据的生态。


根据数据规模和预算的不同,可以通过闪电立方、专线和公网的方式,按照计划,高效的把数据和任务迁移到云上,上云后集成阿里云整个数据生态:

  • 集成 DataWorks

提供高效、安全可靠的一站式大数据开发和治理平台。

  • 集成对象存储 OSS

EMR 中所有的计算引擎均支持采用 OSS 作为存储,可以将 OSS HDFS 一样使用,并采用 JindoFS OSS 数据读写进行加速。JindoFS 是数据湖的一个重要组件,现在有大量的用户在使用 JindoFS 构建云上的数据湖,实现数据库的分层存储,降低存储成本。

  • 集成数据湖构建 DLF

EMR 默认支持使用数据湖构建 DLF 进行元数据的管理,方便数据湖场景下的元数据管理。阿里云数据湖构建 DLF,使用阿里云对象存储 OSS 作为云上数据湖的统一存储

在云上,可以使用多种计算引擎,面向不同的大数据计算场景,使用统一的数据湖存储方案,避免数据同步产生的复杂性和一些运维的成本。

 

云原生的弹性:20%成本优化

image.png

云原生的弹性能力可以带来20%的成本优化。


传统的大数据计算业务具有很强的周期性,比如明显的波峰波谷,凌晨负载高而白天负载低,用户在规划集群的时候,传统模式下是要按照峰值规划集群,对资源有一定程度的冗余。


EMR JindoFS+ OSS 的数据湖方案,实现与 HDFS 基本一致的性能表现,为客户实现云上大数据架构的升级,实现了存算分离,让客户享受到计算弹性扩展与存储弹性扩展的红利,让客户更专注在应用层的开发。


使用存算分离架构后,集群根据业务周期和负载进行弹性伸缩,使用固定资源池加弹性资源池的方式:

对于比较固定的计算资源,使用固定的资源,确保可以锁定资源完成计算。

对于波峰或者是突发计算任务,采用弹性资源池来应对,以降低对计算资源的浪费。


四、云上实时应用

典型实时应用场景

image.png

大数据经过这么多年的发展,大规模计算的能力已经不是问题,时效性成为了一个重要的特性。


在阿里双11的场景中,当天所有的数据分析基本都是实时化,秒级更新;由于越来越多的离线处理,无法满足业务的发展,而需要更多的实时处理嫩能力,比如实时数仓,实时大屏,实时报表等。

市场投放同学基于实时投放的统计效果,实时调整投放策略;实时推荐,基于用户的实时行为计算用户的兴趣,然后帮助用户选择合适的内容;实时风控基于用户的行为特征,实时判断用户是否为作弊的用户,对作弊用户进行一些处罚的操作。


实时计算Flink

image.png

阿里云实时计算Flink ,是一套基于 Apache Flink 构建的一站式实时大数据分析平台,提供标准 SQL,降低业务的开发门槛,帮助企业向实时化、智能化大数据计算升级。


Flink 作为实时计算的流式计算引擎,可以处理多种实时数据,包括在线服务日志、IOT传感器数据、云上业务数据库 RDS 中的 Binlog


Flink 订阅 Kafka,消息队列中的实时数据,进行数据分析和处理,然后将分析的结果,实时写入到不同的数据存储中。例如 ClickhouseHologresElasticsearch 等产品,通过数据服务,支撑上层的数据应用。


实时计算Flink 基于平台底座,提供 Serverless 服务,全托管的容器化支撑:

  • 计算引擎 Runtime

包括了自研的流状态存储引擎 GeminiSQL 算子和作业调度的深度优化及丰富的开箱即用的 Flink connector 开发平台,提供了作业照顾的全生命周期管理。


  • AutoPilot 这个智能调优

可以在保证各个算子和流作业上下游性能稳定的前提下,调整作业并行度和资源的配置,然后全局优化作业,解决因吞吐量不足,导致全链路反压和资源浪费等各种性能调优的问题。


  • Prometheus 的全链路监控报警

所有的 Flink 实施任务都是要保证7×24小时运行,所以需要一个完善的监控体系,提供完善的任务运行监控指标,然后查看任务运行的健康状态。当作业发生异常时,及时通知相关人员介入处理。

 

云上开源实时数仓的最佳实践

image.png

在云上可以通过 FlinkKafkaClickhouse 实现一套全链路的实时数仓的最佳实践。

将业务日志、业务数据,实时采集到消息引擎 Kafka 中,利用 Flink 对数据进行实时的ETL 处理汇总分析,然后将结果保存到 Clickhouse 中,通过 Clickhouse 支撑上层大数据的应用,比如实时报表,实时营销的分析,AB 实验的功能。


五、云上检索应用

典型检索应用场景

image.png

现在每一个移动互联网中的用户,每天都在查询各种各样的信息。比如附近的餐厅、酒店、你的购物订单、物流的信息应用。

那么就需要帮助用户高效的获取信息,提供一个面向海量数据的信息检索的服务。


日常如我们在购物时搜索自己感兴趣的商品,朋友聚餐时寻找附近有特色餐厅和咖啡馆,研发同学,在业务系统产生异常日志异常时,通过日志进行分析排查问题。


阿里云 Elasticsearch

上述场景都需要一个信息检索的服务,而 Elasticsearch 拥有强大的全文检索的能力,可以实现复杂的组合条件和模糊的查询,然后轻松应对各种文本和地理位置信息的检索查询。

阿里云 Elasticsearch 提供全托管的ELK服务,100%兼容开源,免费提供 X-pack 商业插件,即开即用,按需付费。同时,深入功能与内核性能优化,提供更丰富的分析检索能力,更安全、高可用的服务:

  • 整体成本降低

与自建ES相比,由于整体云上托管,无需底层资源的运维投入,实现较低的运维成本

  • 集群管控

实现集群弹性扩缩容、Eyou 智能运维统一监控。

  • 与自建ES的能力差异

提供免费的 X-pack 插件、达摩院 NLP 分词插件、以及向量检索插件

  • 安全高可用

X-pack 安全组件和字段级别的安全控制,满足高可用和数据自动备份,同城多活架构,实现服务可靠性达到99.9999999%

 

云上信息检索应用最佳实践

image.png

各个企业在经营过程中,都会产生大量数据,有结构化和半结构化的数据。

比如说行业知识、地理位置信息、订单信息,音视频数据。这些数据可能存储在数据库RDS 或者是对象存储 OSS 中,亦或者是大数据存储引擎中。

通过数据集成工具,可以将这些数据同步到消息引擎或者是数据仓库中,通过Flink 对数据进行实时的处理,由 Maxcompute 或者 EMR SparkHive ,然后进行离线计算,将结果保存到 Elasticsearch中,为上层的数据应用提供检索服务,比如全文的检索和地址的查找。

 

以上就是云原生开源大数据应用实战分享的全部内容。




相关信息


点击链接观看直播回放,超多活动信息等你来

https://yqh.aliyun.com/live/bigdataop

⭐更多EMR相关信息,欢迎前往EMR产品详情页:    https://www.aliyun.com/product/emapreduce


⭐更多数据湖相关信息,欢迎前往数据湖构建DLF 产品详情页:  

https://www.aliyun.com/product/bigdata/dlf


欢迎钉钉扫码加入EMR产品交流群,为您提供最新的产品直播、产品活动及技术支持!

image.png

同重云E-MapReduce交...

Spark

美容瑞华天省新修康教电进重人,就锁

WOA量OTODO:OOAOODAOOO

微信公众号

关注我们获取最新资讯

EMR产品交流钉钉群


相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
6天前
|
数据采集 运维 Cloud Native
Flink+Paimon在阿里云大数据云原生运维数仓的实践
构建实时云原生运维数仓以提升大数据集群的运维能力,采用 Flink+Paimon 方案,解决资源审计、拓扑及趋势分析需求。
356 0
Flink+Paimon在阿里云大数据云原生运维数仓的实践
|
7天前
|
Kubernetes Cloud Native 微服务
企业级容器部署实战:基于ACK与ALB灵活构建云原生应用架构
这篇内容概述了云原生架构的优势,特别是通过阿里云容器服务Kubernetes版(ACK)和应用负载均衡器(ALB)实现的解决方案。它强调了ACK相对于自建Kubernetes的便利性,包括优化的云服务集成、自动化管理和更强的生态系统支持。文章提供了部署云原生应用的步骤,包括一键部署和手动部署的流程,并指出手动部署更适合有技术背景的用户。作者建议在预算允许的情况下使用ACK,因为它能提供高效、便捷的管理体验。同时,文章也提出了对文档改进的建议,如添加更多技术细节和解释,以帮助用户更好地理解和实施解决方案。最后,展望了ACK未来在智能化、安全性与边缘计算等方面的潜在发展。水文一篇,太忙了,见谅!
|
2月前
|
Cloud Native 测试技术 数据库
【云原生之Docker实战】使用Docker部署flatnotes笔记工具
【5月更文挑战第17天】使用Docker部署flatnotes笔记工具
109 8
|
2月前
|
Cloud Native 关系型数据库 分布式数据库
【PolarDB开源】PolarDB数据迁移实战:平滑过渡至云原生数据库
【5月更文挑战第24天】本文介绍了如何平滑迁移数据至阿里云的云原生数据库PolarDB,包括迁移准备、策略选择、步骤、验证及示例代码。通过需求分析、环境准备和数据评估,选择全量、增量或在线迁移策略。使用数据导出、导入及同步工具(如DTS)完成迁移,并在完成后验证数据一致性、性能和安全。正确执行可确保业务连续性和数据完整性。
138 1
|
2月前
|
存储 弹性计算 Kubernetes
【阿里云云原生专栏】深入解析阿里云Kubernetes服务ACK:企业级容器编排实战
【5月更文挑战第20天】阿里云ACK是高性能的Kubernetes服务,基于开源Kubernetes并融合VPC、SLB等云资源。它提供强大的集群管理、无缝兼容Kubernetes API、弹性伸缩、安全隔离及监控日志功能。用户可通过控制台或kubectl轻松创建和部署应用,如Nginx。此外,ACK支持自动扩缩容、服务发现、负载均衡和持久化存储。多重安全保障和集成监控使其成为企业云原生环境的理想选择。
263 3
|
2月前
|
监控 安全 Cloud Native
【云原生之Docker实战】使用Docker部署Ward服务器监控工具
【5月更文挑战第11天】使用Docker部署Ward服务器监控工具
93 4
|
2月前
|
Cloud Native 安全 Linux
【云原生之Docker实战】使用Docker部署mBlog微博系统
【5月更文挑战第10天】使用Docker部署mBlog微博系统
41 2
|
2月前
|
存储 运维 监控
探索云原生技术在大数据分析领域的应用
传统的大数据分析往往需要庞大的硬件设施和复杂的维护工作,给企业带来了昂贵的成本和管理难题。而随着云原生技术的发展,越来越多的企业开始将大数据分析迁移到云平台上,以享受弹性、灵活性和低成本的优势。本文将探讨云原生技术在大数据分析领域的应用,介绍其优势和挑战,并展望未来的发展方向。
33 0
|
2月前
|
存储 分布式计算 DataWorks
【阿里云云原生专栏】云原生下的数据湖建设:阿里云MaxCompute与DataWorks解决方案
【5月更文挑战第26天】在数字化时代,数据成为企业创新的关键。阿里云MaxCompute和DataWorks提供了一种构建高效、可扩展数据湖的解决方案。数据湖允许存储和分析大量多格式数据,具备高灵活性和扩展性。MaxCompute是PB级数据仓库服务,擅长结构化数据处理;DataWorks则是一站式大数据协同平台,支持数据集成、ETL和治理。通过DataWorks收集数据,MaxCompute存储和处理,企业可以实现高效的数据分析和挖掘,从而提升业务洞察和竞争力。
398 0
|
2月前
|
关系型数据库 分布式数据库 数据处理
【PolarDB 开源】PolarDB 在大数据分析中的应用:海量数据处理方案
【5月更文挑战第25天】PolarDB是解决大数据挑战的关键技术,以其高性能和可扩展性处理大规模数据。通过与数据采集和分析工具集成,构建高效数据生态系统。示例代码显示了PolarDB如何用于查询海量数据。优化策略包括数据分区、索引、压缩和分布式部署,广泛应用于电商、金融等领域,助力企业进行精准分析和决策。随着大数据技术进步,PolarDB将继续发挥关键作用,创造更多价值。
182 0