AtomData结合阿里云分布式存储实现海量数据分析(一)

本文涉及的产品
云原生网关 MSE Higress,422元/月
MSE Nacos/ZooKeeper 企业版试用,1600元额度,限量50份
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
简介: AtomData结合阿里云分布式存储实现海量数据分析(一)

云原生实时数仓-AtomData结合阿里云分布式存储实现海量数据分析(一)

嘉宾信息

王博

杭州石原子科技AtomData技术负责人


AtomData结合阿里云分布式存储实现海量数据分析(一)


内容介绍

一、 AtomData产品定位

二、 AtomData产品架构

三、 AtomData三大优势

四、AtomData产品特点

五、AtomData的技术架构

六、 适用场景

七、 高弹性、高性能海量数据存储方案

八、 适配阿里云分布式存储收益

九、AtomData 23年路标


研究背景:

我是石原子科技公司的技术负责人研究的是技术的架构和适用的场景,包括如何云阐述分析场景下的优势。


一、AtomData产品定位

image.png

第一个,我们产品的定位在常规的大数据,我们一般把数仓分为三层,第一层是处理层,它一般是由hadoop和这种大数据存储和计算组件的产,他承担着主数据的存储和计算功能,另外还分为负责对于速度的存取,包括一些实时数据的实数据的存储和更新,还分为了服务层,它负责对于企业在实时数据查询的需求,一般是由和es来承接,对这这种三层架构的这种大数据体系来说,整个架构是比较复杂的,它的灵活性和它的这个实施的敏捷度是比较低的。一般来说是t加一的模式,做好之后,把数据导入到层去,做数据的支持的服务,生命层一般有多种数据库可以用户去,比如,可以去处理场景下面的数据的多分析的问题,去处理k的数据结构的点的问题,去做了基于画像的分析,这种多维多维度的数据报表聚合的查询,对于这种复杂的大数据体系,可以作为大数据体系上面的服务层的这种解决方案能够去实时的,去实时的去存储用户的实时写入的数据和实时更新的数据,能够实时的为企业去做查询和分析,还可以去作为数据库去同时替换,包括速度,服务在用户体量在pb级别到p级别以内,在他没有非常强的这种结构处理处理需求的时候的业务逻辑相对比较简单的时候,以通过替换掉层去做数据离线数据的处理和加工塔,Mysql和双写的,它可以用mysql协议去接入用户的数据的需求,数据需求也可以利用大数据计算框架去利用协议去接入数据库,去做大规模的数据计算。

另外,它还可以支持纯算耦合的式分部署方式,这两种方式可以针对两种用户场景,在用户在用户的数据存储和数据计算需求比较固定的情况下,它可以用存上耦合的方式去部署数据库,去做数据的存储和计算。

当用户的数据存储需求和计算需求是浮动的时候,它可以用存算分离的方式去部署,利用新的能力去应对存算和计算的不同时段的需求。

另外,它还可以支持结构化和数据的存储,存储和分析,支持时空的数据,支持从到p级的数据的分析和存储需求景架构。


二、AtomData产品架构

image.png

 我们可以把它点燃的分为几块,从底层的就设施来看,它适配了业界主流的,配了主流的一些国产的一些操作系统,也适配了阿里云,华为云,腾讯云之类的这种云平台,从核心组件来看,它分成引擎层,任务管理层和通信协议层,在引擎层,我们有自己的列表引擎以及外表引擎。外表引擎,可以去连接像os hfql短的外表引擎,

是我们一个纯引擎,我们后面讲解会详细的讲到,这种管理层,包括可以去管理数据上的数据的采样,包括离线作业的这个调度,包括构建的一些管理和资源的一些管理,在通协议层,我们支持mysl协议,企业级特性里面我们做了蛮多的功课,包括我们可以用户可以去支持自定义的这个副数量,以及去对接以对接分布式文件存储,这储设已经去支持,可以去实现层的这个高可用,包括我们可以在前面去前置一个,负展均衡,去实现r c阶层的连接,连接的均衡包括可以支持量的以及增量的这种实施备份包括说容同层。另外我我们做了一个可视化的一套界面,帮助用户去更好的去管理,运维它的的集群可视化管理,今天我们可做库表级别的管理,这个对标一般常见的系统可以去做管理,数据库的管理以及用户的管理,包括可以通过我们的可视化理工具做数据恢复,以常规常规运维和巡高塔具有明显的优势。


三、AtomData三大优势

image.png

第一个是复杂分析能力比较强,另外一个块是他的性价比较高,我们的整体的部署集群和部署组件来说是比较紧凑的,不需要投入过多的外部,不需要投入的过多的工程师。
另外,同时具备能力使得数据加工的过程比较短,整个仓的建设周期比较短,另外产品是比较维护,综合成本比较低,另外一个特是使用我们是兼q,l协议的所有的标准的数据库连接工具,数据库管理工具,包括数据的抽取,加工,调度以及di的工具都可以很轻易的连接到我们数据库。支持对多种的数据源,包括我们有深度的配了hs os以及myq,这我们都支持,另外就是由我们的金融mysql生态,所以说上下游的这个生态,上下游工具我们接的比较多,像常见的工具我们都是有兼容的。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
6月前
|
消息中间件 运维 Kafka
直播预告|Kafka+Flink双引擎实战:手把手带你搭建分布式实时分析平台!
在数字化转型中,企业亟需从海量数据中快速提取价值并转化为业务增长动力。5月15日19:00-21:00,阿里云三位技术专家将讲解Kafka与Flink的强强联合方案,帮助企业零门槛构建分布式实时分析平台。此组合广泛应用于实时风控、用户行为追踪等场景,具备高吞吐、弹性扩缩容及亚秒级响应优势。直播适合初学者、开发者和数据工程师,参与还有机会领取定制好礼!扫描海报二维码或点击链接预约直播:[https://developer.aliyun.com/live/255088](https://developer.aliyun.com/live/255088)
462 35
直播预告|Kafka+Flink双引擎实战:手把手带你搭建分布式实时分析平台!
|
4月前
|
存储 关系型数据库 分布式数据库
喜报|阿里云PolarDB数据库(分布式版)荣获国内首台(套)产品奖项
阿里云PolarDB数据库管理软件(分布式版)荣获「2024年度国内首版次软件」称号,并跻身《2024年度浙江省首台(套)推广应用典型案例》。
|
6月前
|
消息中间件 运维 Kafka
直播预告|Kafka+Flink 双引擎实战:手把手带你搭建分布式实时分析平台!
直播预告|Kafka+Flink 双引擎实战:手把手带你搭建分布式实时分析平台!
207 12
|
8月前
|
存储 分布式计算 负载均衡
数据分布式存储:在海量数据面前,我们如何站稳脚跟?
数据分布式存储:在海量数据面前,我们如何站稳脚跟?
1196 1
|
9月前
|
人工智能 监控 开发者
阿里云PAI发布DeepRec Extension,打造稳定高效的分布式训练,并宣布开源!
阿里云PAI发布DeepRec Extension,打造稳定高效的分布式训练,并宣布开源!
190 0
|
11月前
|
机器学习/深度学习 分布式计算 数据挖掘
MaxFrame 性能评测:阿里云MaxCompute上的分布式Pandas引擎
MaxFrame是一款兼容Pandas API的分布式数据分析工具,基于MaxCompute平台,极大提升了大规模数据处理效率。其核心优势在于结合了Pandas的易用性和MaxCompute的分布式计算能力,无需学习新编程模型即可处理海量数据。性能测试显示,在涉及`groupby`和`merge`等复杂操作时,MaxFrame相比本地Pandas有显著性能提升,最高可达9倍。适用于大规模数据分析、数据清洗、预处理及机器学习特征工程等场景。尽管存在网络延迟和资源消耗等问题,MaxFrame仍是处理TB级甚至PB级数据的理想选择。
213 6
|
11月前
|
运维 Kubernetes 调度
阿里云容器服务 ACK One 分布式云容器企业落地实践
阿里云容器服务ACK提供强大的产品能力,支持弹性、调度、可观测、成本治理和安全合规。针对拥有IDC或三方资源的企业,ACK One分布式云容器平台能够有效解决资源管理、多云多集群管理及边缘计算等挑战,实现云上云下统一管理,提升业务效率与稳定性。
|
11月前
|
分布式计算 大数据 数据处理
技术评测:MaxCompute MaxFrame——阿里云自研分布式计算框架的Python编程接口
随着大数据和人工智能技术的发展,数据处理的需求日益增长。阿里云推出的MaxCompute MaxFrame(简称“MaxFrame”)是一个专为Python开发者设计的分布式计算框架,它不仅支持Python编程接口,还能直接利用MaxCompute的云原生大数据计算资源和服务。本文将通过一系列最佳实践测评,探讨MaxFrame在分布式Pandas处理以及大语言模型数据处理场景中的表现,并分析其在实际工作中的应用潜力。
397 2
|
12月前
|
NoSQL Java 数据处理
基于Redis海量数据场景分布式ID架构实践
【11月更文挑战第30天】在现代分布式系统中,生成全局唯一的ID是一个常见且重要的需求。在微服务架构中,各个服务可能需要生成唯一标识符,如用户ID、订单ID等。传统的自增ID已经无法满足在集群环境下保持唯一性的要求,而分布式ID解决方案能够确保即使在多个实例间也能生成全局唯一的标识符。本文将深入探讨如何利用Redis实现分布式ID生成,并通过Java语言展示多个示例,同时分析每个实践方案的优缺点。
409 8