AtomData结合阿里云分布式存储实现海量数据分析(三)

本文涉及的产品
应用实时监控服务-可观测链路OpenTelemetry版,每月50GB免费额度
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
云原生网关 MSE Higress,422元/月
简介: AtomData结合阿里云分布式存储实现海量数据分析(三)

云原生实时数仓-AtomData结合阿里云分布式存储实现海量数据分析(三)

嘉宾信息
王博 杭州石原子科技AtomData技术负责人


AtomData结合阿里云分布式存储实现海量数据分析(三)


七、高弹性、高性能海量数据存储方案

image.png

image.png

利用分布式存储去实现拉架构,是去依托于数据库内核。数据的分布能力,首先数据库底层,是基于这种,基于数据奉献的。我们可以把一个数据,把一个逻辑数据库切分成个n个物理的片,我们可以把每个片通过一个快存储到我们的的一个一个节点上来,通过这种存储自由的挂载,可以实现类似架构,首先我们的数据索引和日志都存储在阿里云的分布式存储里面,在每次过程中,计算层计算层可以去从里这个这种的逻辑去加载,去加载底下的数据和索引文件,在计算节点中完成数据的计算。
在计算节点中,每个计算节点都有一个逻辑上的对数据权的个概念,这样,是可以保证数据有良好的缓存缓存动力的,基于这种设计,其实是可以适配,他们是换成组合以及未来要适配的总分布数度存储这种设备的。另外,在在计算节点中,我们做了高速的数据缓存,可以通过的算法实现对于分布式存储设备里面的数据,高速的数据的缓存能力,就是分布式和底下的分布式不一样,存储它,他们不一定要有很好的数据的io的技能,他们可以是比较慢速的磁盘所构成的,比如说像这种或者d盘,利用高速这缓存能力去实现数据的加速,能够实现达到这种常规的数据库甚。对于业来说,有什么样的收益?
其实对于大数据的分析来说,企业中的大多数数据都是数据,只有少量数据是热数据,这种存分类架构允许分布式存储拥有更低的这种存储制来进一步的降低诉讼成本。


八、适配阿里云分布式存储收益

image.png

通过高速的缓存来实现数据查询的加速,这种架构是可以接近和超过的,另外一块是分布式存储,可以提供更低的数据冗余度,可以去掉像常规的数据库的总副本架构,来解决副本的部署到成本高的问题和数据膨胀高的问题。另外一块是由于这种数据分布,设计使得计算厂能够实现,他们可以在逻辑上去更改数据。选择概念,只需要去做数据的重新的划分,唯一的影响就短时间内的节点单个计算效率问题。另外,这种这种架构其实可以提供更好的运维信计算节点,只需要去维护计算能力就就可以了,数据的存储节点,只需要去维护它的这个存储能力。


九、AtomData 23年路标

image.png

最后,在性能上和功能上有几个目标要实现,第一个,是要实现更好的的能力,刚刚说数据库,我们在未来要进一步的去利用分布式存储的去实现策略,可以允许整个把的调动结果存储到都不是存储里面,实现整个的更高的稳定性。另外,我们要去实现更智的技术,我们可以通过去分析用户输入历史,以及去做一些统计,能够去做更热的表达,频繁减少人种采的频率。另外,我们要进一步优化它对复杂的支持,目前,是支持框架来利用的接口去查询单表的数据。

未来,我也可以去实现多表的数据的状查询,我们在未来要去利用这协议去实现。

整个集群的发现和管理的能力,其实都是用的协议实现了管理的能力,功能上我们要进一步的利用存储的这一重组,建制和第一成本的个性去实现更大的数据规模的存储和更高存储性价比。
另外,我们要去实现这种纯日志节点,是可以代替掉某一个副本,你能够实现资源的开销,一般来说,我们都会参与存储和计算的,但是我们可以让一个文本只参与存储而不参与计算,他对于机器的硬件的需求是相对的,对于整个部署的开销会更低,我们会在前几个供应上走得更远。

比如说我们支持更多维度的这种审计,包括在加密上或在函数上会做更多的这个支持。

相关文章
|
15天前
|
机器学习/深度学习 分布式计算 数据挖掘
MaxFrame 性能评测:阿里云MaxCompute上的分布式Pandas引擎
MaxFrame是一款兼容Pandas API的分布式数据分析工具,基于MaxCompute平台,极大提升了大规模数据处理效率。其核心优势在于结合了Pandas的易用性和MaxCompute的分布式计算能力,无需学习新编程模型即可处理海量数据。性能测试显示,在涉及`groupby`和`merge`等复杂操作时,MaxFrame相比本地Pandas有显著性能提升,最高可达9倍。适用于大规模数据分析、数据清洗、预处理及机器学习特征工程等场景。尽管存在网络延迟和资源消耗等问题,MaxFrame仍是处理TB级甚至PB级数据的理想选择。
43 4
|
23天前
|
分布式计算 大数据 数据处理
技术评测:MaxCompute MaxFrame——阿里云自研分布式计算框架的Python编程接口
随着大数据和人工智能技术的发展,数据处理的需求日益增长。阿里云推出的MaxCompute MaxFrame(简称“MaxFrame”)是一个专为Python开发者设计的分布式计算框架,它不仅支持Python编程接口,还能直接利用MaxCompute的云原生大数据计算资源和服务。本文将通过一系列最佳实践测评,探讨MaxFrame在分布式Pandas处理以及大语言模型数据处理场景中的表现,并分析其在实际工作中的应用潜力。
60 2
|
1月前
|
运维 Kubernetes 调度
阿里云容器服务 ACK One 分布式云容器企业落地实践
阿里云容器服务ACK提供强大的产品能力,支持弹性、调度、可观测、成本治理和安全合规。针对拥有IDC或三方资源的企业,ACK One分布式云容器平台能够有效解决资源管理、多云多集群管理及边缘计算等挑战,实现云上云下统一管理,提升业务效率与稳定性。
|
2月前
|
NoSQL Java 数据处理
基于Redis海量数据场景分布式ID架构实践
【11月更文挑战第30天】在现代分布式系统中,生成全局唯一的ID是一个常见且重要的需求。在微服务架构中,各个服务可能需要生成唯一标识符,如用户ID、订单ID等。传统的自增ID已经无法满足在集群环境下保持唯一性的要求,而分布式ID解决方案能够确保即使在多个实例间也能生成全局唯一的标识符。本文将深入探讨如何利用Redis实现分布式ID生成,并通过Java语言展示多个示例,同时分析每个实践方案的优缺点。
76 8
|
2月前
|
机器学习/深度学习 分布式计算 算法
【大数据分析&机器学习】分布式机器学习
本文主要介绍分布式机器学习基础知识,并介绍主流的分布式机器学习框架,结合实例介绍一些机器学习算法。
279 5
|
2月前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
3月前
|
程序员
后端|一个分布式锁「失效」的案例分析
小猿最近很苦恼:明明加了分布式锁,为什么并发还是会出问题呢?
44 2
|
4月前
|
运维 Kubernetes 调度
阿里云容器服务 ACK One 分布式云容器企业落地实践
3年前的云栖大会,我们发布分布式云容器平台ACK One,随着3年的发展,很高兴看到ACK One在混合云,分布式云领域帮助到越来越多的客户,今天给大家汇报下ACK One 3年来的发展演进,以及如何帮助客户解决分布式领域多云多集群管理的挑战。
阿里云容器服务 ACK One 分布式云容器企业落地实践
|
3月前
|
存储 边缘计算 城市大脑
阿里云入选Gartner®分布式混合基础设施魔力象限
Gartner正式发布了《分布式混合基础设施魔力象限》(Magic Quadrant™ for Distributed Hybrid Infrastructure),阿里云在入选的中国厂商中于执行能力(纵轴)和愿景完整性(横轴)上均处在最高、最远的位置。
|
3月前
|
存储 数据采集 分布式计算
Hadoop-17 Flume 介绍与环境配置 实机云服务器测试 分布式日志信息收集 海量数据 实时采集引擎 Source Channel Sink 串行复制负载均衡
Hadoop-17 Flume 介绍与环境配置 实机云服务器测试 分布式日志信息收集 海量数据 实时采集引擎 Source Channel Sink 串行复制负载均衡
66 1