AtomData结合阿里云分布式存储实现海量数据分析(三)

本文涉及的产品
Serverless 应用引擎 SAE,800核*时 1600GiB*时
云消息队列RocketMQ,TPS总和2000次/秒
简介: AtomData结合阿里云分布式存储实现海量数据分析(三)
+关注继续查看

云原生实时数仓-AtomData结合阿里云分布式存储实现海量数据分析(三)

嘉宾信息
王博 杭州石原子科技AtomData技术负责人


AtomData结合阿里云分布式存储实现海量数据分析(三)


七、高弹性、高性能海量数据存储方案

image.png

image.png

利用分布式存储去实现拉架构,是去依托于数据库内核。数据的分布能力,首先数据库底层,是基于这种,基于数据奉献的。我们可以把一个数据,把一个逻辑数据库切分成个n个物理的片,我们可以把每个片通过一个快存储到我们的的一个一个节点上来,通过这种存储自由的挂载,可以实现类似架构,首先我们的数据索引和日志都存储在阿里云的分布式存储里面,在每次过程中,计算层计算层可以去从里这个这种的逻辑去加载,去加载底下的数据和索引文件,在计算节点中完成数据的计算。
在计算节点中,每个计算节点都有一个逻辑上的对数据权的个概念,这样,是可以保证数据有良好的缓存缓存动力的,基于这种设计,其实是可以适配,他们是换成组合以及未来要适配的总分布数度存储这种设备的。另外,在在计算节点中,我们做了高速的数据缓存,可以通过的算法实现对于分布式存储设备里面的数据,高速的数据的缓存能力,就是分布式和底下的分布式不一样,存储它,他们不一定要有很好的数据的io的技能,他们可以是比较慢速的磁盘所构成的,比如说像这种或者d盘,利用高速这缓存能力去实现数据的加速,能够实现达到这种常规的数据库甚。对于业来说,有什么样的收益?
其实对于大数据的分析来说,企业中的大多数数据都是数据,只有少量数据是热数据,这种存分类架构允许分布式存储拥有更低的这种存储制来进一步的降低诉讼成本。


八、适配阿里云分布式存储收益

image.png

通过高速的缓存来实现数据查询的加速,这种架构是可以接近和超过的,另外一块是分布式存储,可以提供更低的数据冗余度,可以去掉像常规的数据库的总副本架构,来解决副本的部署到成本高的问题和数据膨胀高的问题。另外一块是由于这种数据分布,设计使得计算厂能够实现,他们可以在逻辑上去更改数据。选择概念,只需要去做数据的重新的划分,唯一的影响就短时间内的节点单个计算效率问题。另外,这种这种架构其实可以提供更好的运维信计算节点,只需要去维护计算能力就就可以了,数据的存储节点,只需要去维护它的这个存储能力。


九、AtomData 23年路标

image.png

最后,在性能上和功能上有几个目标要实现,第一个,是要实现更好的的能力,刚刚说数据库,我们在未来要进一步的去利用分布式存储的去实现策略,可以允许整个把的调动结果存储到都不是存储里面,实现整个的更高的稳定性。另外,我们要去实现更智的技术,我们可以通过去分析用户输入历史,以及去做一些统计,能够去做更热的表达,频繁减少人种采的频率。另外,我们要进一步优化它对复杂的支持,目前,是支持框架来利用的接口去查询单表的数据。

未来,我也可以去实现多表的数据的状查询,我们在未来要去利用这协议去实现。

整个集群的发现和管理的能力,其实都是用的协议实现了管理的能力,功能上我们要进一步的利用存储的这一重组,建制和第一成本的个性去实现更大的数据规模的存储和更高存储性价比。
另外,我们要去实现这种纯日志节点,是可以代替掉某一个副本,你能够实现资源的开销,一般来说,我们都会参与存储和计算的,但是我们可以让一个文本只参与存储而不参与计算,他对于机器的硬件的需求是相对的,对于整个部署的开销会更低,我们会在前几个供应上走得更远。

比如说我们支持更多维度的这种审计,包括在加密上或在函数上会做更多的这个支持。

相关文章
|
5天前
|
存储 城市大脑 安全
史上首金!阿里云分布式存储技术获中国发明专利金奖
阿里云分布式存储技术专利《一种分布式存储系统升级方法和装置》(专利号:ZL201511034171.7)获颁中国专利金奖,这是阿里云14年创业发展史上荣获的首个专利金奖。
|
3月前
|
存储 数据挖掘 大数据
AtomData结合阿里云分布式存储实现海量数据分析(二)
AtomData结合阿里云分布式存储实现海量数据分析(二)
52 0
|
3月前
|
存储 数据可视化 数据挖掘
AtomData结合阿里云分布式存储实现海量数据分析(一)
AtomData结合阿里云分布式存储实现海量数据分析(一)
70 0
|
5月前
|
存储 Cloud Native 关系型数据库
阿里云最新产品手册——阿里云核心产品——云原生关系型数据库PolarDB——共享分布式存储
阿里云最新产品手册——阿里云核心产品——云原生关系型数据库PolarDB——共享分布式存储自制脑图
88 2
|
6月前
|
数据采集 缓存 大数据
大数据软件、阿里云大数据快速解决海量数据
大数据软件、阿里云大数据快速解决海量数据
87 0
|
9月前
|
存储 关系型数据库 对象存储
PolarDB-PG | PostgreSQL + 阿里云OSS 实现高效低价的海量数据冷热存储分离
数据库里的历史数据越来越多, 占用空间大, 备份慢, 恢复慢, 查询少但是很费钱, 迁移慢 怎么办? 冷热分离方案: - 使用PostgreSQL 或者 PolarDB-PG 存成parquet文件格式, 放到aliyun OSS存储里面. 使用duckdb_fdw对parquet文件进行查询. - duckdb 存储元数据(parquet 映射) 方案特点: - 内网oss不收取网络费用, 只收取存储费用, 非常便宜 - oss分几个档, 可以根据性能需求选择 - parquet为列存储, 一般历史数据的分析需求多,性能不错 - duckdb 支持 parquet下推过滤, 数据过滤性能不错
5940 5
PolarDB-PG | PostgreSQL + 阿里云OSS 实现高效低价的海量数据冷热存储分离
|
存储 运维 Cloud Native
阿里云发布分布式数据库PolarDB-X,应对海量数据管理
继云原生数据库PolarDB之后,阿里云又发布分布式数据库PolarDB-X,可支撑千万级并发规模,专注解决海量数据存储、超高并发吞吐、大表瓶颈以及复杂计算效率等瓶颈问题。
|
存储 架构师 大数据
【2018中国计算机大会】阿里云分布式存储架构师谈 自研分布式文件系统服务
10月27日下午,2018中国计算机大会上举办了主题“存储软硬件之国产化挑战与机遇”的技术论坛,一起探讨存储软硬件栈上的关键系统与技术的国产化发展道路。论坛上,阿里云分布式存储团队架构师黄硕针对存储软硬件国产化进行了《云上自研分布式文件系统服务的设计与实践》的报告。
3349 0
|
机器学习/深度学习 搜索推荐 人工智能
阿里云宣布图像搜索商业化,百亿级海量数据检索能力颠覆多媒体搜索领域
7月18日,阿里云宣布图像搜索正式商业化,这是一款以深度学习和大规模机器学习技术为核心,通过图像识别和搜索功能,实现以图搜图的智能图像搜索产品,基于图像识别技术基础上,结合不同行业应用和业务场景,帮助用户实现相同或相似图片搜索。
2536 0
|
新零售 存储 网络协议
LC3视角:高性能网络技术下的阿里云盘古分布式存储技术变革
LC3视角:高性能网络技术下的阿里云盘古分布式存储技术变革 近些年,随着NVME闪存等存储技术的发展,单存储设备IO带宽已达到GB/S,延迟降低至微秒数量级,而下一代内存级非易事存储介质如Intel 3D XPoint将进一步提升存储介质性能。从整体上看,数据中心已经由传统的机械硬盘毫秒时代过渡到存储新介质的微秒时代。在性能大幅提升的同时,节点存储容量也急剧增加,达到几十TB量级。节点存储性能和
3047 0
热门文章
最新文章
相关产品
云消息队列 MQ
微服务引擎
函数计算
推荐文章
更多