企业级数据湖的构建之道(二)

本文涉及的产品
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
可观测可视化 Grafana 版,10个用户账号 1个月
简介: 企业级数据湖的构建之道(二)

云原生实时数仓-企业级数据湖的构建之道(二)

嘉宾信息
马骏(其冀) 阿里云智能高级产品专家


企业级数据湖的构建之道(二)


五、实现数据智能分层,成本优化可达90%

image.png

第三个点是成本,相信这也是我们很多客户所关心的,因为降本增效,降本增效,首先就是降本,那么oss当前其实给我们用户提供了四种的存储类型,包括像标准,低频访问档等来覆盖我们用户这些数据的全命周的一个管理,与此同时,我们也提供了一种基于最后修改时间和最后访问时间的两种策略来帮助用户做生命周期管理,能够实现更加智能,更加精细度的一个数据成,

另外像以供多重的一回能力,能够更好地满足不同的业务需要,对数据的一个取回的要求,其实除了oss的本身自身的一个冷热分层以外,也可以和数据的相结合再表维度来进行冷热精化管理,那么同时也可以通过oss身的d的能力来进行odfs文件力度的冷热分层可以实现多个维度,多种力度帮助我们的用户做到数据长期存储的同时,还能够有效的,持续的进行存储成本的优化,那么在这里其实我也给大家做一个简单的预告,就是我们近期马上就会发布一个深度的回档这么一个新的存储类型。

相对于我们现有的冷岛,它会更加便宜一半,达到0.75分,这是一个什么概念?就相当于你的数据,一年只需要92块钱,那可以帮助你更好地实现降本。

谈到这里,有的客户会问我云上构建数据图也很好,但是我今天我的数据目前就是在我自己的i d里面。


六、实现数据安全迁移一体化

 

image.png

有没有什么更好的办法能够帮助客户把这些数据搬迁上?那这里其实我们有服,我们有两种服务,一种叫在线迁移服务,一种叫离线迁移服务,那么像在线迁移服务,它比较适合那些客户,我们客户的机房和阿里云通过一个专线,通过一个进连接起来,它可以通过直接通过在线的方式能够实现这样的一个数据迁移,那么同时还有一部分的客户,因为它本身的一些安全合规的要求,因为它的一些业务属性的要求,它只能通过离线迁移这种方式来做,在过去的一两年里,其实我们已经和计算平台的团队一起帮助差不多上百个客户,他的从线下迁移到了云上,那么在一些新的业务场景里面,我们比如说前面提到的自动驾驶这么一个场景里面,自动驾驶,它在研发的整个过程中,它的研发车辆的一个车载数据是需要高效的,安全的来进行传输,那么上年以后怎么样来实现这么一个数据的搬迁,我们之前也推出了一个新的散电地方,一个车载的闪电地方,它其实是一个宽抗震的一个小盒子,但这个盒子它对功率非常低,只有40瓦,他能够每天将研发车上的一载数据定期的传送到阿里云最近的报点,放到oss里面来进行统一的分析和处理。

所以今天,无论你的手,你的数据是在你的dc,还是在你的移动设备,或者说在其他端的设备里面,我们都有对应的方案,对应的方法,对应的产品,来帮助你快速,安全,实时性的把数据搬迁上面,那之前我们前面讲的4个点。
image.png

更多的是我们面向数据这个场景进行了主要的一些产品和技术的创新,那么其实在整个眼进的过程中,Oss,它本身作为一个最为通用的云存储的形,他这几年其实也自身其他的一些通用能力也在不断的演进,不断的创新,那这些能力其实也很好的帮助oss更好地作为数据库存储来支撑起数据库这样的一个场景,那比如说首先是稳定可靠,我们一直说稳定,可它是产品的生命线和底线,作为数据库存储底的oss,在这块其实一直是处于一个领先的状态。

经过十多年的打磨,我们提供了业内领先的99.995%的可用性sl和12个的可靠性,保证我们的用户的数据不丢不错,同时稳定运行,其实第二个是安全合规,安不安全?这个其实早一直是很多客户对于云上的,公共云的一个灵魂讨论,这些年其实随着各种安全能力的构建,然后,各种企业的一最佳实践云也得到了普遍的认o,在这方面,其实也提供了业内领先的一些安全能力,我们可以做帮用户做到全链路的数据加密,同时也针对国内的应用场景,我们也支持那种国算法的加密算法,我们也创新性的给用户提供了这种原生的护的能力,以及也能支持一些用户一些敏感数据的扫描,帮助你更好地做到安全合规,第三个点是弹性,弹性一直是公共云计算,或者说是云计算这块相对于用户自传统的最大的一个差异,那么在这块上面,相对于我们可以这样通过用户上以后,它可以实现按需使用,按量付费。

在公共营上,在o上面,我们已经有数十亿的数据存储时代,同时在线上已经有存在这种万亿对象级别的这么一个能力和规模,并且我们也提供了目录的原子操作的接口,那最后一个是性能,其实早些年对象存储它主要的一些场景,面对的一些场景还更多的是一些温数据,但是这些年其实也随着我们客户的很多,一些新的场景上,很多新的场景,它是基于o来进行来进行创新,比如说我们的数据也是其中一种,那这样就对于整个吞吐和都有更高的要求,O也帮助通过我们这么多年的发展。

我们可以规模化的提供这种的宽能力,同时能够保证一个比较稳定的,并且像刚刚提到的一些训练场景里面,我们可以把用样本可以同时的通过我们加速器同时的给到很多计算,比如说5000个一万个的计算的并发访问,

 

七、社交媒体客户基于OSS完成自建构架改造

image.png

 

前面讲了这么多一些我们在数据这块的能力,下面我给大家来分享一个客户案例,它其实是一个头部的互联网,社交媒体企业,之前基生态它构建了他的大数据的一个平台,主要解决什么呢?数据的采集,存储,分析问题,它主要的一个计算场景,包括像时推荐,在线交易分析的改造之前,它的一大数据架构采用的比较常见的模式主要是部署在不主要是部署在线下的i d c,那随着业务发展,他们对系统提出了更高的要求,提出了三个要求,分别是什么呢?

原有的模式,它就面临了很多挑战,首先资源的本高,在整个中,它的存储占55%的成本计算,那存储成本为什么会这么高呢?

占了一半以上,那这个主要是因为传统的这种hdf架构,它是存在的,这种架构,它就必须要跟着扩容,同时,他并没有那种冷的能力,并且必须要采用三,导致它的个数据成本居高。第二个是弹性能,那大家知道,像一些现在我们很多做业务创新,特别像互联网公司,它的一个业务其实存在一定的不确定性,经常会有些热点事件,娱活动需要短时间进行扩容,在线传统候样的一个资源就非常不方便,集群的谈说比较困难,存储资源也无法按照量来使用扩展,整个扩容的周期也比较长,无法满足业务的这种突性需求,那第三个就是性能的瓶颈和运人力成本高,可能用过h的同学可能都知道,就是由于这种这种设计,它其实在整个扩展性,在它的性能其实都会存在比较大的瓶颈,很容易成为整个业务系统里面的一个热点,也限制了这种大规模存储集的一个性能发挥,那基础设施这样的一个架构,随着它的一规模增大,以后对运为团队的要求会比较高,整个投入成本也会也会持续增高,所以基于这么一些痛点,这个用户最后在云,它构建了数据,通过这个构建数据以后,它主要帮解决这几个问题,首先通过解耦让计算和存储资源能够真正的有更好的,各自的一个弹性,然后整个一个资源的利用率会大幅提升,同时通过我们前面提到的存储的生命周期管理的能力能够很好的优化数据长期存储的一个成本,那么这两个做下来,仅仅存储成本就相比原来降了百之50,那第二非常重要的就是通过oss的hdfs的权兼容能力,他就不需要对现有的hadop等等这些大数据分析应用的来做修改,只需要通过简单的配置,就可以向原生的hf那样管理和访问数据,同时,他还获得了像无容量弹性扩展,更高的安全性,可靠性,可用性等等这样的一些基础能力的支撑。
第三个,其实就是资源的弹性,底层提供的计算弹性和存储弹性,它因为完全解耦了,所以完全可以按照需要来轻松扩展,速度也提升了40倍。第4个对于非常有价值的就是底层服务免运,因为像这些通过这样的一个弹性,通过这种h服务的完全全托管化,它完全让我们的客户把他的一个数据团队可以更多的去深入到业务上面的创新和让他的业务层发挥更高的效率。
第5个其实也是数据库非常重要的一个特点,就是数据无序处理,直接存储,我们可以针对结构化,半结构化还有非结构化等多种这样的数据,以按照它的一个原始形态直接存进分析的阶段,再通过数据擎来行处理,对接多种数据输入,提供更加便捷的数据介入和数据消费通道,这个客户他非常具有典型性。

可以是我们很多客户从自建到云上构建数据的一个缩影,前面我们谈的数据库存储的5个点和一个案例,

 

八、数据胡存储演进之路

image.png

 

最后总结一下,其实我们经常把数据把它分成三个阶段,在1.0阶段里面,它是一个冷分层的架构,在这数据它是放在hdf集群上,数据放在oss里面,那么到了2.0时代,整个数据层面统一放在了里面,但是元数据还是一个用户字符,或者是半托管这么一个模式,那在今天我们很高兴,我们在3.0时代,我们可以看到,数据和元数据都实现了一个全托管的架构,真正的按量使用,按需付费,它这样的一个形态,那么在这个眼的过程过程中,我们要非常感谢我们的客户,是我们的客户,这些年和我们一起走过来,推动和帮助阿里云的数据库存的持续新,我们也看到跟我前面的2020的一个数据,到2022年突破一万个数据,我们也希望在未来同我们的客户一起持续的在数据库领域进行创新,我们也希望更多的客户,他能够持续的拥抱数据的架构,让数据帮助我们客户,帮助我们客户的业务能够持续的创新,帮助我们客户业务持续健康的成长。

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
相关文章
|
1月前
|
SQL 分布式计算 数据处理
Uber基于Apache Hudi增量 ETL 构建大规模数据湖
Uber基于Apache Hudi增量 ETL 构建大规模数据湖
52 2
|
1月前
|
存储 SQL 分布式计算
基于Apache Hudi + MinIO 构建流式数据湖
基于Apache Hudi + MinIO 构建流式数据湖
89 1
|
19天前
|
存储 人工智能 运维
数据湖建设实践:使用AWS S3与LakeFormation构建灵活数据存储
【4月更文挑战第8天】本文分享了使用AWS S3和LakeFormation构建数据湖的经验。选择S3作为数据湖存储,因其无限容量、高可用性和持久性,以及与多种系统的兼容性。LakeFormation则负责数据治理和权限管理,包括元数据管理、简化数据接入、细粒度权限控制和审计。通过这种方式,团队实现了敏捷开发、成本效益和数据安全。未来,数据湖将融合更多智能化元素,如AI和ML,以提升效能和体验。此实践为数据驱动决策和企业数字化转型提供了有力支持。
25 2
|
1月前
|
消息中间件 监控 Kafka
Yotpo构建零延迟数据湖实践
Yotpo构建零延迟数据湖实践
32 0
|
1月前
|
存储 SQL 分布式计算
使用Apache Hudi构建大规模、事务性数据湖
使用Apache Hudi构建大规模、事务性数据湖
20 0
|
1月前
|
存储 SQL 分布式计算
Apache Hudi在Linkflow构建实时数据湖的生产实践
Apache Hudi在Linkflow构建实时数据湖的生产实践
40 0
|
1月前
|
存储 分布式计算 分布式数据库
字节跳动基于Apache Hudi构建EB级数据湖实践
字节跳动基于Apache Hudi构建EB级数据湖实践
27 2
|
1月前
|
SQL 关系型数据库 MySQL
Flink CDC + Hudi + Hive + Presto构建实时数据湖最佳实践
Flink CDC + Hudi + Hive + Presto构建实时数据湖最佳实践
147 0
|
1月前
|
存储 SQL 数据管理
字节跳动基于Apache Hudi构建实时数据湖平台实践
字节跳动基于Apache Hudi构建实时数据湖平台实践
49 0
|
1月前
|
存储 消息中间件 SQL
基于 Apache Hudi 构建分析型数据湖
基于 Apache Hudi 构建分析型数据湖
31 4