云原生实时数仓-企业级数据湖的构建之道(一)
嘉宾信息
马骏(其冀) 阿里云智能高级产品专家
云原生实时数仓-企业级数据湖的构建之道(一)
内容介绍
一、阿里云助力10000+企业构建了云数据湖
二、 为什么要保留这么多数据
三、 定义数据湖存储
四、实现多协议文件访问,提高小文件处理性能
五、实现数据智能分层,成本优化可达90%
六、实现数据安全迁移一体化
七、社交媒体客户基于OSS完成自建构架改造
八、数据胡存储演进之路
我是来自阿里云存储产品团队的马骏,今天很高兴能够有这么一个机会,和大家分享一下企业级数据的构建之道,一起聊一聊阿里在数据这块,在数据库存储这块做了一些努力和创新。
一、阿里云助力10000+企业构建了云数据湖
在切入正题之前,首先给大家分享一下数据库存储在阿里云上一个大概的发展情况,阿里云的存储团队其实早在五六年前就开始了这个领域的探索和投入,在一八年的时候,就已经成为了国内唯一被官方社区支持的云存储,可以对接丰富的开源生态,我们也不断的针对阿里的一方计算引擎,做了接入,另外一方面,我们也从这几年数据库覆盖的一个应用场景来看,处在一个不断迭代,不断扩展的一个阶段,在最早期的时候,可能更多的是一些简单的bi分析,到后面互联网,常说的广搜索,推荐和广告,还有包括像用户深度分析等等,以及到这两年非常热门的ai训练都开始基于数据湖的架构来进行,同时,也看到在单个数据的一个规模也在快速的增长,在早期的时候可能更多,我们客户都是一个p级体量的,一个规模,到后面慢慢、慢慢到十p级别,在现在,我们在云上已经出现了p级别的单个的体量规模,通过这几年的一个交流和实践,数据已经是大数据分析架构上面非常确定的一个未来发展趋势,一直关注阿里云数据的朋友可能知道,我们在阿里二零年的时候就开始举办数据库峰会,当时也开始持续的更大的一个投入,在那个时间点,我们其实做过一个统计,当时在阿里云的云上构建数据库读差不多有1000多个,那么在2021年的时候增长到了6000多个,在2022年的时候,已经突破了一万多个。
二、为什么要保留这么多数据?
再看一看,为什么需要数据这样的一个架构?
我们首先需要从数据本身来看,也就是为什么我们需要保留这么多的数据?我们首先从宏观层面来看,数据的爆炸式的增长这个其实已经谈了很多年,也是一个老生常谈,而且不断的在被我们的爆炸的增长所去验证,特别是来自一个机器设备,还有人在各种端,包括边缘无时无刻的产生的非结构化数据快速增长,另外一方面,我们也看到数据的被使用被分析,它也可以分成两种,一种是实时性分析,我们是知道我们需要问什么问题,我们需要的更多是快速的获取答案,他们通过这种答案可以帮助我们的业务快速产生一些决策,我们把它称之为探索性的分析,这个分析可能我们在当并不知道我们要问什么问题,当时我们希望在我们想到这个问题的时候,我们所积累的数据可以帮助我们分析,挖掘和寻找这些答案,这个时候我们就需要把这些数据不断的积累下来,很多数据我们在当下舍不得,但是,外一方面数据的不断积累又给我们带来了大量的成本负担,这就让我们的企业陷入了一个两难的境地,一个是成本不断增加,一个是位置的驶,怎么去取舍?
其实从数据这个格来看,它恰恰很好的去解决这么一个问题,我们再来看看更多的来自客户的一些声音和期望,在过去的几年里面,每年我们其实都会去拜访很多客户,我很高兴看到今天我们越来越多的客户,他去了解数据,在熟悉数据并且开始拥抱数据,在这个过程中,我们的用户也给我们提出了很多的期望,对数据湖提出了很多新的挑战,当然,我们也看到了在这里面存在大量的产品和技术创新的机会,有的客户会问我们,说他们架构,但如何减少现有人人员的教育和学习成本,如何去减少数据迁移的成本?
如何加快数据架构改造过程,也有的客户会他的大数据的计算引擎开多样化,它不仅有传统的这种离线的计算分析它是有那种在线的实时计算分析,同时,这几年又增加了像a i等等一些新的一些引擎,那么这么多样化的一些计算引擎,他们如何的能够更好地去访问同一份数据,减少数据的一个搬迁和流转,客户这样问我们,就像前面我刚刚那也讲的内容一样,它的业务产生了大量的数据,他们需要大量的数据长期积累来挖掘这样些数据的价值,但是如何在数据不断积累,它还能够持续的进行成本的优化,它是不带数据中心的,而是产生于什么端,产生于边缘。
如果我们把这些数据中心产生的数据和这些不在数据中心产生的数据放在一起来进行集中式的处理,来进行价值挖掘,怎么去做?
实际上在这里我们看到了非常多与时俱进,挑战和机会,所以这也是为什么我们今天认为说当前的数据库存储必须具备三大特性,才能够满足我们客户的期望,帮助客户持续的进行业务创新。
三、定义数据湖存储
数据库存储首先它应该是文件对象,融会贯通一份数据,不管是怎么写进来,它应该具备多种接口,多种协议的访问能力,在这个过程之中加速数据处理的效率,减少数据被搬迁,被流转的次数,这是其一;其二,成本是一个老常谈的问题,当大数据需要通过存储越来越多的数据来挖掘数据价值的时候,我们如何能够更加的制度智能化的,更加精细化的去识别数据的冷热,将数据的冷热和存储的成本能够有效的结合在一起,去帮助我们的客户降低存储的成本;其三,今天大数据和数据的场景中,有大量的数据是在是在端产生的,可能有i的数据,也可能有移动端,比如我们的手机app产生的数据,这些数据如何高效的,快速的,安全的被采集,迁移传输上如何和我们的数据中心产生的数据能够一起的集中式的处理和分析?这是我们认为数据库存储它应该具备的第三个能力,那么接下来我们依去看一下。
首先很多客户他们经常问的第一个问题就是我原来是纯算融合的架构,我如何快速的改造算分离的数据图架构,那么今天我可以很告诉很高兴的告诉大家,阿里云对象存储在去年就可以全面兼容hdf协议,帮助我们的客户迁移到云上,迁移的时候,它可以减少他现有人员的学习和教育成本,降低架构改造的门槛,加快改造的过程,不光如此,相比于自建oss今天无论是在扩展性还是在元数据的操作性能,包括数据的吞吐能力,数据的可用性,可靠性等方面,都是远远的高于我们的用户他从算融合的架构改造为纯算分离的架构,全托管架构的时候,它不再需要投入复杂的运维开销,除此之外,我们用户可以wi里面的一些对象,以前传统的这种对象文件,它可以键将元据和hd的元数据来进行打通,从而将这种目录的命空间和扁平的命空间真正的融合在一起,从而真正实现云的扩展能力,这也是为什么看到很多客户他已经开始从h转到上面,不管是电商,金融,游戏,社交,广告,还是交易等行业客户,大家都在做这样的改造,我们帮助他们平滑的实现了这样一个迁移改造的过程减少的复杂度。
四、实现多协议文件访问,提高小文件处理性能
我们也看到,计算引擎的多样性也成为了今的趋势,数据和ai紧密结合起来,拿这几年比较火热的一个行场景,在自动驾驶的场景里面,我们看到它原始的数据存在oss里面后,会通过来进行一个打标来进行一个在它传统的op的框架里面进行清洗,标注,那标注的数据是要被拉到一个高性能层,热层的数据来进行被分析的。在以前,客户做这个数据的拉取是需要自己去写一个脚本,然后去人工的取,整个数据的流转是非常低效的,曾经有个客户跟我反馈过,他说这样过程可能是以周为单位的,那么今天我们为客户提供的是什么?是高性能的并行文件系系统cps与对象存储oss在底层实现了自动的数据流流动,你可以根据你ai作业的训练目标,自动的进行元数据的同步和更新,按需的进行数据的实际加载,极大的可以减少你的gpu的等待时间。
可能大家所有做过ai训练的人可能大家都知道,gpu它其实一个非常昂贵的一个算例,减少他的等待时间也就会极大的降低你在计算的一些成本,资源成本,所以我们希望通过这种模式能够快速的去加大,提升数据处理的效率,减少数据在整个处理电路中被搬迁,被扭转的次数,来减少这样一个复杂度,因此,在这种场景下,我们可以看到一份数据,无论你是从http进来或者说是写进来,还是从传统的进,都可以在对象文件之间进行流动和融合,真正的帮助我们做到一份数据被多个计算引擎,多个协议来统一的进行访问。