圆桌讨论

本文涉及的产品
可观测可视化 Grafana 版,10个用户账号 1个月
性能测试 PTS,5000VUM额度
应用实时监控服务-可观测链路OpenTelemetry版,每月50GB免费额度
简介: 圆桌讨论

云原生实时数仓-圆桌讨论

嘉宾信息

李浩 StoneDB首席架构师 StoneDB PMC


圆桌讨论


内容介绍

一、 讨论引言

三、 如何看待存储实时数仓

四、Chatgpt对数仓存储产生了什么影响

六、 存储的未来发展趋势

七、如何提升性能和增强实时访问能力

八、未来展望


一、讨论引言

欢迎各位收看我们本场活动的圆桌会议环节,么本次的圆桌会议我们是请到了两位大咖,一位是来自我们阿里云智能的资深产品专家老师,还有一位是来自我们石原子科技的创始人以及ceo自修老师,我们请两位老师来跟我们大家一起探讨一下云存储以及我们实施数仓的一些发展和展望,刚刚其实已经有几位老师分享了一些主题,我们的老师也分享了一些存储与实时数仓,在各自的发展上,其实能听到在很多的场景上是有非常多的结合的去使用的,比如说在未来,他们这两者的观关系在各自的发展上,他们是相互推进,还是有更深的一些相互依赖呢?
自修老师:更多的是相互依赖的关系,因为整个速仓本身它的数据量会越来越大,特别是针对于像这种非结构化数据特征向量的提取,以及非结构化数据的存储,整个的数仓会直代指大的依赖于整个的存储这一块,包括我们现在在做的整个的实施素仓,也只代了依赖于阿里云的存储,它可以带给我们9个高可用,以及更多的一个存储成本的降低,以及我们在数仓体系里面会把很多的这种原始数据,原数据的性程都会放到整个的存储在上面去。

闻老师:我的观点是一样的,肯定是相互依赖的,因为数仓特征,其实是包括分离的去使用,这些其实对于底层存储,它都会提出更高的要求,包括性能,弹性,成本。比如说你在去做一个数据分析作业的时候,你要去拉取数据的一个高度带宽,你有热数据的重复,这个其实被提层存储的带宽本身的要求就很高,还有更种实验的要求,就是如何怎么去提升整个作业的处理效率。

像一些标准化的操作,能不能把它放在存储册去完成?做一些算子的下推,在这种结果查询分析的场景里面,能不能怎么去提升这个效率,是存储,我们要去解决好数藏的很重要的方面,除了性能之外,我觉得是包括一些成本相关的,就是海量数据存在里。可能被分析的是一部分,但是有很多不被分析的,能不能把它放到一些这种更低成本的接里面去,怎么去识别这样的一些数据的冷热,通过一些策略把它评价下去,进行对我们整体提升整体的存储的一个成本,带来整个数仓的这个产品的一个竞争力,我觉得是有好处的,从我的角度来说,我觉得是相互依赖一个关系的,包括我们现在在做的整个的,针对于冷温分层的数据,我们会把最热的数据通过我们的内存计算放在整个实施数仓里面,整个冷数据我们会大量写在像oss这种产品上面,目前我们在云上也有很多大量的客户在使用这样的场景。

其实两位老师刚刚的观点都非常统一,就是说,我们存储和实时数仓在未来他的已经发展上是会更加深的去相互依赖,我听下来,比如说在一些技术上,包括一些场景活上,他的依赖只会比现在去更深,刚刚老师也提到了,就是说一个存储成本,么现在比如说一些企业,他们可能更关注的是在比如说面向业务端或者用户端,他的一个实际的降本增收的一个效果,他可能去选用的时候,他更实际的从这方面去出发,两位老师如何看待存储实时数仓这样更加底层的。

 

二、如何看待存储实时数仓

数字数仓设施给这些企业他带来的一个价值,以及他在数字化转型上的,比如说一个突破,或者说是对他的一个推进,两位老师对于这一点有什么样的一些看法,可以给我们探讨一下?
闻老师:因为我觉得今天已经是一个数据爆炸的时代,有很多数据都一公共的存储数据量,还有超股现,怎么去利用好存储的很多的弹性的能力,其实能够帮助客户去增效的,我就举个例子,就是像增长黑客,新闻分析,推荐风控这些领域的很多客户都会去做这种大数据的分析,我们原来有一个客户,他以前的大数据分析的业务,它是一个上耦合的,一个模式,一个模型,我们希望把跟客户聊之后,一方面希望去降本,另外一方面也需望去增效,怎么做到两者兼得?我们在云上给他设计的一个就是以存储为底做的一个数据库算结耦一个方案,这个的好处是说,数据能热分层,实现和宁波的这么优化整在存储成本得到一个大幅的降低,同时,因为数据库架构之后,也就变成一份数据去对接多个计算机,你整个的计算引擎的选择和计算测的一些这种弹性out扩展的能力都变得更加的灵活了,在这一块,它可以根据自己的这种大数据训练的作业,运用弹性的计算资源去处理它的作业的效率,使得不管是在存储还是在计算都变得非常的灵活,最后算下来,整体的成本大概下降20%,整体作业效率提升了20%,其对客户来说,我们我们觉得是非常有一个有价值的,让客户的种it的中心,他的这样一些从一些花钱部门成本中心,慢慢的变成可以进成为业务创新,去加速业务创新,这样一些部门也让我们的客户在内部有更多的能够更好地去加速它整体企业的一个数字化转型。

自修老师:举一些客户案例,我们在整个数字化转型方面的一些突破,突破性的一些推进的作用,首先讲了,整个的存储对于客户来讲的价值是非常非常明显的,从整个的数上的角度来讲,首先第一点,实质性是决定了企业发展的一个非常重要的一个关键要素,案例,像我们现在有各种各样的新能源的客户,它本身各种充电桩的数质每天都会生成纸器的数据,爆炸式的增长,在这个方面,比如像充电桩的统计,电镀的使用,客户的充电时,多个地域之间的这个站点的分析等等,以及可以对于未来更多重要的这种整个的一个预测分析都有非常大的一个上面,通过实质性可以更多的去推进整个的数字化的转型,这是第一个点;第二个点,像我们现在很火的,像游戏,视频等等,比如最近前段时间各种的这种世界杯,它都是高清的这种画面,高清里面针对于某一帧可以快速的去定位到,比如有没有要违规,有没有出现,这些都要去做实时的一些分析和对比碰撞对比,这是第二个点,第三个点大家也知道,现在整个的国产替代和制度可控也是非常重要的,在初字化转型方面,一个非常重要的一个突破,整个的信创从一六年开始,到二零年的开始普及,还有包括金融,运营商,电信,医疗,交通等等,这些都是在数字化体系上面一个非常非常重要的数仓,一个很重要的一个作用,推进的一些作用对,主要是这指点,像刚刚两位老师说的,这些,其实都是用非常实际的一个例子来证明,就是说,存储,咱们这样底层的数字就基础设施对于企业来说,它的一个更加深的一个使用,知道杨老师对于线下比较流行的一个东西有没有了解,前段时间可以说是非常的火爆,各行各业的一些朋友有去使用,去体验,包括我身边有很多朋友也非常的好好奇这个东西,它背后是什么样的?为什么可以就是说有这样的一个东西出来,我想问一下两位老师,对于我们这个以gpt为代表的ai金领域中,对于实时数仓与存储,对于这些东西起了什么样的作用,他对于我们实施数仓以及存储带来了哪些影响?

 

三、Chatgpt对数仓存储产生了什么影响?

自修老师:这个还挺好玩的,这个前段时间我们内部的核心的骨干也做了一些尝试,举个例子,通过b t可以更好地去生成本身数仓的执行计划,根据你的进行各种特征的训练,存下来之后,针对于本身的数据库的实施的查询有极大的帮助,我感觉未来整个的数据科学家基本上都失业了,通过这个人都是可以数学科学家了,都不需要通过去通过语言来表达就能够快速的查找到,比如,以我为中心周边的方圆五公里的所有的相关,像外卖也好,整个的零售门店也好,包括像前面讲个制造业的实施的分析也好,都可以快速的把这些行业可以快速的覆盖和推广。

闻老师:我觉得他会很大程度上提升,人类去获取信息,分析信息的效率,它底层肯定会依赖一个非常巨大数量数据量的大规模数据集去训练。它有很大规模的一些数量可能在迁移级别,这里面其实跟存储关系我觉得还挺紧密,下面的数据存在里,如果高速的去做各种读写高速的训练,如何去加速上面的gpu的处理效率,因为大家都知道gpu是很贵的,怎么去减减少gpu的等待期,做一个基础组件,会非常的重要,一方面是海量的数据的标注,海量数据的长期的存储成本,第二是你的高速的热的数据如何,更高速的更快的被拉取,被分析,其实是有非常复杂的一些技术的产品,对存储而言,我觉得aic存储也会有非常好的一些意义,存储产品未来的一些发展的趋势,比如说我们客户,我们在线上拥有含量的一个数据,但对数据的一些io模型是怎么样的,我们能不能让我们的ic,让我们的ai能够更好去帮助客户去判断他的数据,把它的数据更加智能的运维与维修,他如何更好去去读取他的账单,然帮助他做的分析,推荐更合适的产品,我觉得这些都会产生非常积极的影响。自修老师:gpt底下的一些原理,大概有百亿的数据的整个训练,好像要到了整个的万亿,这边的数据的训练更多的,整个的训练和特征的模型的处理,才能够达到今天这样的一个效果,这个对于我们未来发展都有非常大的积极的作用。

是不是可以理解成,其实ic领域也在跟我们的存储甚至收藏相互去推进,它的一个技术的一个发展和他的一个趋势,比如说我们需要更大的一些存储的技术,更大的一些实施计算的,或者说是实藏方面的一些能力去撑起他这个一个产品,所撑起他更大的一些数据的一些训练,不断的就是说让大家能够读取他的一个热数据,相互依赖。

想要问一下老师,比如说我们未来三到五年言里面存储这方面,从您的这个角度看,他的大的发展的趋势和他的一个展望是什么样的,您可以跟大家聊聊吗?

 

四、存储的未来发展趋势

 

我谈一下我自己的一些个人的一些观点,存储的发展趋势,我觉得首先要看存储是做什么的,存储的本质其实是服务于数据的,他希望更好地去为数据做服务,存管,用在整个流程面,我们还开始数据发展,我也看很多报告,包括很多客户,我自己感受可能有5个趋势会比较明显。

第一,数据的在快速的增长,每天的年化的增长可能可能是在30%以上,这是一个非常精典的数字,可能到了2025年,整个全球可能有100或200个gb的数据要备存储。

第二,我们今天我会发现很多的数据,它的实施的比例会高,高速数据越来越多,可能有20%~30%的数据都是一些高速的实施数据,如何被快速的去传输,在上面过程之中,如何快速的在传输的时候进行分析,进行处理的这些可能都会变得更加的重要。

第三,我自己看到的是今天很多的数据,从它的结构来看,它是结构化数据,可能在80%~90%都是废数据,传统的t的结构化数据的增长会快,但是废化数据爆炸性的增长,你如何用很好的清晰的方式把它存下来,同时在使用它的时候的能够快速找到这些数据,快速的去访问和处理,这变得非常必要,数据是需要被安全的保存,合规的保存,当访问的时候,必须是一个可信的数据,在云上如何去加密,去保证整个数据的合规,这些其实都是数据,看趋势,当然还最重要一点就是也是跟信息相关的,数据的价值如何更好,这一块光存储做是不行的,依赖于上面的特别是现在,实时的和快速的去发现数据价,去帮助客户把数据的这个价值挖掘出来,去促进它的业务增长,我觉得从我的角度来看,我就数据就会有这几个非常明显的发展趋势,从这几个趋势来看,就是存储要做什么?我觉得存储要做的事情就也是非常明确,继续持续的成本的优化,我更多的更新一些硬件能够来去降低整个单机比的长期的存储成本。

我们有一些新的技术,比如说这种技术,或者其他技术,在成本优化的同时,还保证很好的稳性,这是非常关键的,第二个就是生常谈的,上面的性能和实时访问的能力,如何更好地去支撑,因为存储的数据我们认为是热数据是价值是更高的,我们希望更多的数据去被计算,被发现,被分析,性能也是我们持续去优化的点,第三个方面就是可能多协议的互通,包括对象,包括文件就不同的数据之间怎么去更好地去流转?

 

五、如何提升性能和增强实时访问能力

我们尽量去让数据更加自由的流动起来,让他更加去靠近计算,用喜欢的方式更好的兼容性具备分析这些也是非常重要的,包括刚才也提到的一些安全加密,还有一些数据洞察和分析方面,我觉得都是需要持续提升能力的,这里可能稍稍再提一点,就是我们在云上如何帮助客户更好洞察自己的数据状态,今年,包括未来,我们会推出我们的一些这种更好的一些存储工具,这个工具,它能够帮助客户去观察自己的数据存储状态,提升可观测性,你在云上使用存储的时候特别快,产品使用时候,整个用量的分析,性能的监控,当数据库访问的时候,你觉得有点慢,怎么快速的去判断这个延迟它的分布端到里分布是在哪一端,对吧?出现的问题,包括你的数据是否有很好的被这种快照保护备份保护加密,包括你是否能够有整个访问权限,是否被合理的设置跟你的账号,我觉得都会在未来成为客户用好存储,管好存储的一个非常重要的一个趋势,不光存,除了存储底座,我们自己的性能,稳定性,成本对,多协议,按照合规之外,我们在帮助客户用好存储,我们也会做很多的一些工作,问问客户体验个角度,客户体验的角度是帮他真正的去用好云,让云真的帮助促进它的数字化转型,提升业务上的效率。

感谢空文老师,讲的非常的细致了,从用户角度也好,从咱们底层的一个底座的一个基础上也好,讲非常透彻,刚刚也提到了跟实时数仓的一个机结合,想要问一下老师,比如说刚刚听下来跟老师讲的些关于存储和数据的见解,咱们未来三到五年实时数仓,它的一个大的发展趋势以及他的一个展望是什么样的?

 

六、未来展望

这个问题刚好我前段时间要跑了很多很多客户,刚好总结出几个东西,大家都说过去十年都说大数据来了,里面其实一个很重要的,现在的所有的数据库,像mysql,它其实是在稳步的增长,你可以看到大数据其实很多的都是在停滞不前,这个背后可以总结出几个点。第一个点,虽然数据现在越来越多,特别是这个对存储的要求会越来越高,但是对整个实施角度来讲,它永远计算的有可能是在100兆到99%计算的都是100兆到etb左右的数据,这也是说本身对热数据的价值的整个的过往的这个发掘是比较重要的,这是第一个点;第二个,可以看到前面我在ppt里面也讲到了,是商业智能的一个发展,从过去,现在在发生什么,将来的发生什么?其实它不断不断的在往往前的眼镜,这是从过去的几个现象来看,从未来的角度来讲,我主要分成三个维度,第一个是季度的维度,第二个是从产品的维度,第三个是从商业的维度讲讲我们对于整个的实施展望,首先是技术的维度,从过去的离线的t加一到未来的实时,这是肯定是一个非常重要的一个转变,第二个,从过去的整个的在线和离线的统一以前是割裂的,对于客户而言,他可能会做很多很多烟囱式的建造,变成了整个的离在线一体化的统一,这是从整个的记录角度来讲,从产品的角度来讲,它本身其实是多套组件的。

对于很多的客户来讲,它本身的维成本,人员工资成本其实都是非常高的,包括机器成本,对于未来的一体化的架构,一体化的行列混存,将内存计算的一体化的架构的发展,是非常重要的发展趋势,从商业的角度来讲呢,过去更多的客户是按照开源的来进行售卖的,按照配置进行售卖的,更多的随着的发展,随着存储的本身的更加精细化,力度的一些切割,本身未来对于计算的量,按照弹性的量可以更做到精细化的收费,这也是一个从商业的收费模式角度,发生一个根本性的变化,主要是这几点。

感谢两位老师跟我们一起探讨了存储和实施疏方这两个方面的一些展望,趋势,我们今天的会议的内容,就到这里。

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
技术人修炼之道阅读笔记(三)顶级工程师行为准则
技术人修炼之道阅读笔记(三)顶级工程师行为准则
|
弹性计算 运维 监控
如何做好一场技术演讲
据心理学调查,在人们感到最恐惧的事情里,死亡排名第二,而“公开演讲”排名第一! 上周末去深圳参加了GOPS大会,代表团队分享了弹性计算在SRE体系建设的一些探索和实践经验。虽然曾经多次给阿里内部的兄弟团队以及一些外部的客户做过类似分享,站在行业的大会上公开演讲还是第一次。作为一个演讲新人,为了可以不丢人的把这场演讲做好,前后花了大概5天时间来准备,从选题、PPT制作、演讲稿编写、自我练习,内部试讲以及正式演讲前的各种准备,整个过程学到了一些知识,所以抽时间简单写写,希望可以对演讲新人有所帮助。
333 0
  如何做好一场技术演讲
|
运维 前端开发 关系型数据库
都说程序员的个人影响力靠的是写作和演讲,所以你会写作吗?
写作这件事,很多大佬都谈过,但我还是想从自己的角度去谈谈.
|
物联网 项目管理
崮德好文连载 - 工作要围绕自己而展开
很多人,在开展工作的时候,喜欢被动接受工作安排,这个和传统企业或者国有企业的氛围有关系,那种很少面临快速变化的企业,确实喜欢自上而下管理,员工只要按照要求做好自己的份内工作就可以了,其他的事情就不归自己管了。而现在的BAT等互联网公司,每天都在快速变化,每天都在快速创新,如果还套用传统的工作方式,必然面临尴尬的局面。
|
弹性计算 运维 监控
如何做好一场技术演讲?
据心理学调查,在人们感到最恐惧的事情里,死亡排名第二,而“公开演讲”排名第一!那么作为一个演讲新人,为了可以不丢人的做好演讲,都需要做哪些准备呢?
如何做好一场技术演讲?
|
算法 开发者
在线编程讨论交流群期待您的加入!
“你有一个苹果,我有一个苹果,彼此交换一下,我们仍然是各有一个苹果;但你有一种思想,我有一种思想,彼此交换,我们就都有了两种思想,甚至更多。”
在线编程讨论交流群期待您的加入!
|
安全
今日话题
留言区等你的答案哦~
994 0
今日话题
|
机器学习/深度学习
|
人工智能 算法
【聚能聊有奖话题】今日头条公布算法原理,你认可他们的理念吗?
11 日,今日头条召开了一场旨在推动整个行业来问诊算法、建言算法的分享交流会。资深算法架构师、中国科学技术大学计算机博士曹欢欢,在今日头条总部带来了题为《让算法公开透明》的分享,面向行业公开算法原理,消除社会各界对算法的一些误解,同时接受意见和建议。
2447 0
|
监控 负载均衡 网络虚拟化