生命科学和智能计算峰会-下一代企业级云原生实时数仓的创新和实践(一)
嘉宾信息
叶建林(自修) 杭州石原子科技 Founder&CEO
下一代企业级云原生实时数仓的创新和实践(一)
内容介绍
一、MySql加速器
二、TP系统备份数据库
三、信创版MySql
四、能力延伸
课程简介
我是石原子科技的ceo,我叫自修,今天我很有幸的和大家分享一下,石原子现在在做的一些事情。
今天会分成几个主题,第一,从整个行业的角度来看,我们的机会在哪里;第二个介绍一下,石原子在做的一些事情;第三个就讲讲石原子做了一些核心的技术难点,以及石原者目前在这个商业上做了一些事情。
首先第一个点是整个的机会点。
大家也都知道,整个的MySql本身,它超过500万行数据,本身其实是不能很好的分析的诉求,这也是我们抓住的一个非常重的一个客户的痛点,他未来的发展方向一定是增强ap的。目前大家也知道,整个的MySql是全球最受欢迎的开源的数据库,它整体的发展方向有两条,第一个类似于自于增强tp的这个能力,比如阿里,亚马逊,另外一个发展方向是类似于增强ap的伦理的能力。
Oracle的hit以及目前整个十分子在探索的,目前也是整个业界首个开源的MySql的分时型数据库,这是第一个点。
第二个点,我们对标的是le的hit wave,在一个价构体系里面能够同时的做tp的能力。
从20年9月份发布,从一个节点到64个节点,再到整个的五一个节点,目前它也是整个oca增长最快的一个元服务,两年内,大概有40%的MySql的工作负载迁移到t里面去,它核心的解决了,对于MySql用户而言,它不需要做etl,能够实现一体化的能力,然后在整个的MySql上面提供了原生的高性能的分析,可以在毫秒进行加速查询。
以下图片是信创,国产替代,自主可用:
第二个点就是我们对于整个资源来讲,整个信号的机会。目前,石元子也是国内唯一可以完美替代MySql的信号产品。
下图的行业生态位:
从整个的现状来看,整个商业数据库,在新创领域,商业数据库占了70%,开源的MySql大概占据了20%,还有很强的国产的数据库,比如达梦o,大概占据了5%左右,达梦o,他们核心解决的是去o,而石元子核心解决的是未来可以完美的去替代整个的MySql入口的新放产品。预计到24年,整个国内数据库的市场会到达300亿左右,特别是银行保险,证券,支付,期货等等,这也是非常重要的一个新创的出额入口点,这是我们的市场机会。
前面是讲到我们的市场,整个的基于从整个的行业生态定位角度来讲,绝大部分同学,厂家和创业公司都在抢整个的大app的市场,比如snowfra的市场。
而石原子呢?他目前侧重的是在百tb以下的数据量去解决MySql本身不具备分析的能力,我们会一直会围绕着百tb以下,里面非常有意思的就是我们也自己跑了很多客户,差不多在中国500强的企业,十年内的数据量,基本上是在150t左右。
下图是会用数据库就会用大数据,从AP切入到增强TP:
石原子提出了一个非常重要的一个观点,你会用数据库,就会用大数据。我们的切入点会分成几个维度,从ap切入到增强tp,我们找到了三个数核心的切入点,第一个就是我们的MySql加速器,实源子的中db可以很好的作为MySql的备库和子读库,我们保留了tp的能力,直带的增强ap的能力。
我们提出了一个非常重要的观点,叫做tp,也是业界唯一一个产品,可以去弥补MySql私务型的整个热数据分析领域的空白,瞄准的是整个的宽速据和热数据的分析,这是第一个切入点;第二个切入点也是我们跑了这么多客户之后,找到了一个非常好的,数据库作为td系统的备份数据库,因为所有的数据超过三年之后,本身会对tp商业系统造成很大的负载,我们可以很好的去解决,归档历史数据,然后在归档的历史数据上面进行去乘量的实时分析。
这是我们的第二个切入点;第三个切入点是我们得出一个非常重要的观点,叫做信号版MySql,我们在增强app的基础上不断的在拓展tp的能力,这也是我们现在落了很多信号客户。
下图是产品路径:贴着MySql生态稳扎稳打:
这里面就是我们面向于客户的一个非常重要的打法,MySql的生态稳扎文档,先从整个的增强ap的能力到整个的tb升级,我们现在1.0的方案可以以备库的形式去支撑原有架构中的ap的应用,这也是我们大量的客户在使用,我们现在在新新升级的o点零的架构,
包括行列混存加整个的分分布式内存计算,未来再加上我们本身的自主可控,国产替代的,我们未来可以完全的去替换,整个的2.0就是替代MySql的方案,同时提供tp和p的能力。
一、MySql加速器
第一个切入点就是MySql的加速器。我们刚才前面也讲到了,面向的是整个的私务型热数据的一个空白的市场,首先从整个的场景的角度来讲,金融的潜置系统,交易反欺诈系统,包括用户行为分析,还有制造业的iot的知施系统,还有整个的运营商的b于业务系统。还有电力能源的前置oa营销等等,它底层有大量的用了MySql,MySql,我们这是整个的场景;第二个点就是从数据分析的趋势角度来讲,是面向于小热和宽的,比如制造业本身的传感器会非常多,它的维度也会非常多,所以这也是恰恰是我们最大的核心的优势。针对于宽数据左边的切入点,可以看到所有的数据其实是从t p领域开始出发,在到私洞db再通过领域,再到整个的领域,本身的也不需要做相应的的能力。
1、如何用数据来做出更好的决策
也有很多客户会问我们你们的数据量是不是不能够发挥数据的价值?其实这里面一个非常重要的观点,其实前面我也讲到了,中国500强的企业十年,业内的数据量也差不多是在百tb左右,这个里面所有的计算的数据量95%到99%绝大部分是在100t,数据的大小其实不是问题的本质所在,核心的问题其实是针对于热数据,宽数据上面的实施的分析以及聚合运算,这是核心的,能够最快的去发挥速据数据的价值;第二个点,其实对于整个的市场角度来讲,大家也都知道,数据库从db卷或者上面排名都有几百个数据库,其实从客户的角度来讲,客户是不缺一个tp的系统,但是,他非常缺一个能够结合tp去更快把被性能提升的一个自主可控的app的一个引擎。我们提出了三类,从用户的角度来讲,我们提出了核心解解决三类问题,第一个是提供比MySql自身分析分析能力更强的一个MySql的引擎。
2、客户不缺TP,更缺一个自主可控的AP引擎
第二个可以非常好的作为MySql的加速器,通过同步来实施,第三个也是作为可以增强。
3、一体化轻量级数据底座
有了私动db和以前的整个的大数据平台,包括tp通过大ap的架构和我们通过tp通过同步到我们的私动db,这两者架构之间,其实本质上有很大的不一样的地方。我们提体炼了一个很重的观点,作为一体化的,轻量化的数据的底座,这个里面面向于客户群体数据量以及数据的延迟,还有本身的系统架构,还有整个整个对于客户而言的tc的成本,还有根据你的数据在实施的同步过程当中是否会丢失,针对于本身应用层面的角度来讲,你是不要做数据的,相应的切货移系统架构的升值等等。把这两者之间做了一个完整的一个对比,这恰恰也是说我们在一体化的架构上面,100%去兼兼容MySql的生态,第二,本身我们的tp能力是很强的,不仅能够高可用。
4、过万时点数据,实时策略分析
我们内部呢?是一体化的架构,形成了htp的架构,针对于MySql,我们提供了十倍到100倍的查询的性能。我们我这边举一些例子,比如我们有一些客户是量化投资部的,它本身其实涉及到的核心的场景,包括它的数据,是一个数据密执型的分析的业务,包括策略研究,包括模拟仿真。包括实盘的实施的分析,客户以前呢?涉及通过MySql,包括他各种各样的风控数据,通过et的能力,然后然后同步到各种不一样的数据源。
比如会把高并发的写入到MySql,包括指标数据的写到house,然后这种日志行为数据的放到es。还有这种大宽表的会放客户以前的架构,针对于MySql也好,针对于其他的也好,这里面是他客户里面比较大的两个痛点,第一个点,它本身会存在的上万点的数据转化成之后,它的维度大概有几千列,这是第一个点;第二个点,针对于里面的数据,要做整个的表,比如几10张大表和小表之间的聚合的分析,本身性能会非常慢。
本身的客户在前面这套价格里面其实是一种t加一的模式。针对于量化投资策略分析,想要达到实时的查询,其实还是难度还是比较大的,客户用了我们的测产品之后,通过orle的数据,包括MySql里面的数据科学实时的,通过同步到我们的,这样达到达到了对他的策略研究,业务仿真,包括整个的实施风控都有很很大的效果,达成了整个效果。第一,从客户从以前的t加一的模式到我们现在毫秒值的反馈;第二;整个的性能从策略分析,整体的性能大概提升了三倍,这是整个金融的场景。
5、营销平台,多元汇聚,实时加速
第二个场景,是整个制造业,这个制造业也是我们针对于iot的实施系统,它本身的数据维度其实非常多,大概有3000多列。本身有七770多个管控的节点,通过我们的整个的架构,把它以前十几套物理支持的多套的数据库,大数据以及计算引擎转换成了我们4个节点,是我们现在整个上线之后小于三秒,异地的数据能够做到t加零的分析,最重要的是,让客户的良品率从75%提升到了85%,这是整个制造业的一个案例,我们还有整个的全球一体化的营销系统,本身它底下全是用MySql的,它本身底下用各个渠道的,包括包括跨地域,跨事业部以及跨不同品种的营销的实施的分析,也是比较了很多的一些产品,最后通过比较之后,无论通过整个性能,通过成本,最终切换成我们,这个里面把客户的渠道对比,销售预测,仓库背后等等都有很大的一个性能上的提升和成本上的下降。