下一代企业级云原生实时数仓的创新和实践(一)

本文涉及的产品
可观测可视化 Grafana 版,10个用户账号 1个月
性能测试 PTS,5000VUM额度
应用实时监控服务-可观测链路OpenTelemetry版,每月50GB免费额度
简介: 下一代企业级云原生实时数仓的创新和实践(一)

生命科学和智能计算峰会-下一代企业级云原生实时数仓的创新和实践(一)

嘉宾信息

叶建林(自修) 杭州石原子科技 Founder&CEO


下一代企业级云原生实时数仓的创新和实践(一)


内容介绍

一、MySql加速器

二、TP系统备份数据库

三、信创版MySql

四、能力延伸


课程简介

我是石原子科技的ceo,我叫自修,今天我很有幸的和大家分享一下,石原子现在在做的一些事情。

image.png

今天会分成几个主题,第一,从整个行业的角度来看,我们的机会在哪里;第二个介绍一下,石原子在做的一些事情;第三个就讲讲石原子做了一些核心的技术难点,以及石原者目前在这个商业上做了一些事情。

首先第一个点是整个的机会点。
image.png

大家也都知道,整个的MySql本身,它超过500万行数据,本身其实是不能很好的分析的诉求,这也是我们抓住的一个非常重的一个客户的痛点,他未来的发展方向一定是增强ap的。目前大家也知道,整个的MySql是全球最受欢迎的开源的数据库,它整体的发展方向有两条,第一个类似于自于增强tp的这个能力,比如阿里,亚马逊,另外一个发展方向是类似于增强ap的伦理的能力。

Oracle的hit以及目前整个十分子在探索的,目前也是整个业界首个开源的MySql的分时型数据库,这是第一个点。

第二个点,我们对标的是le的hit wave,在一个价构体系里面能够同时的做tp的能力。

image.png

从20年9月份发布,从一个节点到64个节点,再到整个的五一个节点,目前它也是整个oca增长最快的一个元服务,两年内,大概有40%的MySql的工作负载迁移到t里面去,它核心的解决了,对于MySql用户而言,它不需要做etl,能够实现一体化的能力,然后在整个的MySql上面提供了原生的高性能的分析,可以在毫秒进行加速查询。

以下图片是信创,国产替代,自主可用:

image.png

 

第二个点就是我们对于整个资源来讲,整个信号的机会。目前,石元子也是国内唯一可以完美替代MySql的信号产品。

下图的行业生态位:

image.png

从整个的现状来看,整个商业数据库,在新创领域,商业数据库占了70%,开源的MySql大概占据了20%,还有很强的国产的数据库,比如达梦o,大概占据了5%左右,达梦o,他们核心解决的是去o,而石元子核心解决的是未来可以完美的去替代整个的MySql入口的新放产品。预计到24年,整个国内数据库的市场会到达300亿左右,特别是银行保险,证券,支付,期货等等,这也是非常重要的一个新创的出额入口点,这是我们的市场机会。

前面是讲到我们的市场,整个的基于从整个的行业生态定位角度来讲,绝大部分同学,厂家和创业公司都在抢整个的大app的市场,比如snowfra的市场。

而石原子呢?他目前侧重的是在百tb以下的数据量去解决MySql本身不具备分析的能力,我们会一直会围绕着百tb以下,里面非常有意思的就是我们也自己跑了很多客户,差不多在中国500强的企业,十年内的数据量,基本上是在150t左右。

下图是会用数据库就会用大数据,从AP切入到增强TP:

image.png

石原子提出了一个非常重要的一个观点,你会用数据库,就会用大数据。我们的切入点会分成几个维度,从ap切入到增强tp,我们找到了三个数核心的切入点,第一个就是我们的MySql加速器,实源子的中db可以很好的作为MySql的备库和子读库,我们保留了tp的能力,直带的增强ap的能力。

我们提出了一个非常重要的观点,叫做tp,也是业界唯一一个产品,可以去弥补MySql私务型的整个热数据分析领域的空白,瞄准的是整个的宽速据和热数据的分析,这是第一个切入点;第二个切入点也是我们跑了这么多客户之后,找到了一个非常好的,数据库作为td系统的备份数据库,因为所有的数据超过三年之后,本身会对tp商业系统造成很大的负载,我们可以很好的去解决,归档历史数据,然后在归档的历史数据上面进行去乘量的实时分析。

这是我们的第二个切入点;第三个切入点是我们得出一个非常重要的观点,叫做信号版MySql,我们在增强app的基础上不断的在拓展tp的能力,这也是我们现在落了很多信号客户。

下图是产品路径:贴着MySql生态稳扎稳打:

image.png

这里面就是我们面向于客户的一个非常重要的打法,MySql的生态稳扎文档,先从整个的增强ap的能力到整个的tb升级,我们现在1.0的方案可以以备库的形式去支撑原有架构中的ap的应用,这也是我们大量的客户在使用,我们现在在新新升级的o点零的架构,

包括行列混存加整个的分分布式内存计算,未来再加上我们本身的自主可控,国产替代的,我们未来可以完全的去替换,整个的2.0就是替代MySql的方案,同时提供tp和p的能力。

一、MySql加速器

image.png

 

第一个切入点就是MySql的加速器。我们刚才前面也讲到了,面向的是整个的私务型热数据的一个空白的市场,首先从整个的场景的角度来讲,金融的潜置系统,交易反欺诈系统,包括用户行为分析,还有制造业的iot的知施系统,还有整个的运营商的b于业务系统。还有电力能源的前置oa营销等等,它底层有大量的用了MySql,MySql,我们这是整个的场景;第二个点就是从数据分析的趋势角度来讲,是面向于小热和宽的,比如制造业本身的传感器会非常多,它的维度也会非常多,所以这也是恰恰是我们最大的核心的优势。针对于宽数据左边的切入点,可以看到所有的数据其实是从t p领域开始出发,在到私洞db再通过领域,再到整个的领域,本身的也不需要做相应的的能力。

1、如何用数据来做出更好的决策

image.png

也有很多客户会问我们你们的数据量是不是不能够发挥数据的价值?其实这里面一个非常重要的观点,其实前面我也讲到了,中国500强的企业十年,业内的数据量也差不多是在百tb左右,这个里面所有的计算的数据量95%到99%绝大部分是在100t,数据的大小其实不是问题的本质所在,核心的问题其实是针对于热数据,宽数据上面的实施的分析以及聚合运算,这是核心的,能够最快的去发挥速据数据的价值;第二个点,其实对于整个的市场角度来讲,大家也都知道,数据库从db卷或者上面排名都有几百个数据库,其实从客户的角度来讲,客户是不缺一个tp的系统,但是,他非常缺一个能够结合tp去更快把被性能提升的一个自主可控的app的一个引擎。我们提出了三类,从用户的角度来讲,我们提出了核心解解决三类问题,第一个是提供比MySql自身分析分析能力更强的一个MySql的引擎。


2、客户不缺TP,更缺一个自主可控的AP引擎

image.png

第二个可以非常好的作为MySql的加速器,通过同步来实施,第三个也是作为可以增强。

 

3、一体化轻量级数据底座

image.png

有了私动db和以前的整个的大数据平台,包括tp通过大ap的架构和我们通过tp通过同步到我们的私动db,这两者架构之间,其实本质上有很大的不一样的地方。我们提体炼了一个很重的观点,作为一体化的,轻量化的数据的底座,这个里面面向于客户群体数据量以及数据的延迟,还有本身的系统架构,还有整个整个对于客户而言的tc的成本,还有根据你的数据在实施的同步过程当中是否会丢失,针对于本身应用层面的角度来讲,你是不要做数据的,相应的切货移系统架构的升值等等。把这两者之间做了一个完整的一个对比,这恰恰也是说我们在一体化的架构上面,100%去兼兼容MySql的生态,第二,本身我们的tp能力是很强的,不仅能够高可用。

 

4、过万时点数据,实时策略分析

image.png

我们内部呢?是一体化的架构,形成了htp的架构,针对于MySql,我们提供了十倍到100倍的查询的性能。我们我这边举一些例子,比如我们有一些客户是量化投资部的,它本身其实涉及到的核心的场景,包括它的数据,是一个数据密执型的分析的业务,包括策略研究,包括模拟仿真。包括实盘的实施的分析,客户以前呢?涉及通过MySql,包括他各种各样的风控数据,通过et的能力,然后然后同步到各种不一样的数据源。

比如会把高并发的写入到MySql,包括指标数据的写到house,然后这种日志行为数据的放到es。还有这种大宽表的会放客户以前的架构,针对于MySql也好,针对于其他的也好,这里面是他客户里面比较大的两个痛点,第一个点,它本身会存在的上万点的数据转化成之后,它的维度大概有几千列,这是第一个点;第二个点,针对于里面的数据,要做整个的表,比如几10张大表和小表之间的聚合的分析,本身性能会非常慢。

本身的客户在前面这套价格里面其实是一种t加一的模式。针对于量化投资策略分析,想要达到实时的查询,其实还是难度还是比较大的,客户用了我们的测产品之后,通过orle的数据,包括MySql里面的数据科学实时的,通过同步到我们的,这样达到达到了对他的策略研究,业务仿真,包括整个的实施风控都有很很大的效果,达成了整个效果。第一,从客户从以前的t加一的模式到我们现在毫秒值的反馈;第二;整个的性能从策略分析,整体的性能大概提升了三倍,这是整个金融的场景。

 

5、营销平台,多元汇聚,实时加速

image.png

第二个场景,是整个制造业,这个制造业也是我们针对于iot的实施系统,它本身的数据维度其实非常多,大概有3000多列。本身有七770多个管控的节点,通过我们的整个的架构,把它以前十几套物理支持的多套的数据库,大数据以及计算引擎转换成了我们4个节点,是我们现在整个上线之后小于三秒,异地的数据能够做到t加零的分析,最重要的是,让客户的良品率从75%提升到了85%,这是整个制造业的一个案例,我们还有整个的全球一体化的营销系统,本身它底下全是用MySql的,它本身底下用各个渠道的,包括包括跨地域,跨事业部以及跨不同品种的营销的实施的分析,也是比较了很多的一些产品,最后通过比较之后,无论通过整个性能,通过成本,最终切换成我们,这个里面把客户的渠道对比,销售预测,仓库背后等等都有很大的一个性能上的提升和成本上的下降。

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
相关文章
|
6天前
|
存储 Cloud Native 块存储
EBS深度解析:云原生时代企业级块存储
企业上云的策略,从 Cloud-Hosting 转向 Serverless 架构。块存储作为企业应用上云的核心存储产品,将通过 Serverless 化来加速新的计算范式全面落地。在本话题中,我们将会介绍阿里云块存储企业级能力的创新,深入解析背后的技术细节,分享对未来趋势的判断。
|
1月前
|
SQL 分布式计算 数据挖掘
加速数据分析:阿里云Hologres在实时数仓中的应用实践
【10月更文挑战第9天】随着大数据技术的发展,企业对于数据处理和分析的需求日益增长。特别是在面对海量数据时,如何快速、准确地进行数据查询和分析成为了关键问题。阿里云Hologres作为一个高性能的实时交互式分析服务,为解决这些问题提供了强大的支持。本文将深入探讨Hologres的特点及其在实时数仓中的应用,并通过具体的代码示例来展示其实际应用。
154 0
|
4月前
|
数据采集 运维 Cloud Native
Flink+Paimon在阿里云大数据云原生运维数仓的实践
构建实时云原生运维数仓以提升大数据集群的运维能力,采用 Flink+Paimon 方案,解决资源审计、拓扑及趋势分析需求。
18507 54
Flink+Paimon在阿里云大数据云原生运维数仓的实践
|
3月前
|
SQL 分布式计算 数据库
畅捷通基于Flink的实时数仓落地实践
本文整理自畅捷通总架构师、阿里云MVP专家郑芸老师在 Flink Forward Asia 2023 中闭门会上的分享。
8313 15
畅捷通基于Flink的实时数仓落地实践
|
3月前
|
SQL 消息中间件 OLAP
OneSQL OLAP实践问题之实时数仓中数据的分层如何解决
OneSQL OLAP实践问题之实时数仓中数据的分层如何解决
53 1
|
5月前
|
存储 SQL 消息中间件
Hologres+Flink企业级实时数仓核心能力介绍
通过Hologres+Flink构建易用、统一的企业级实时数仓。
|
3月前
|
存储 运维 Cloud Native
"Flink+Paimon:阿里云大数据云原生运维数仓的创新实践,引领实时数据处理新纪元"
【8月更文挑战第2天】Flink+Paimon在阿里云大数据云原生运维数仓的实践
275 3
|
4月前
|
Kubernetes Cloud Native 微服务
企业级容器部署实战:基于ACK与ALB灵活构建云原生应用架构
这篇内容概述了云原生架构的优势,特别是通过阿里云容器服务Kubernetes版(ACK)和应用负载均衡器(ALB)实现的解决方案。它强调了ACK相对于自建Kubernetes的便利性,包括优化的云服务集成、自动化管理和更强的生态系统支持。文章提供了部署云原生应用的步骤,包括一键部署和手动部署的流程,并指出手动部署更适合有技术背景的用户。作者建议在预算允许的情况下使用ACK,因为它能提供高效、便捷的管理体验。同时,文章也提出了对文档改进的建议,如添加更多技术细节和解释,以帮助用户更好地理解和实施解决方案。最后,展望了ACK未来在智能化、安全性与边缘计算等方面的潜在发展。水文一篇,太忙了,见谅!
|
5月前
|
Cloud Native 关系型数据库 MySQL
《阿里云产品四月刊》—云原生数据仓库 AnalyticDB MySQL 版 新功能
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
101 3
|
5月前
|
SQL Cloud Native 关系型数据库
云原生数据仓库AnalyticDB操作报错合集之执行sql的进程报错:"unknown connection id",是什么导致的
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
790 3