数据库大数据一体化加速数智化创新

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 内容简要:一、整体趋势二、核心技术和产品介绍三、最佳实践

内容简要:

一、整体趋势

二、核心技术和产品介绍

三、最佳实践

 

 

一、整体趋势

image.png

数据资产化包括数据变现都是企业包括政府关心的话题,数据的重要性不言而喻,早期需要不断地向客户、企业佐证数据有变现和增值能力,如今已经成为行业的共识。

通常情况下,企业存在大量生产业务数据,例如互联网企业有用户行为数据,物联网数据以及第三方市场数据,或者是第三方厂家商业化数据或公开数据。企业可以拿到的数据越来越多,如何把数据抽取、集成起来做后续的应用变现,解决数据孤岛的问题,做数据集成、数据采集的能力,这些都是企业当下面临的挑战。

数据采集完、集成完后需要由数据分析的承接系统,这个系统从技术演进过程中有非常多的技术方案,包括传统的商业数据库,传统数据仓库,以及大数据等很多体系,包含云原生数据仓库、数据湖,这些都是存储和承接数据的工具平台。

在工具平台上传时,我们的数据从各个数据源采集过来,不管是数据质量、可变现价值都是有待于进一步加工处理,这个就涉及到数据开发平台以及数据建模平台,需要将众多海量数据抽丝剥茧清洗出来做标准化。

数据治理服务目前也是非常专业的方向,在数据资产化完成以后,就涉及到数据资产变现,分为两个领域。

第一个是如何把数据资产应用在企业内部的业务,解决企业的增值,完成数据资产的赋能,业界的状态一般做到了基于数据辅助决策,数据变现是数字SaaS化解决的问题。

另外一个数据交易领域,目前国内外的水平存在一定差距,国外数据交易不管是在合规政策、数据标准要求方面,厂商的能力方面,包括数据的规模与种类等,相对国内起步较早,水平较高。国内在这一块的法规标准,包括开放性、交易合规政策上相对来说起步较晚。虽说数据交易有较大的市场空间,但由于起步相对比较晚,因此数据资产从数据源到数据变现的流程过程很长,各大厂商的能力也是强弱不一,在数据存储和计算这个领域,阿里云的理解和判断处于领先地位。

image.png

数据资产是以数据为核心。

近几年从厂商报告里面可以看到一些核心的变化,第一个是数据规模一直在快速的增长,这是由于互联网时代与5GIOT移动网络的兴起,这两个转折点都导致了数据海量规模化的增长,导致采集的数据与规模越来越大,传统行多技术方案或者是工具产品就涉及到如何解决海量数据规模的问题。

数据处理时效性要求上,很多厂商的业务应用越来越实时。举个例子,在电商场景,根据用户最近的浏览数据或者是在网站上最新的行为数据,快速为用户做精准的推荐和营销。现在数据实时处理的要求越来越高,非结构化数据的占比越来越高,还是得益于在IOT5G网络图片音视频的处理越来越多。

image.png

上云之后,传统的工具产品如何发展,这对传统的数据分析系统提出新的挑战。

我们以大数据技术来做对比分析这个问题,大家都知道数据库和数据仓库的发展迅速,在用大数据技术存在一些问题和痛点,数据源多样化、来源非常多导致数据治理的问题。不同系统的用户ID、名称不一样,数据口径不一致,如何把多个地方、多个数据源拉动到一起做深度数据挖掘,这是非常大的挑战。

第二个是分析时效性的问题和技术架构的复杂度。拿大数据体系来说,大数据技术或者是大数据的发展是非常快的,系统演进、技术更新迭代,每年都有推陈出新的系统。用一种产品解决垂直领域的问题,就会导致它的产品数量包括产品系统越来越复杂。这就带来一个问题,企业对实时性、规模都改变的情况下,单一系统解决不了问题,企业就要组合多种产品推出整套的解决方案,对企业的学习门槛、上限门槛非常高的。

image.png

经过问题的分析与接触客户,可以发现业界其他厂商都是一样的演进趋势,整个数据分析系统从1970年到现在有40多年的时间。

早期第一代关系型数据库包括商业型的数据库就能解决交易类数据或者是生产类数据的分析诉求,那时候更多是做决策、诊断可视化决策的报表分析,由于当时数据量不大,关系型数据库就可以作为底层存储分析系统。

到了1993年,企业数据量慢慢大了以后,在线数据库放不下历史数据,新推出来数据仓库模型通过拓展存储解决了这个问题。2005年,互联网兴起之后,数据量越来越大,传统的数据仓库存在扩展性瓶颈与容量问题。当时以谷歌为代表提出的三篇论文里面的大数据框架,从2005年至今还可以看到很多企业都在用这套技术架构,这套技术架构有利有弊,新一代数据处理加速从Big Data向云原生数据仓库+数据湖演进。

到云原生数据仓库2012年这个阶段,有很多产品出来了,我们认为演进的方向未来应该是这个方向。

image.png

云原生的系统可以解决用户遇到的几个痛点问题,基于云计算的技术架构体系提出存计分离。云原生数据仓库的技术架构体系和数据库技术架构体系非常像,在实时性能力是做了非常多的巧妙设计,可以解决离线包括在线的实时化能力。

image.png

多样化的数据类型,包括数据的多模化。这个也是很多云原生系统解决半结构化数据,慢慢开始适配半结构化数据的计算和存储能力,是通过了简单技术栈体系满足前面的多样化诉求,最终解决的是用户门槛问题,包括成本问题,包括业务发展的问题。这就是为什么这两年系统发展很快,中小企业也可以用起来了,我们认为这个是未来新的方向。

image.png

从技术上面来看,未来关键技术处理有几块,具体表现在以下几个方面。

第一个是实时,用户还有离线、深度挖掘的诉求,未来数据存储能力应该是多样化的。

第二个存储、支撑应该是多模化的,可以支持结构化、半结构甚至非结构化的数据,这个也是未来大的方向趋势,一套数据解决存储、分析,真正解决复杂架构上的问题。

第三个是云原生存计分离的能力,进一步解决企业存得起、用得起的问题,只有经历云计算的架构升级,才可能把容量做到上千PB的规模。

第四个可以把计算的扩展性做到上千台的规模,这也是未来支撑海量数据规模下新的技术方向。

除此之外,我们认为安全可信是未来用户在选择数据产品或者是数据资产工具平台很重要的考量。这里包含数据存储安全、数据访问安全以及访问过程中全链路访问控制的安全,包括各个法规等保以及国内外各种法规支持的安全能力,这个也是未来很重要的方向。

性能越来越实时化以后,也可以借助硬件层面升级的能力进行软硬升级,把硬件的能力应用在整个数据资产化解决性能和实时在线化的能力,未来也会进一步探索软硬一体的方向。

智能化表现在以下三个方面:

第一个层面的智能化指产品或者工具平台本身是智能化的,或者是本身自闭环的。现在有很多的工具产品有非常高的运维门槛,未来这些工具能不能通过自学习的能力,能够让自闭环的能力增强。

第二是解决业务在智能化上的诉求,例如平台能否提供机器学习、深度学习AI分析能力。

第三个层面智能化是解决半结构化、非结构化的数据深度挖掘,增强分析能力。

 

 

二、核心技术和产品介绍

(一)云原生数据仓库+数据湖构建数据资产的存储与处理方案

阿里云这几年一直在探索云原生数据仓库和数据湖的数据方向,接下来跟大家分享一下,目前阿里云在这个方向上演进的最新进展和技术上面的最新解读。

image.png

阿里云在数据库推出了云原生数据仓库ADB,加上云原生数据库构建的数据资产存储和分析的解决方案。我们提供了两款产品,第一个云原生数据仓库ADB产品,这个产品是全面兼容PG/Oracle。第二个产品云原生数据湖,围绕阿里云上面的对象存储,大数据的分布存储构建的数据湖分析平台,在数据资产变现、数据治理、数据资产方面也做了很多的优化。

 

(二)AnalyticDB (ADB):整体介绍

image.png

上图为ADB整个技术架构,总共分为三层。

最底下的一层是存储层,最上面那一层计算引擎层,解决交互式分析一体化,解决了几实时性、离线计算以及多维度的点查场景等问题,做到一体化。

image.png

ADB的存计分离提供了计算弹性能力,冷的数据分层以后,在成本、性能方面解决海量存储的问题。

此外,ADB提供了完整的生态兼容,兼容数据库的生态体系,对用户来说可以用(英)技术栈解决数据分析的问题。

(四)AnalyticDB (ADB)Serverless 存储

 image.png

Serverless存储,智能索引满足不同数据类型的扫描分析,我们做了很多计算下推,才能满足更实时的要求。

image.png

上图为冷/热数据分层,以前冷的数据一定要通过两套系统来做,上面这套架构里面自动做冷的数据分层。

 

(五)AnalyticDB (ADB):在离线一体化

image.png

经过很多技术优化以后,我们也做了国际权威的认证,在TPC-DS和国际榜单的打榜取得第一名的成绩,性价比相较第二名是四到五倍的优势。

image.png

(六)Data Lake Analytics (DLA) 云原生数据湖

image.png

云原生数据湖目前各大厂商都在做,从市场心智来说,国外相对成熟,中国还处在启蒙的阶段,因此还需要做强企业的引导。

数据湖的优势是围绕用户开放存储,对数据的开放性与二次研发能力,计算引擎对接上面都是更开放的,对用户来说数据存储扩展性也更好。这带来了另外一个问题,它不是端到端的一站式解决方案,在引擎、数据上面无法做无缝衔接的,差距较大,下面简单讲一下我们在数据湖上的解决方案。

image.png

开放存储、统一元数据、开放计算、Serverless计算

整个数据湖最底下是存储,以前大数据分布式的文件系统叫做DMS,再上一层是缓存层,数据湖底下的设备不是真正为数据计算而存储的产品,在性能计算方面,不管是带宽还是计算下推的能力非常有限,一定要设计一套缓存层。

再上面就是计算引擎层,我们提供两个,一个是Spark,另外一个Presto,未来也会根据企业的诉求扩展引擎计算能力,引擎层全部基于(英)的架构,用户按照他的(英),我提交一个(英),都是按照这个(英)付费的,相对于以前的大数据来说,成本大幅下降,从用户使用情况来看至少是三倍的优化。

用户要构建数据湖,我们主要解决用户数据湖的构建问题,包含原数据的发现,基于(英)的技术,以及存储付费成本问题,解决企业对成本的诉求。

 

 

三、最佳实践

(一)江门农商行:基于ADB实现DB2全面“升舱”

image.png

在传统的银行中,DB2使用广泛,1970年的数据库承接在线交易也承接数据分析的诉求。

农商行做了很多互联网化的转型,当发现它的数据已经无法支撑,分析计算扩展性存在局限,有很多是软硬一体,软件方面扩展器是单机的,而且由于是海外产品,支持的服务成本较高,按照我们的方案全面升级后,成本优化了很多。

 

(二)中国邮政:全国大集中

image.png

中国邮政在全国各个省有许多分公司,这些分公司早期的数据资产都是独立的,形成数据孤岛。中国邮政希望做全国的物流与成本优化,将全国的公司盘点起来做全链路的优化,因此选用了ADB产品,把全国省市大集中,做物流链路的优化和分析,解决了以前数据孤岛的问题,分析性能有大幅度的优化。

 

(三)天猫双十一

image.png

在天猫双十一的时候,除了帮助生产交易系统呈现丝滑般效果,在分析系统方面我们也承载业务大屏,解决实时应用和辅助决策的问题。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
7月前
|
存储 关系型数据库 MySQL
大数据新视界--大数据大厂之MySQL 数据库课程设计:开启数据宇宙的传奇之旅
本文全面剖析数据库课程设计 MySQL,展现其奇幻魅力与严峻挑战。通过实际案例凸显数据库设计重要性,详述数据安全要点及学习目标。深入阐述备份与恢复方法,并分享优秀实践项目案例。为开发者提供 MySQL 数据库课程设计的全面指南,助力提升数据库设计与管理能力,保障数据安全稳定。
大数据新视界--大数据大厂之MySQL 数据库课程设计:开启数据宇宙的传奇之旅
|
6月前
|
负载均衡 算法 关系型数据库
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
本文聚焦 MySQL 集群架构中的负载均衡算法,阐述其重要性。详细介绍轮询、加权轮询、最少连接、加权最少连接、随机、源地址哈希等常用算法,分析各自优缺点及适用场景。并提供 Java 语言代码实现示例,助力直观理解。文章结构清晰,语言通俗易懂,对理解和应用负载均衡算法具有实用价值和参考价值。
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
|
6月前
|
存储 关系型数据库 MySQL
大数据新视界 --面向数据分析师的大数据大厂之 MySQL 基础秘籍:轻松创建数据库与表,踏入大数据殿堂
本文详细介绍了在 MySQL 中创建数据库和表的方法。包括安装 MySQL、用命令行和图形化工具创建数据库、选择数据库、创建表(含数据类型介绍与选择建议、案例分析、最佳实践与注意事项)以及查看数据库和表的内容。文章专业、严谨且具可操作性,对数据管理有实际帮助。
大数据新视界 --面向数据分析师的大数据大厂之 MySQL 基础秘籍:轻松创建数据库与表,踏入大数据殿堂
|
7月前
|
关系型数据库 MySQL 数据安全/隐私保护
大数据新视界--大数据大厂之MySQL 数据库课程设计:数据安全深度剖析与未来展望
本文深入探讨数据库课程设计 MySQL 的数据安全。以医疗、电商、企业案例,详述用户管理、数据加密、备份恢复及网络安全等措施,结合数据安全技术发展趋势,与《大数据新视界 -- 大数据大厂之 MySQL 数据库课程设计》紧密关联,为 MySQL 数据安全提供全面指南。
大数据新视界--大数据大厂之MySQL 数据库课程设计:数据安全深度剖析与未来展望
|
7月前
|
负载均衡 算法 关系型数据库
大数据新视界--大数据大厂之MySQL数据库课程设计:MySQL集群架构负载均衡故障排除与解决方案
本文深入探讨 MySQL 集群架构负载均衡的常见故障及排除方法。涵盖请求分配不均、节点无法响应、负载均衡器故障等现象,介绍多种负载均衡算法及故障排除步骤,包括检查负载均衡器状态、调整算法、诊断修复节点故障等。还阐述了预防措施与确保系统稳定性的方法,如定期监控维护、备份恢复策略、团队协作与知识管理等。为确保 MySQL 数据库系统高可用性提供全面指导。
|
7月前
|
SQL 关系型数据库 MySQL
大数据新视界--大数据大厂之MySQL数据库课程设计:MySQL 数据库 SQL 语句调优方法详解(2-1)
本文深入介绍 MySQL 数据库 SQL 语句调优方法。涵盖分析查询执行计划,如使用 EXPLAIN 命令及理解关键指标;优化查询语句结构,包括避免子查询、减少函数使用、合理用索引列及避免 “OR”。还介绍了索引类型知识,如 B 树索引、哈希索引等。结合与 MySQL 数据库课程设计相关文章,强调 SQL 语句调优重要性。为提升数据库性能提供实用方法,适合数据库管理员和开发人员。
|
7月前
|
关系型数据库 MySQL 大数据
大数据新视界--大数据大厂之MySQL 数据库课程设计:MySQL 数据库 SQL 语句调优的进阶策略与实际案例(2-2)
本文延续前篇,深入探讨 MySQL 数据库 SQL 语句调优进阶策略。包括优化索引使用,介绍多种索引类型及避免索引失效等;调整数据库参数,如缓冲池、连接数和日志参数;还有分区表、垂直拆分等其他优化方法。通过实际案例分析展示调优效果。回顾与数据库课程设计相关文章,强调全面认识 MySQL 数据库重要性。为读者提供综合调优指导,确保数据库高效运行。
|
2月前
|
缓存 关系型数据库 BI
使用MYSQL Report分析数据库性能(下)
使用MYSQL Report分析数据库性能
133 3
|
2月前
|
关系型数据库 MySQL 数据库
自建数据库如何迁移至RDS MySQL实例
数据库迁移是一项复杂且耗时的工程,需考虑数据安全、完整性及业务中断影响。使用阿里云数据传输服务DTS,可快速、平滑完成迁移任务,将应用停机时间降至分钟级。您还可通过全量备份自建数据库并恢复至RDS MySQL实例,实现间接迁移上云。
|
2月前
|
关系型数据库 MySQL 分布式数据库
阿里云PolarDB云原生数据库收费价格:MySQL和PostgreSQL详细介绍
阿里云PolarDB兼容MySQL、PostgreSQL及Oracle语法,支持集中式与分布式架构。标准版2核4G年费1116元起,企业版最高性能达4核16G,支持HTAP与多级高可用,广泛应用于金融、政务、互联网等领域,TCO成本降低50%。