业界 | 数据库大数据一体化加速企业数智化创新

本文涉及的产品
云原生数据库 PolarDB MySQL 版,Serverless 5000PCU 100GB
云数据库 Redis 版,社区版 2GB
推荐场景:
搭建游戏排行榜
云数据库 RDS MySQL Serverless,0.5-2RCU 50GB
简介: 作者:蔡冬者

当前,数据要素的重要意识已经深入企业内部,但从数据要素到数据资产化的过程中,企业面临诸多困扰:数据要素如何采集?如何存储与保障数据安全?如何进行数据的处理与分析?如何建立数据要素全流程管理过程?形成数据资产后如何发挥数据资产的价值来驱动决策?数据资产如何实现变现?数据资产如何发挥核心价值?……


日前,为深度解析这些问题,推动中国企业数据资产化管理工具市场健康发展,海比研究院、中国软件网联合中国软件行业协会在京举行《2021中国数据资产化工具市场研究报告》发布论坛,本次发布论坛邀请多位业内专家出席活动,就数据资产化的产生背景、发展历程、典型工具、行业概况、技术水平、市场规模、竞争格局等方面深度解析,共绘数据资产化工具市场未来。


阿里云数据库产品事业部OLAP&生态工具产品负责人、高级产品专家蔡冬者出席本次论坛,就数据库大数据一体化加速企业数智化创新进行了精彩分享。


120645932.jpg

 阿里云数据库产品事业部OLAP&生态工具产品负责人、高级产品专家蔡冬者


一、整体趋势

图片1.png

在互联网经济时代,数据已经被列为新的生产要素,其与土地、劳动力、资本、技术并列为五大生产要素。数据的重要性不言而喻,越来越多的企业把数据作为战略资产,以数据运营提升企业竞争力。


企业数据资产化应用之前需要经过复杂的数据采集、数据集成、数据清洗、数据建模及数据治理。当前企业有丰富的数据来源,包括生产数据、日志数据、IOT数据以及第三方市场数据。从IDC报告反馈,企业数据具备规模爆炸性增长、实时化、智能化及加速上云等特征。这对数据资产化各环节的工具都提出了海量、弹性、智能化、实时、多模及低成本等业务诉求。其中:

【1】 海量:随着移动互联网、物联网及5G技术的成熟及普及,企业可采集的数据呈现爆炸性增长的趋势,据IDC报告说明,2020年全球数据规模达到40ZB。这也就对数据资产工具提出海量存储海量数据计算、弹性低成本分析的诉求。

【2】 实时:越来越多的企业利用数据驱动业务增长。例如以购物推荐为例,转化率较高的系统需要根据用户的实时行为进行个性化推荐。相较于传统数据分析漫长的计算流转流程,这就要求数据资产化工具要能够满足数据从采集到应用的低延迟诉求。

【3】 智能化:企业非结构化数据占比越来越高,数据资产工具除了支持结构化数据外,也要能够深度挖掘应用非结构化数据。这就要求数据资产工具要具备多模数据的存储、计算能力。

图片2.png

在数据资产化过程中,数据存储及处理系统发挥着至关重要的作用。为应对企业不断变化的数据资产化诉求,传统大数据技术【以开源hadoop为代表】推出众多垂直的技术体系,通过组合OLAP、离线计算、流计算、搜索引擎等系统满足企业多样化的分析诉求。而不同技术体系之间通过复杂的ETL逻辑进行数据交互,整体方案复杂度高、经济成本及学习成本非常高。

 图片3.png

从业界趋势上看,数据处理系统经历了“商业数据库”、“传统数据仓库”、“大数据技术”到今天的“云原生数据仓库”。 由于传统数据分析系统存在扩展性、容量、性能、架构复杂等问题,今天企业数据处理系统已经在加速向“云原生数据仓库+云原生数据湖”演进,这里面的典型代表有:snowflake、AWS redshift、AWS Athena、阿里云AnalyticDBAzure/阿里云DLA

图片4.png图片5.png


所以,我们认为下一代围绕“云原生数据仓库+数据湖”的数据处理系统,应该具备如下的特性:

【1】 在离线一体化:一套系统支持交互式分析、离线计算、实时更新、高并发点查及机器学习。通过一套系统,实现离线实时数仓一体化,企业无需学习应用多套技术栈,简化技术架构。同时,统一系统可以避免数据重复及不一致,显著降低成本。

【2】 云原生+分布式:借助云计算的新型技术架构,实现存储计算分离,同时结合分布式技术架构,实现海量数据的存储及计算诉求。

【3】 智能化:相较于生产业务,数据分析逻辑复杂度极高,数据处理系统需要能够实现自治以降低数据分析门槛。“自治”能力包括异常自感知、自决策、自优化及自恢复。

【4】 多模:企业数据越来越多样化,除了结构化数据,半结构化及非结构化占比越来越高。数据处理系统需要具备多模的能力,能够支持半结构化、非结构化数据,且能够提供多样的计算能力。

【5】 软硬件一体:近年来新硬件在性能、时延方面不断创新突破。通过软硬一体化深度集成,可以充分利用硬件及深度优化优势,提供更有竞争力的数据处理系统。

【6】 安全可信:安全可信是用户在选择数据处理系统很重要的考量因素。安全可信包含存储安全访问安全及安全审计等。数据处理系统需要构建安全可信能力,解决企业安全顾虑。

图片6.png

二、核心技术和产品介绍

(一)云原生数据仓库+数据湖构建数据资产的存储与处理方案

在企业数据资产化进程中,阿里云提供了资产化过程中每个环节涉及到的工具产品,主要包括:数据传输DTS、数据管理DMS、云原生数据仓库AnalyticDB、云原生数据湖DLA、Dataworks、智能数据构建Dataphin、QuickBIDataV以及众多的生态产品。


对于数据资产化过程中使用的数据处理系统,阿里云一直在探索云原生数据仓库和数据湖的数据方向。

图片7.png

阿里云在数据库推出了云原生数据仓库ADB,加上云原生数据库构建的数据资产存储和分析的解决方案我们提供了两款产品,第一个云原生数据仓库ADB产品,这个产品是全面兼容PG/Oracle。第二个产品云原生数据湖,围绕阿里云上面的对象存储,大数据的分布存储构建的数据湖分析平台,在数据资产变现、数据治理、数据资产方面也做了很多的优化。

(二)AnalyticDB (ADB):整体介绍

图片8.png

上图为ADB整个技术架构,总共分为三层


最底下的一层是存储层,最上面那一层计算引擎层,解决交互式分析一体化,解决了几实时性、离线计算以及多维度的点查场景等问题,做到一体化。

(三)AnalyticDB (ADB) 云原生数据仓库

图片9.png 

ADB存计分离提供了计算弹性能力,冷的数据分层以后,在成本、性能方面解决海量存储的问题。


此外,ADB提供了完整的生态兼容,兼容数据库的生态体系。


(四)AnalyticDB (ADB):Serverless 存储

图片10.png

Serverless存储,智能索引满足不同数据类型的扫描分析,我们做了很多计算下推,才能满足更实时的要求。

图片11.png

上图为冷/热数据分层,以前冷的数据一定要通过两套系统来做,上面这套架构里面自动做冷的数据分层。 

(五)AnalyticDB (ADB):在离线一体化

图片12.png

经过很多技术优化以后,我们也做了国际权威的认证,在TPC-DS和国际榜单的打榜取得第一名的成绩,性价比相较第二名是四到五倍的优势。

图片13.png

(六)Data Lake Analytics (DLA) 云原生数据湖

图片14.png

云原生数据湖目前各大厂商都在做,从市场心智来说,国外相对成熟,中国还处在启蒙的阶段,因此还需要做强企业的引导。


数据湖的优势是围绕用户开放存储,对数据的开放性与二次研发能力,计算引擎对接上面都是更开放的,对用户来说数据存储扩展性也更好。这带来了另外一个问题,它不是端到端的一站式解决方案,在引擎、数据上面无法做无缝衔接的,差距较大,下面简单讲一下我们在数据湖上的解决方案。

图片15.png

开放存储、统一元数据、开放计算、Serverless计算


整个数据湖最底下是存储,以前大数据分布式的文件系统叫做DMS,再上一层是缓存层,数据湖底下的设备不是真正为数据计算而存储的产品,在性能计算方面,不管是带宽还是计算下推的能力非常有限,一定要设计一套缓存层


再上面就是计算引擎层,我们提供两个,一个是Spark,另外一个Presto,未来也会根据企业的诉求扩展引擎计算能力,相对于以前的大数据来说,成本大幅下降,从用户使用情况来看至少是三倍的优化。


用户要构建数据湖,我们主要解决用户数据湖的构建问题,包含原数据的发现,以及存储付费成本问题,解决企业对成本的诉求。


三、最佳实践

(一)江门农商行:基于ADB实现DB2全面“升舱”

图片16.png

在传统的银行中,DB2使用广泛,1970年数据库承接在线交易也承接数据分析的诉求农商行做了很多互联网化的转型,发现它的数据已经无法支撑,分析计算扩展性存在局限,有很多是软硬一体软件方面扩展器是单机的,而且由于是海外产品,支持的服务成本较高,按照我们的方案全面升级后,成本优化了很多。

(二)中国邮政:全国大集中

图片17.png 

中国邮政在全国各个省有许多分公司,这些分公司早期的数据资产都是独立的,形成数据孤岛。中国邮政希望做全国的物流与成本优化,将全国的公司盘点起来做全链路的优化,因此选用了ADB产品,把全国省市大集中,做物流链路的优化和分析,解决以前数据孤岛的问题,分析性能有大幅度的优化。

 

(三)天猫双十一

图片18.png 

在天猫双十一的时候,除了帮助生产交易系统呈现丝滑般效果,在分析系统方面我们也承载业务大屏,解决实时应用和辅助决策的问题。


相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
26天前
|
Cloud Native OLAP OLTP
在业务处理分析一体化的背景下,开发者如何平衡OLTP和OLAP数据库的技术需求与选型?
在业务处理分析一体化的背景下,开发者如何平衡OLTP和OLAP数据库的技术需求与选型?
123 4
|
29天前
|
消息中间件 存储 数据库
RocketMQ 流数据库解析:如何实现一体化流处理?
RocketMQ 5.0 是一款云原生的消息中间件,旨在覆盖更多业务场景。它针对国内企业在数字化转型中面临的多场景消息处理需求,提供了一体化的解决方案。
111908 7
|
30天前
|
Cloud Native 关系型数据库 分布式数据库
开发者视角看云原生数据库一体化技术趋势
随着云原生数据库技术的不断发展,一体化数据库解决方案成为技术圈的热点,云原生数据库一体化技术是当前数据库领域的重要趋势,对于开发者而言,学习理解和应对这一趋势,对于业务开发的成功实施非常重要。比如,阿里云瑶池数据库和PolarDB-X等产品通过离在线一体化、处理分析一体化和集中分布一体化等创新理念,引领了数据库领域的新变革。那么本文就来从开发者的角度探讨云原生数据库一体化技术趋势,并分析在业务处理分析一体化、集中式与分布式数据库边界模糊和云原生一体化数据库的选择等方面的影响。
188 4
|
2月前
|
存储 机器学习/深度学习 人工智能
打造企业智能体(AI Agent)的重要技术-向量数据库
本篇介绍的是为通用大模型增加专业业务能力的重要技术:向量数据库
打造企业智能体(AI Agent)的重要技术-向量数据库
|
2月前
|
存储 监控 安全
360 企业安全浏览器基于阿里云数据库 SelectDB 版内核 Apache Doris 的数据架构升级实践
为了提供更好的日志数据服务,360 企业安全浏览器设计了统一运维管理平台,并引入 Apache Doris 替代了 Elasticsearch,实现日志检索与报表分析架构的统一,同时依赖 Doris 优异性能,聚合分析效率呈数量级提升、存储成本下降 60%....为日志数据的可视化和价值发挥提供了坚实的基础。
360 企业安全浏览器基于阿里云数据库 SelectDB 版内核 Apache Doris 的数据架构升级实践
|
2月前
|
人工智能 数据管理 大数据
阿里云数据库走向Serverless与AI驱动的一站式数据平台是一个很有前景和意义的发展方向
阿里云数据库走向Serverless与AI驱动的一站式数据平台是一个很有前景和意义的发展方向
33 2
|
11天前
|
运维 供应链 大数据
数据之势丨从“看数”到“用数”,百年制造企业用大数据实现“降本增效”
目前,松下中国旗下的64家法人公司已经有21家加入了新的IT架构中,为松下集团在中国及东北亚地区节约了超过30%的总成本,减少了近50%的交付时间,同时,大幅降低了系统的故障率。
|
21天前
|
NoSQL 大数据 数据挖掘
现代数据库技术与大数据应用
随着信息时代的到来,数据量呈指数级增长,对数据库技术提出了前所未有的挑战。本文将介绍现代数据库技术在处理大数据应用中的重要性,并探讨了一些流行的数据库解决方案及其在实际应用中的优势。
|
1月前
|
Cloud Native OLAP OLTP
如何看待云原生数据库一体化的技术趋势?
面对业务处理分析一体化,开发者需平衡OLTP和OLAP数据库需求。关键在于理解业务目标,选择适合的数据库:OLTP注重高并发、低延迟,如MySQL、PostgreSQL;OLAP侧重复杂查询和数据聚合,如Greenplum、ClickHouse。云原生数据库提供弹性扩展和容灾能力。数据同步、一致性、安全性和合规性也是重要考量因素。开发者应持续关注新技术,以适应不断变化的业务需求。
|
1月前
|
存储 NoSQL 大数据
新型数据库技术在大数据分析中的应用与优势探究
随着大数据时代的到来,传统数据库技术已经无法满足海量数据处理的需求。本文将探讨新型数据库技术在大数据分析中的应用情况及其所带来的优势,为读者解析数据库领域的最新发展趋势。