鱼和熊掌可以兼得,云原生开启“数据库大数据一体化”新时代

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云原生数据库 PolarDB MySQL 版,Serverless 5000PCU 100GB
云数据库 Redis 版,社区版 2GB
推荐场景:
搭建游戏排行榜
简介: 10月23日数据湖高峰论坛上,阿里巴巴集团副总裁、阿里云智能数据库产品事业部负责人、达摩院数据库与存储实验室负责人李飞飞表示:“云原生作为云计算领域的关键技术与基础创新,正在加速数据分析全面进入数据库大数据一体化时代”。

1.jpg

△ 阿里巴巴集团副总裁、
阿里云智能数据库产品事业部负责人李飞飞

他表示,随着数字化转型进程深入推进,企业的数据存储、处理、增长速度发生了巨大的变化,传统数据分析系统在成本、规模、数据多样性等方面面临很大的挑战。云计算的发展正在加速推进数据分析系统进入“数据库大数据一体化”时代,以更好得帮助企业加速迈入数字原生时代加速业务数智化。

传统数据分析系统和技术面临巨大挑战

近年来,企业数据需求呈现出海量、数据类型多样化、处理实时化、智能化等新特点,对数据分析系统提出了弹性扩展、结构化/半结构化/非结构化海量数据存储计算、一份存储多种计算及低成本等核心诉求。

而传统商业化数据仓库及大数据技术,因存在扩展性、建设维护成本、系统复杂读等一系列挑战,无法很好得满足业务诉求。例如,大量企业需要对数据进行离线ETL计算、机器学习及多维度查询分析等多种计算时,使用大数据技术或传统数据仓库,企业需要组合使用多种技术产品,通过复杂的数据集成、数据冗余来满足多样的计算诉求,整个技术架构复杂且数据冗余成本高。

云原生重构数据处理架构,加速向“数据库大数据一体化”演进

针对企业面临的分析困境,是否有一种新型数据分析技术和架构能够高效解决海量数据深度计算分析的业务诉求?答案是肯定的,李飞飞表示,下一代数据分析演进方向是“以云原生为基础,在离线一体化技术融合,实现数据库大数据一体化”。

随着云计算的发展,计算存储解耦、资源池化、Serverless、流批一体等核心基础技术正在加速数据分析系统向“数据库大数据一体化”演进。“数据库大数据一体化”的云原生数据分析系统能够很好得提供弹性扩展、海量存储、多种计算及低成本等能力,有效解决海量数据深度计算分析的业务分析和创新诉求。

其实,“数据库大数据一体化”也是业界近年的发展趋势,Gartner及业界多个产品都在朝这个趋势演进:

  • Microsoft SQL Server 在2018年9月发布的SQL Server 2019预览版中宣布通过深度集成Spark与Hadoop提供端到端的数据处理解决方案。
  • AWS Redshift及Snowflake均提供离线ETL处理、多维度交互式分析、实时增删改查的一体化的产品能力。

同时,2019年6月,全球知名咨询公司Gartner发布了一篇名为“There is only one DBMS Market“的报告,报告指出过去,因为性能需求不同,根据业务场景按照分析型和交易型需求,需要独立发展OPDBMS和DMSA,而未来分析型和交易型数据操作对技术架构依赖性会更小,将不再需要独立区分OPDBMS和DMSA,未来通过一体化的数据处理技术即可满足绝大部分诉求。

从技术架构演进过程来看,数据处理发展经历了四个重要阶段:

  • 60年代,关系数据库之父E.F.Codd博士提出了关系模型,促进了联机事务处理(OLTP)的发展,诞生了如Oracle、DB2等数据库帮助核心业务如银行实现在线交易的普及。
  • 1993年,关系数据库之父E.F.Codd博士提出多维数据库、多维分析的概念以及十二条准则,认为OLTP已不能满足终端用户对数据库查询分析的性能需求,SQL对大型数据库进行的简单查询也不能满足终端用户分析的多样性要求,促进了在线分析处理(OLAP)的发展,出现了MOLAP(Multidimensional OLAP)、ROLAP(Relational OLAP)、HOLAP(Hybrid OLAP)计算模型和引擎,诞生了如IBM Cognos、Oracle Essbase、Greenplum等数据仓库帮助业务实现海量数据存储、建模、业务分析探索的普及。
  • 2003~2006年,Google发表《The Google File System》、《MapReduce:Simplified Data Processing on Large Clusters》、《Bigtable:A Distributed Storage System for Structured Data》三篇海量数据存储、处理重要论文,促进了大数据技术的飞速发展,诞生了如Hadoop HDFS、Hadoop MapReduce、Tez、HBase、Spark、Flink等为代表的分布式文件系统、分布式计算框架、分布式宽表存储系统,加速了大数据应用向5V(Velocity、Volume、Variety、Value、Veracity)方向发展和普及。
  • 2012年至今,随着云计算的发展,云计算的资源池化、存储与计算弹性扩展等基础设施升级以及计算存储分离、在离线一体化等技术创新,促进了数据处理开始朝一份数据开放计算、存储计算分离的云原生方向演进,诞生了如Snowflake、AWS Redshift、AWS Aurora、AWS Athena为代表的新一代云原生数据库、数据仓库、数据湖,加速了数据处理向在线化、在离线一体化、结构化与非结构容和处理演进,加速业务走向数字化、数智化创新的新形态。

李飞飞表示,“数据库大数据一体化”的数据分析系统应该具备如下特征:

1、云原生,数据分析系统需要支持强大的弹性扩展能力,根据业务负载动态扩展计算资源,提供大规模数据处理能力,有效满足数据分析性能诉求的同时,降低分析成本。

2、一份存储多种计算,数据分析系统必须支持在一份存储数据上兼容多种计算,包括实时增删改查、多维度交互式分析、离线ETL及机器学习。通过一份存储支持多种计算的特性,避免了数据计算过程中的数据搬迁,简化了数据分析过程,降低分析成本。
3、海量存储,支持结构化、半结构化及非结构化数据库的存储及计算。随着IOT/移动网络的发展,半结构化/非结构化数据占比越来越高,数据分析系统需要支持这些数据的低成本存储及计算,助力企业充分挖掘并发挥数据价值。
4、全面兼容数据库生态,数据分析系统需要提供并兼容数据库接口协议,且支持数据库上下游生态,降低数据分析门槛,让开发人员会数据库就会大数据。

基于“数据库大数据一体化”的演进趋势,阿里云推出了以云原生数据仓库AnalyticDB及云原生数据湖分析DLA为核心的云原生数据分析系统。深度融合数据库及大数据技术,为企业提供一体化的数据接入、数据存储、数据计算及数据分析解决方案,让会数据库的用户就会大数据。

云原生数据仓库AnalyticDB让开发人员“会数据库就会大数据

为满足企业计算分析多元化的诉求,阿里云于2013年开始研发并推出云原生数据仓库AnalyticDB。基于云构建,秉承“数据库大数据一体化”的理念,AnalyticDB为用户提供了新一代的数据分析系统,有效解决当前企业数据分析痛点。AnalyticDB具备如下优势:

  1. 离在线一体化,AnalyticDB提供离线ETL及多维度交互式分析的多样化计算能力。通过存储服务化、MPP+DAG混合计算引擎及混合负载调度等技术,实现一份数据多种计算的能力。且基于智能索引、智能优化器及行列混存等技术,复杂SQL的查询速度相较于传统的数据分析系统快10倍以上。
  2. 云原生,AnalyticDB通过存储计算分离及存储服务化等技术,实现了计算与存储的独立自由弹性。AnalyticDB可以根据业务负载变化动态扩缩计算资源,满足企业数据分析性能诉求的同时,有效控制分析成本。同时,存储服务化后,按存储量付费。
  3. 海量存储,AnalyticDB通过分布式存储、存储服务化及向量计算等多种技术,可以支持结构化、半结构化及非结构化海量数据的存储。同时,AnalyticDB支持冷热数据分层存储。企业可以根据业务的使用情况,做表/分区级别的冷热分离存储,通过对低频访问的冷数据提供低价存储,对于频繁访问的热点数据,采用ESSD存储满足高性能访问,进而保障访问性能的同时,优化整体数据存储成本。
  4. 兼容数据库生态,不同于复杂、高门槛的大数据体系,AnalyticDB高度兼容MySQL、PostgreSQL及Oracle。兼容数据库的客户端及上下游生态,降低数据分析门槛,让开发人员会数据库就会大数据。
  5. 一键建仓,AnalyticDB提供一键建仓功能,企业可以通过一键建仓功能轻松得将数据库及日志数据实时集成至AnalyticDB。

2.png

与传统数据分析系统最大的不同是,AnalyticDB基于“数据库大数据一体化”的技术架构,为用户提供一体化的数据分析系统,满足多样化的数据分析诉求,让开发人员会数据库就会大数据。

云原生数据湖分析DLA让数据湖分析进入Serverless时代

3.jpg

近几年数据湖的概念很火,数据湖允许以任意规模存储所有结构化、非结构化及半结构化数据,其中的数据主要用于报告、可视化、增强分析及机器学习等场景。为了实现数据湖的数据可分析,需要解决数据湖构建、元数据构建管理及数据计算引擎对接等问题。为此,阿里云2018年开始布局并推出端到端的数据湖解决方案:云原生数据湖分析Data Lake Analytics(简称:DLA),帮助企业快速构建并高效挖掘数据。

4.jpg

云原生数据湖分析DLA,具备四大优势:

  1. 数据湖管理,DLA提供一站式数据湖管理能力,包括元数据发现、管理及变更,全量及增量数据一键入湖。元数据管理功能可以支持OSS/RDS/Hbase/MongoDB等数据源的元数据自动发现、管理及变更。同时,内置Apache hudi, DLA支持增量数据分钟级入湖,助力企业构建准实时数据湖。
  2. 一份存储多种计算,DLA提供了Presto、Spark两种计算引擎,满足多维度交互式分 析、离线ETL、机器学习等多种计算能力。针对Presto,DLA在资源隔离、高可用及元数据库权限隔离等方面做了极大增强,保障服务稳定性及可靠性。同时,对于Spark计算引擎,DLA实现了数据缓存、元数据访问优化及文件上传优化等,保障计算性能,据测试,在Spark典型ETL Benchmark Terasort,1TB输入数据量的场景下,相较于自建spark,DLA性能提升163%。
  3. Serverless计算分析,DLA基于容器及多租户隔离等技术,提供完全Serverless的计算能力。DLA可以根据Spark Job或Presto SQL动态扩缩计算资源,一分钟可拉起300个计算节点。用户只需按实际运行作业付费,计费精确至秒级,相较于自建系统,性价比提升300%,大大提升数据分析性价比。
  4. 数据库生态兼容性,DLA 完全兼容MySQL的JDBC,兼容MySQL的客户端及上下游生态,降低数据分析门槛,让开发人员会MySQL就会大数据。


到企业中去

阿里云AnalyticDB与DLA自上线以来,已覆盖游戏、广告、文旅、零售、金融、数字政府、运营商等众多行业的企业客户,且覆盖阿里巴巴集团的所有核心业务。据介绍,Yeahmobi利用DLA进行广告业务数据的深度挖掘分析,实现时间、成本、安全、计算效率等方面的优化,综合成本降低大约50%。某大型物流企业,通过AnalyticDB构建企业数据仓库,实现离在线一体化分析架构,支持 2PB数据的存储计算,分析性能大幅提升10倍,实现分析实时化。

未来数据分析系统将全面进入“数据库大数据一体化”时代,阿里云AnalyticDB及DLA将秉承“数据库大数据一体化”理念,持续打造云原生、一体化的数据分析能力,助力企业加速迈入数字原生时代。

— 完 —

文章来源:量子位

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2天前
|
Cloud Native 数据管理 关系型数据库
【阿里云云原生专栏】云原生数据管理:阿里云数据库服务的分布式实践
【5月更文挑战第21天】阿里云数据库服务在云原生时代展现优势,应对分布式数据管理挑战。PolarDB等服务保证高可用和弹性,通过多副本机制和分布式事务确保数据一致性和可靠性。示例代码展示了在阿里云数据库上进行分布式事务操作。此外,丰富的监控工具协助用户管理数据库性能,支持企业的数字化转型和业务增长。
149 1
|
2天前
|
存储 NoSQL 分布式数据库
大数据存储技术(4)—— NoSQL数据库
大数据存储技术(4)—— NoSQL数据库
15 1
|
2天前
|
存储 分布式计算 Java
大数据存储技术(3)—— HBase分布式数据库
大数据存储技术(3)—— HBase分布式数据库
37 0
|
8天前
|
存储 Cloud Native 关系型数据库
PolarDB-X 是面向超高并发、海量存储和复杂查询场景设计的云原生分布式数据库系统
【5月更文挑战第14天】PolarDB-X 是面向超高并发、海量存储和复杂查询场景设计的云原生分布式数据库系统
105 2
|
8天前
|
Cloud Native OLAP OLTP
云原生一体化数据库技术是一个具有潜力的领域
【5月更文挑战第13天】在业务处理分析一体化趋势下,开发者需权衡OLTP和OLAP数据库的选型。一体化数据库如阿里云瑶池通过Zero-ETL实现数据自动搬迁,简化流程,支持高并发事务和复杂分析。但也带来定制化开发、性能优化及管理维护的挑战。随着集中式与分布式数据库边界模糊,开发者需更深入理解各种架构特点,灵活选择以适应业务需求。云原生一体化数据库在处理大规模数据和高并发场景中展现优势,但选择时需综合考虑技术成熟度、成本和维护因素。总的来说,一体化数据库技术是未来发展的重要方向,但也需要谨慎评估和决策。
31 3
|
8天前
|
存储 大数据 数据处理
矢量数据库与大数据平台的集成:实现高效数据处理
【4月更文挑战第30天】本文探讨了矢量数据库与大数据平台的集成,以实现高效数据处理。集成通过API、中间件或容器化方式,结合两者优势,提升处理效率,简化流程,并增强数据安全。关键技术支持包括分布式计算、数据压缩编码、索引优化和流处理,以优化性能和实时性。随着技术发展,这种集成将在数据处理领域发挥更大作用。
|
8天前
|
分布式计算 大数据 BI
MaxCompute产品使用合集之MaxCompute项目的数据是否可以被接入到阿里云的Quick BI中
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
8天前
|
SQL 分布式计算 大数据
MaxCompute产品使用合集之怎样可以将大数据计算MaxCompute表的数据可以导出为本地文件
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
8天前
|
分布式计算 DataWorks 关系型数据库
MaxCompute产品使用合集之可以使用什么方法将MySQL的数据实时同步到MaxCompute
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
8天前
|
分布式计算 DataWorks 数据库
DataWorks操作报错合集之DataWorks使用数据集成整库全增量同步oceanbase数据到odps的时候,遇到报错,该怎么处理
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
27 0