2022云栖精选—云原生数据仓库: 加速业务数据化,数据价值化 Maximize the Value of Data

本文涉及的产品
云数据库 Tair(兼容Redis),内存型 2GB
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
简介: 林亮阿里巴巴集团研究员/OLAP产品部负责人

lQLPJxbcF2cqNBvMiM0FeLCMz4ifcSGHeANpqgFLAEAA_1400_136.png

image.png

数据仓库旨在帮助企业实现业务数据化与数据价值化。数据在经济生活各个领域中持续发挥着重要作用。海量数据被创造出,数据规模化、多样化、实时化、智能化趋势日渐明。截至 2020 年,全球数据规模已达到 79ZB,且根据IDC 预测,截至2025年,数据将增长230%

数据格式愈发多样化,有结构化数据、半结构化数据与非结构化数据,数据可能来自数据库,也可能来自日志或者其存储,而这些来自不同源不同类型数据不断增加了企业数据分析成本。

另一方面,数据实时化趋势日趋明显。到2025,将有30%数据是实时数据,69%企业将实时与敏捷作为未来企业数字化升级中面临top 5挑战与诉求。

一系列数据变化也带了整体智能化分析趋势增长。预期在2023年,将有33% 企业采用智能分析,预计截至2025,将有60% 基于传统数据构建模型将会被替代。

伴随着以上趋势,数据处理架构也会变得更加复杂。

image.png

传统数据架构存在复杂搭建与运维问题数据被存储在多种不同的系统中,很难很好解决企业在数据分析过程中面临的高可用高可靠和容灾问题。

企业希望能够有一套开箱即用的数据解决方案,不用陷入高昂数据成本与复杂内容中。另一方面,更多数据开始在平台上汇总,企业希望能够利用该优势,满足自身不断增长数据规模与处理能力需求。

image.png

阿里云的云原生数据仓库AnalyticDB数仓版正基于以上需求应运而生,它既能够支持实时分析,也能够支持海量数据处理能够帮助企业快速构建起云原生数仓并且一体化支持存储与分析。通过数据库与大数据技术一体化,实现了高吞吐的实时增删改、高性能的分析同时支持复杂ETL ,与上下游生态高度兼容,方便企业构建数仓得益于云的特性,AnalyticDB天然具有弹性,能够为客户提供最高性价比的方案。

image.png

AnalyticDB有六大核心竞争力,同时具备数据库的易用性与大数据规模,能够帮助客户最高节省 90% 的数据搭建成本

核心竞争力一:存储计算分离计算支持分时弹性,能够很好适应波峰波谷业务场景。波峰到时,资源可以自动弹,很好地满足业务需求,同时也降低了使用成本。

核心竞争力二:存储冷热分层,支持智能自适应分层。热数据被存储在高性能的介质中,提升了查询性能;冷数据被存储在低廉的介质上,降低了存储成本。

核心竞争力三:计算资源组隔离,保障重要、稳定的计算任务。计算资源可以被弹性分配到资源组织中,可以根据自己需要实现物理资源上的隔离,重要业务不会被临时或异常任务影响。不同的任务可以路由到不同资源组织中,使得一套系统可以支撑不同业务类型处理需求。

image.png

核心竞争力四:计算混合负载调度,支持离在线一体。降低了计算资源成本,同时降低了开发复杂度

核心竞争力五:计算按需启停,降低整体闲置资源的浪费

核心竞争力六:生态高度兼容,全流程传统数仓升级方案,方便用户构建对跨与跨工具组合方案。

image.png

今年AnalyticDB原生与企业特性上进一步提升PostgreSQL版本实现了重大升级,在性能、弹性、企业级能力与安全性上都得到了大幅提升。

弹性上,支持按需启停、使用付费以及秒级计费。企业级分析能力上,支持了存储过程,也支持了更多场景化分析能力。安全性上,支持了行级安全策略以及更多加密算法,希望能够满足企业日益增长安全性方面的需求。

image.png

然而,该方案依然存在加工与分析链路上割裂,导致时效性降低。

9月麻省理工科技报告提到,大多数企业已经在考虑统一数据分析架构,并认为这企业的数据策略至关重要。智能分析挑战始于数据架构,企业希望有一套完整统一平台能够支撑灵活与高性能分析场景。因此,我们希望能够统一数据分析处理流程,从抽取、加工、存储、分析全链路让数据处理流程更简单、易用、实时敏捷与高性价,为此今年底我们将发布一款新的产品形态。

云原生数据仓库AnalyticDB重磅发布

薛菲

阿里云数据库事业部高级产品专家

image.png

传统企业在实现数据链路时需要四个步骤,分别为抽取加工存储与分析抽取加工一般在数据库完成,存储分析一般在数据仓库完成,中间存在巨大的鸿沟

image.png

新一代的AnalyticDB湖仓版正式公测发布,它能够实现全链路、端到端数据处理与数据分析一体化,为用户提供数据湖的规模以及数据库的体验,其特性可以用1024来总结。

1指一份数据,离线数据和在线分析数据一体化,无需烦恼一致性和时效性。

0”指0度灵活弹性,弹得好,弹得起,弹得快,资源成本降低30%以上。

2”指2种模型,离线处理和在线分析一个引擎两种模型,可以一站式完成计算,自动智能切换。

4”指4个统一。包括统一计费单位、统一数据管道、统一数据管理与统一数据访问,使得整体开发体验顺滑预期提高开发效率 30% 以上。

image.png

一份全量数据存储在对象存储上。对象存储特点是低成本与高吞吐读取,且一份全量数据可避免数据冗余,无需存储两份,节省存储成本,也能满足一致性与时效性要求。内部存储可以直接使用BSP引擎进行追加写与粗糙读的交互,较好满足离线处理要求,实现低成本的目标。存储交互与数仓BSP交互完全隔离因此较好实现了数据处理与数据分析一致性。

在线分析在一份存储基础上,增加了IO加速节点EIU数据存储在EIU中可以实现高并发高性能实时增删改操作。在计算节点有自动全数据多级倒排索引,可以通过智能缓存方式下推,使得在实时数据存储上得到更好的性能。

image.png

灵活弹性可以总结为弹得好、弹得起、弹得快。

AnalyticDB提供了两种弹性策略,分别是分时弹性以及按需弹性以满足不同负载。分时策略适合在线分析业务,客户可以设定波峰波谷的时间,提前部署资源。按需策略适合数据处理、离线处理、机器学习等,可以更好地贴合业务负载,实现更极致弹性。

弹得起指需要资源时,云厂商能够提供足够的资源。我们通过神龙+ECS+ECI布置了三层资源网络,可实现客户99%以上的弹性资源交付率另外处理能力秒级扩展,基于资源池化后通过缓存加速等技术实现。

image.png

AnalyticDB的融合引擎可以支持两种模式,分别是MPPBSP,其中MPP能够实现及时分析,latency 较快;而DSP更适合long running 、对容错具有一定要求的数据处理。另外两种模式可进行自动切换,比如MPP模式运行时,系统会自动检测该任务是否更适合DSP ,如果是,则自动切换为DSP

未来,我们计划对一个任务中不同算子智能进行MPPBSP分布,以实现资源巩固,帮助客户提升资源利用率。

image.png

AnalyticDB实现了一份数据,无论数据是存储在湖内租户还是仓内租户,对客户而言都是同一张表,因此我们实现统一管理与统一权限访问。另外,也会开放存储Storage API可以对存储实现统一访问,外部开放的数据引擎比如SparkPresto也可以通过Storage API直接访问数据仓库里数据,而无需腾挪数据。

image.png

AnalyticDB的使用场景覆盖了新零售、游戏、金融以及汽车制造业,主要应用于CDP用户数据平台、用户行为分析以及营销全流程平台。

image.png

我们已经与很多客户建立了深入合作

金融领域万宏源证券使用了ADB 替换了传统数仓,实现了整体数据平台升级,成本下降50%,整体性能提升100%,平稳迁移25000+任务和百TB级数据。

波克城市通过ADB实现了秒级分析万亿级游戏行为的日志数据。

lQLPJxbcF2cqM2TM-M0CnrCgW_7LDpyh1wNpqgFKAPsA_670_248.png

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
4月前
|
存储 缓存 Cloud Native
MPP架构数据仓库使用问题之ADB PG云原生版本的扩缩容性能怎么样
MPP架构数据仓库使用问题之ADB PG云原生版本的扩缩容性能怎么样
MPP架构数据仓库使用问题之ADB PG云原生版本的扩缩容性能怎么样
|
1月前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
在9月20日2024云栖大会上,阿里云智能集团副总裁,数据库产品事业部负责人,ACM、CCF、IEEE会士(Fellow)李飞飞发表《从数据到智能:Data+AI驱动的云原生数据库》主题演讲。他表示,数据是生成式AI的核心资产,大模型时代的数据管理系统需具备多模处理和实时分析能力。阿里云瑶池将数据+AI全面融合,构建一站式多模数据管理平台,以数据驱动决策与创新,为用户提供像“搭积木”一样易用、好用、高可用的使用体验。
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
|
4月前
|
存储 数据管理 BI
揭秘数据仓库的奥秘:数据究竟如何层层蜕变,成为企业决策的智慧源泉?
【8月更文挑战第26天】数据仓库是企业管理数据的关键部分,其架构直接影响数据效能。通过分层管理海量数据,提高处理灵活性及数据一致性和安全性。主要包括:数据源层(原始数据)、ETL层(数据清洗与转换)、数据仓库层(核心存储与管理)及数据服务层(提供分析服务)。各层协同工作,支持高效数据管理。未来,随着技术和业务需求的变化,数仓架构将持续优化。
88 3
|
2月前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
阿里云瑶池在2024云栖大会上重磅发布由Data+AI驱动的多模数据管理平台DMS:OneMeta+OneOps,通过统一、开放、多模的元数据服务实现跨环境、跨引擎、跨实例的统一治理,可支持高达40+种数据源,实现自建、他云数据源的无缝对接,助力业务决策效率提升10倍。
|
3月前
|
存储 机器学习/深度学习 数据管理
数据技术的进化史:从数据仓库到数据中台再到数据飞轮
数据技术的进化史:从数据仓库到数据中台再到数据飞轮
|
3月前
|
消息中间件 人工智能 Cloud Native
|
3月前
|
机器学习/深度学习 消息中间件 搜索推荐
【数据飞轮】驱动业务增长的高效引擎 —从数据仓库到数据中台的技术进化与实战
在数据驱动时代,企业逐渐从数据仓库过渡到数据中台,并进一步发展为数据飞轮。本文详细介绍了这一演进路径,涵盖数据仓库的基础存储与查询、数据中台的集成与实时决策,以及数据飞轮的自动化增长机制。通过代码示例展示如何在实际业务中运用数据技术,实现数据的最大价值,推动业务持续优化与增长。
128 4
|
3月前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
阿里云数据库重磅升级!元数据服务OneMeta + OneOps统一管理多模态数据
|
2月前
|
存储 数据管理 大数据
从数据仓库到数据中台再到数据飞轮:社交媒体的数据技术进化史
从数据仓库到数据中台再到数据飞轮:社交媒体的数据技术进化史
|
4月前
|
安全 网络安全 数据安全/隐私保护
云原生技术探索:容器化与微服务架构的实践之路网络安全与信息安全:保护数据的关键策略
【8月更文挑战第28天】本文将深入探讨云原生技术的核心概念,包括容器化和微服务架构。我们将通过实际案例和代码示例,展示如何在云平台上实现高效的应用部署和管理。文章不仅提供理论知识,还包含实操指南,帮助开发者理解并应用这些前沿技术。 【8月更文挑战第28天】在数字化时代,网络安全和信息安全是保护个人和企业数据的前线防御。本文将探讨网络安全漏洞的成因、加密技术的应用以及提升安全意识的重要性。文章旨在通过分析网络安全的薄弱环节,介绍如何利用加密技术和提高用户警觉性来构建更为坚固的数据保护屏障。