数据仓库旨在帮助企业实现业务数据化与数据价值化。数据在经济生活各个领域中持续发挥着重要作用。海量数据被创造出来,数据规模化、多样化、实时化、智能化的趋势日渐明。截至 2020 年,全球数据规模已达到 79ZB,且根据IDC 预测,截至2025年,数据将增长230%。
数据格式愈发多样化,有结构化数据、半结构化数据与非结构化数据,数据可能来自数据库,也可能来自日志或者其他存储,而这些来自不同源、不同类型的数据不断增加了企业数据分析的成本。
另一方面,数据的实时化趋势日趋明显。到2025年,将有30%的数据是实时数据,69%的企业将实时与敏捷作为未来企业数字化升级中面临的top 5的挑战与诉求。
一系列数据变化也带来了整体智能化分析趋势的增长。预期在2023年,将有33% 企业采用智能分析,预计截至2025年,将有60% 基于传统数据构建的模型将会被替代。
伴随着以上趋势,数据处理架构也会变得更加复杂。
传统数据架构存在复杂的搭建与运维问题,数据被存储在多种不同的系统中,很难很好地解决企业在数据分析过程中面临的高可用、高可靠和容灾等问题。
企业希望能够有一套开箱即用的数据解决方案,不用陷入高昂的数据成本与复杂的内容中。另一方面,更多数据开始在平台上汇总,企业希望能够利用该优势,满足自身不断增长的数据规模与处理能力的需求。
阿里云的云原生数据仓库AnalyticDB数仓版正是基于以上需求应运而生,它既能够支持实时分析,也能够支持海量数据处理,能够帮助企业快速构建起云原生数仓并且一体化支持存储与分析。通过数据库与大数据技术一体化,实现了高吞吐的实时增删改、高性能的分析,同时支持复杂ETL ,与上下游生态高度兼容,方便企业构建数仓。得益于云的特性,AnalyticDB天然具有弹性,能够为客户提供最高性价比的方案。
AnalyticDB具有六大核心竞争力,同时具备数据库的易用性与大数据规模,能够帮助客户最高节省 90% 的数据搭建成本。
核心竞争力一:存储计算分离,计算支持分时弹性,能够很好地适应波峰波谷的业务场景。波峰到来时,资源可以自动弹出,很好地满足业务需求,同时也降低了使用成本。
核心竞争力二:存储冷热分层,支持智能自适应分层。热数据被存储在高性能的介质中,提升了查询性能;冷数据被存储在低廉的介质上,降低了存储成本。
核心竞争力三:计算资源组隔离,保障重要、稳定的计算任务。计算资源可以被弹性分配到资源组织中,也可以根据自己的需要实现物理资源上的隔离,重要业务不会被临时或异常任务影响。不同的任务可以路由到不同的资源组织中,使得一套系统可以支撑不同业务类型的处理需求。
核心竞争力四:计算混合负载调度,支持离在线一体。降低了计算资源成本,同时降低了开发复杂度。
核心竞争力五:计算按需启停,降低整体闲置资源的浪费。
核心竞争力六:生态高度兼容,全流程传统数仓升级方案,方便用户构建对跨库与跨工具的组合方案。
今年,AnalyticDB在云原生与企业级特性上进一步提升,PostgreSQL版本实现了重大升级,在性能、弹性、企业级能力与安全性上都得到了大幅提升。
弹性上,支持按需启停、按使用付费以及秒级计费。企业级分析能力上,支持了存储过程,也支持了更多场景化分析能力。安全性上,支持了行级安全策略以及更多加密算法,希望能够满足企业日益增长的安全性方面的需求。
然而,该方案依然存在加工与分析链路上的割裂,导致时效性的降低。
9月麻省理工科技报告提到,大多数企业已经在考虑统一数据分析架构,并认为这对企业的数据策略至关重要。智能分析的挑战始于数据架构,企业希望有一套完整、统一的平台能够支撑灵活与高性能的分析场景。因此,我们希望能够统一数据分析处理的流程,从抽取、加工、存储、分析的全链路让数据处理流程更简单、易用、实时、敏捷与高性价比,为此今年底我们将发布一款新的产品形态。
云原生数据仓库AnalyticDB重磅发布
薛菲
阿里云数据库事业部高级产品专家
传统企业在实现数据链路时需要四个步骤,分别为抽取、加工、存储与分析,抽取、加工一般在数据库完成,存储、分析一般在数据仓库完成,中间存在巨大的鸿沟。
新一代的AnalyticDB湖仓版正式公测发布,它能够实现全链路、端到端的数据处理与数据分析一体化,为用户提供数据湖的规模以及数据库的体验,其特性可以用1024来总结。
“1”指一份数据,离线数据和在线分析数据一体化,无需烦恼一致性和时效性。
“0”指0度灵活弹性,弹得好,弹得起,弹得快,资源成本降低30%以上。
“2”指2种模型,离线处理和在线分析一个引擎两种模型,可以一站式完成计算,自动智能切换。
“4”指4个统一。包括统一计费单位、统一数据管道、统一数据管理与统一数据访问,使得整体开发体验更顺滑,预期提高开发效率 30% 以上。
一份全量数据存储在对象存储上。对象存储的特点是低成本与高吞吐的读取,且一份全量数据可避免数据冗余,无需存储两份,节省存储成本,也能满足一致性与时效性的要求。内部存储可以直接使用BSP引擎进行追加写与粗糙读的交互,较好地满足离线处理的要求,实现低成本的目标。存储交互与数仓BSP的交互完全隔离,因此较好地实现了数据处理与数据分析的一致性。
在线分析在一份存储的基础上,增加了IO加速节点EIU,数据存储在EIU中可以实现高并发、高性能的实时增删改操作。在计算节点有自动的全数据多级倒排索引,可以通过智能缓存的方式下推,使得在实时数据存储上得到更好的性能。
灵活弹性可以总结为弹得好、弹得起、弹得快。
AnalyticDB提供了两种弹性策略,分别是分时弹性以及按需弹性以满足不同负载。分时策略适合在线分析业务,客户可以设定波峰、波谷的时间,提前部署资源。按需策略适合数据处理、离线处理、机器学习等,可以更好地贴合业务负载,实现更极致的弹性。
弹得起指需要资源时,云厂商能够提供足够的资源。我们通过神龙+ECS+ECI布置了三层资源网络,可实现客户99%以上的弹性资源交付率。另外处理能力秒级扩展,基于资源池化后通过缓存加速等技术实现。
AnalyticDB的融合引擎可以支持两种模式,分别是MPP与BSP,其中MPP能够实现及时分析,latency 较快;而DSP更适合long running 、对容错具有一定要求的数据处理。另外两种模式可进行自动切换,比如以MPP模式运行时,系统会自动检测该任务是否更适合DSP ,如果是,则自动切换为DSP。
未来,我们计划对一个任务中的不同算子智能地进行MPP与BSP分布,以实现资源巩固,帮助客户提升资源利用率。
AnalyticDB实现了一份数据,无论数据是存储在湖内租户还是仓内租户,对客户而言都是同一张表,因此我们实现了统一管理与统一的权限访问。另外,也会开放存储的Storage API,可以对存储实现统一访问,外部开放的数据引擎比如Spark、Presto也可以通过Storage API直接访问数据仓库里的数据,而无需腾挪数据。
AnalyticDB的使用场景覆盖了新零售、游戏、金融以及汽车制造业,主要应用于CDP用户数据平台、用户行为分析以及营销全流程平台。
我们已经与很多客户建立了深入合作。
金融领域的深万宏源证券,使用了ADB 替换了传统数仓,实现了整体数据平台的升级,成本下降50%,整体性能提升100%,平稳迁移25000+任务和百TB级数据。
波克城市通过ADB实现了秒级分析万亿级游戏行为的日志数据。