业内首次融合数据仓库与数据湖 阿里云推出下一代大数据平台 “湖仓一体”

简介: 2020年9月18日,阿里云在云栖大会正式推出大数据平台的下一代架构——“湖仓一体”,打通数据仓库和数据湖两套体系,让数据和计算在湖与仓之间自由流动,从而构建一个完整的有机的大数据技术生态体系。为企业提供兼具数据湖的灵活性和数据仓库的成长性的新一代大数据平台,降低企业构建大数据平台的整体成本。

9月18日,2020云栖大会上,阿里云正式推出大数据平台的下一代架构——“湖仓一体”,打通数据仓库和数据湖两套体系,让数据和计算在湖与仓之间自由流动,从而构建一个完整的有机的大数据技术生态体系。为企业提供兼具数据湖的灵活性和数据仓库的成长性的新一代大数据平台,降低企业构建大数据平台的整体成本。
image.png
大数据技术从本世纪初发展至今演进出了数据仓库和数据湖两种趋势,前者通常指云厂商提供的基于大数据技术的一体化服务,后者通常是由一系列云产品或开源组件共同构成的大数据解决方案。

当企业处在初创阶段,灵活性就非常重要,数据湖的架构更适用。当企业逐渐成熟,成长性成为最关键因素,数据仓库的架构就再适合不过了。那么,数据仓库和数据湖是否只能是一道单选题?能否有一种方案同时兼顾数据湖的灵活性和云数据仓库的成长性?

阿里巴巴集团副总裁、阿里云计算平台负责人贾扬清表示,MaxCompute湖仓一体方案打破了数据湖与数据仓库割裂的体系,在架构上将数据湖的灵活性、生态丰富与数据仓库的企业级能力进行融合,从而构建数据湖和数据仓库融合的湖仓一体的全新计算平台。MaxCompute湖仓一体方案不仅可广泛用于支持超大规模的机器学习和深度学习,还能帮助企业高效提升自身大数据能力,实现敏捷运营,降本增效。

据悉,MaxCompute在原有的数据仓库架构上,融合了存储计算一体化数据仓库和云上存储计算分离的数据湖,最终实现了湖仓一体化的整体架构。在该架构中,尽管底层多套存储系统并存,但通过统一的存储访问层和统一的元数据管理,向上层引擎提供一体的封装接口,用户可以Join数据仓库和数据湖中的两张表,同时整体架构还具备统一的数据安全、管理和治理等中台能力。

在技术融合过程中,MaxCompute不仅实现了快速接入、统一数据/元数据管理、统一开发体验、自动数仓四个关键技术点,更持续提升了核心性能,在2020 TPCx-BigBench中,MaxCompute基于英特尔至强可扩展处理器在100TB规模保持性能不变的情况下,成本较去年下降了40%;30TB规模下,性能提升50%以上,成本下降了30%以上。

微博是“湖仓一体”的尝鲜者。此前微博拥有Hadoop数据湖和阿里云大数据及AI两套异构的大数据平台,且两套平台在集群层面完全割裂,数据和计算无法自由流动。为了解决这些难题,微博基于阿里云构建了湖仓一体化的AI计算中台,摆脱了繁重的数据搬迁,使得微博的数据工程师和算法工程师轻松无缝的借助阿里巴巴成熟的超大规模算力和算法赋能业务提效。同时,将MaxCompute云数据仓库(结构化数据)与数据湖(非结构化数据)构成闭环,极大提升了AI类作业效率,产生巨大的业务价值。

阿里云自研云数据仓库MaxCompute历经近10年技术沉淀,不仅稳定支撑阿里巴巴集团的数据存储和数据计算业务,更是云上客户大数据平台的重要组成部分。此次湖仓一体发布,为企业提供了一种更灵活更高效更经济的数据平台解决方案,既适用于全新构建大数据平台的企业,也适合已有大数据平台的企业进行架构升级,切实以技术加速了企业的数字化重构。

了解更多 “湖仓一体” 方案与技术详情 >>
MaxCompute湖仓一体方案最佳实践 >>
MaxCompute 产品官网 >>


更多关于大数据计算产品技术交流,可扫码加入 “MaxCompute开发者社区” 钉钉群
image.png

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
3月前
|
存储 人工智能 OLAP
AI Agent越用越笨?阿里云AnalyticDB「AI上下文工程」一招破解!
AI上下文工程是优化大模型交互的系统化框架,通过管理指令、记忆、知识库等上下文要素,解决信息缺失、长度溢出与上下文失效等问题。依托AnalyticDB等技术,实现上下文的采集、存储、组装与调度,提升AI Agent的准确性与协同效率,助力企业构建高效、稳定的智能应用。
|
4月前
|
存储 人工智能 关系型数据库
阿里云AnalyticDB for PostgreSQL 入选VLDB 2025:统一架构破局HTAP,Beam+Laser引擎赋能Data+AI融合新范式
在数据驱动与人工智能深度融合的时代,企业对数据仓库的需求早已超越“查得快”这一基础能力。面对传统数仓挑战,阿里云瑶池数据库AnalyticDB for PostgreSQL(简称ADB-PG)创新性地构建了统一架构下的Shared-Nothing与Shared-Storage双模融合体系,并自主研发Beam混合存储引擎与Laser向量化执行引擎,全面解决HTAP场景下性能、弹性、成本与实时性的矛盾。 近日,相关研究成果发表于在英国伦敦召开的数据库领域顶级会议 VLDB 2025,标志着中国自研云数仓技术再次登上国际舞台。
469 0
|
4月前
|
存储 SQL 机器学习/深度学习
一文辨析:数据仓库、数据湖、湖仓一体
本文深入解析数据仓库、数据湖与湖仓一体的技术原理与适用场景。数据仓库结构严谨、查询高效,适合处理结构化数据;数据湖灵活开放,支持多模态数据,但治理难度高;湖仓一体融合两者优势,实现低成本存储与高效分析,适合大规模数据场景。文章结合企业实际需求,探讨如何选择合适的数据架构,并提供湖仓一体的落地迁移策略,助力企业提升数据价值。
一文辨析:数据仓库、数据湖、湖仓一体
存储 数据采集 大数据
144 0
|
5月前
|
存储 人工智能 分布式计算
数据不用搬,AI直接炼!阿里云AnalyticDB AI数据湖仓一站式融合AI+BI
阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL版(以下简称ADB)诞生于高性能实时数仓时代,实现了PB级结构化数据的高效处理和分析。在前几年,为拥抱大数据的浪潮,ADB从传统数仓拓展到数据湖仓,支持Paimon/Iceberg/Delta Lake/Hudi湖格式,为开放的数据湖提供数据库级别的性能、可靠性和管理能力,从而更好地服务以SQL为核心的大规模数据处理和BI分析,奠定了坚实的湖仓一体基础。
|
6月前
|
存储 人工智能 关系型数据库
从“听指令”到“当参谋”,阿里云AnalyticDB GraphRAG如何让AI开窍
阿里云瑶池旗下的云原生数据仓库 AnalyticDB PostgreSQL 版 GraphRAG 技术,创新融合知识图谱动态推理+向量语义检索,通过实体关系映射与多跳路径优化,构建可应对复杂场景的决策引擎。本文将通过家电故障诊断和医疗预问诊两大高价值场景,解析其如何实现从“被动应答”到“主动决策”的跨越。
|
6月前
|
运维 算法 机器人
阿里云AnalyticDB具身智能方案:破解机器人仿真数据、算力与运维之困
本文将介绍阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL推出的全托管云上仿真解决方案,方案采用云原生架构,为开发者提供从开发环境、仿真计算到数据管理的全链路支持。
|
7月前
|
分布式计算 运维 监控
Fusion 引擎赋能:流利说如何用阿里云 Serverless Spark 实现数仓计算加速
本文介绍了流利说与阿里云合作,利用EMR Serverless Spark优化数据处理的全过程。流利说是科技驱动的教育公司,通过AI技术提升用户英语水平。原有架构存在资源管理、成本和性能等痛点,采用EMR Serverless Spark后,实现弹性资源管理、按需计费及性能优化。方案涵盖数据采集、存储、计算到查询的完整能力,支持多种接入方式与高效调度。迁移后任务耗时减少40%,失败率降低80%,成本下降30%。未来将深化合作,探索更多行业解决方案。
497 1

热门文章

最新文章

相关产品

  • 云原生大数据计算服务 MaxCompute