业内首次融合数据仓库与数据湖 阿里云推出下一代大数据平台 “湖仓一体”

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 2020年9月18日,阿里云在云栖大会正式推出大数据平台的下一代架构——“湖仓一体”,打通数据仓库和数据湖两套体系,让数据和计算在湖与仓之间自由流动,从而构建一个完整的有机的大数据技术生态体系。为企业提供兼具数据湖的灵活性和数据仓库的成长性的新一代大数据平台,降低企业构建大数据平台的整体成本。

9月18日,2020云栖大会上,阿里云正式推出大数据平台的下一代架构——“湖仓一体”,打通数据仓库和数据湖两套体系,让数据和计算在湖与仓之间自由流动,从而构建一个完整的有机的大数据技术生态体系。为企业提供兼具数据湖的灵活性和数据仓库的成长性的新一代大数据平台,降低企业构建大数据平台的整体成本。
image.png
大数据技术从本世纪初发展至今演进出了数据仓库和数据湖两种趋势,前者通常指云厂商提供的基于大数据技术的一体化服务,后者通常是由一系列云产品或开源组件共同构成的大数据解决方案。

当企业处在初创阶段,灵活性就非常重要,数据湖的架构更适用。当企业逐渐成熟,成长性成为最关键因素,数据仓库的架构就再适合不过了。那么,数据仓库和数据湖是否只能是一道单选题?能否有一种方案同时兼顾数据湖的灵活性和云数据仓库的成长性?

阿里巴巴集团副总裁、阿里云计算平台负责人贾扬清表示,MaxCompute湖仓一体方案打破了数据湖与数据仓库割裂的体系,在架构上将数据湖的灵活性、生态丰富与数据仓库的企业级能力进行融合,从而构建数据湖和数据仓库融合的湖仓一体的全新计算平台。MaxCompute湖仓一体方案不仅可广泛用于支持超大规模的机器学习和深度学习,还能帮助企业高效提升自身大数据能力,实现敏捷运营,降本增效。

据悉,MaxCompute在原有的数据仓库架构上,融合了存储计算一体化数据仓库和云上存储计算分离的数据湖,最终实现了湖仓一体化的整体架构。在该架构中,尽管底层多套存储系统并存,但通过统一的存储访问层和统一的元数据管理,向上层引擎提供一体的封装接口,用户可以Join数据仓库和数据湖中的两张表,同时整体架构还具备统一的数据安全、管理和治理等中台能力。

在技术融合过程中,MaxCompute不仅实现了快速接入、统一数据/元数据管理、统一开发体验、自动数仓四个关键技术点,更持续提升了核心性能,在2020 TPCx-BigBench中,MaxCompute基于英特尔至强可扩展处理器在100TB规模保持性能不变的情况下,成本较去年下降了40%;30TB规模下,性能提升50%以上,成本下降了30%以上。

微博是“湖仓一体”的尝鲜者。此前微博拥有Hadoop数据湖和阿里云大数据及AI两套异构的大数据平台,且两套平台在集群层面完全割裂,数据和计算无法自由流动。为了解决这些难题,微博基于阿里云构建了湖仓一体化的AI计算中台,摆脱了繁重的数据搬迁,使得微博的数据工程师和算法工程师轻松无缝的借助阿里巴巴成熟的超大规模算力和算法赋能业务提效。同时,将MaxCompute云数据仓库(结构化数据)与数据湖(非结构化数据)构成闭环,极大提升了AI类作业效率,产生巨大的业务价值。

阿里云自研云数据仓库MaxCompute历经近10年技术沉淀,不仅稳定支撑阿里巴巴集团的数据存储和数据计算业务,更是云上客户大数据平台的重要组成部分。此次湖仓一体发布,为企业提供了一种更灵活更高效更经济的数据平台解决方案,既适用于全新构建大数据平台的企业,也适合已有大数据平台的企业进行架构升级,切实以技术加速了企业的数字化重构。

了解更多 “湖仓一体” 方案与技术详情 >>
MaxCompute湖仓一体方案最佳实践 >>
MaxCompute 产品官网 >>


更多关于大数据计算产品技术交流,可扫码加入 “MaxCompute开发者社区” 钉钉群
image.png

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
19天前
|
机器学习/深度学习 人工智能 算法
探索人工智能与大数据的融合之道####
— 本文旨在探讨人工智能(AI)与大数据如何协同工作,以推动技术创新和产业升级。通过分析二者的基本概念、核心技术及应用场景,揭示它们相互促进的内在机制,并展望未来发展趋势。文章指出,AI提供了智能化处理数据的能力,而大数据则为AI提供了海量的训练资源,两者结合将开启无限可能。 ####
|
25天前
|
人工智能 算法 搜索推荐
探索人工智能与大数据的融合之道####
本文深入探讨了人工智能(AI)与大数据之间的紧密联系与相互促进的关系,揭示了二者如何共同推动科技进步与产业升级。在信息爆炸的时代背景下,大数据为AI提供了丰富的学习材料,而AI则赋予了大数据分析前所未有的深度与效率。通过具体案例分析,本文阐述了这一融合技术如何在医疗健康、智慧城市、金融科技等多个领域展现出巨大潜力,并对未来发展趋势进行了展望,强调了持续创新与伦理考量的重要性。 ####
|
26天前
|
机器学习/深度学习 人工智能 自然语言处理
探索人工智能与大数据的融合之美####
【10月更文挑战第29天】 身处信息技术飞速发展的时代,人工智能与大数据如同两颗璀璨的星辰,在科技的夜空中交相辉映,共同推动着社会进步与变革的浪潮。本文旨在揭开AI与大数据深度融合的神秘面纱,探讨这一融合如何引领技术前沿,激发创新活力,并展望其在未来世界中的无限可能。通过深入浅出的解析,展现技术背后的逻辑与魅力,邀请读者一同踏上这场科技与智慧的探索之旅。 ####
68 2
|
2月前
|
机器学习/深度学习 人工智能 运维
智能运维:大数据与AI的融合之道###
【10月更文挑战第20天】 运维领域正经历一场静悄悄的变革,大数据与人工智能的深度融合正重塑着传统的运维模式。本文探讨了智能运维如何借助大数据分析和机器学习算法,实现从被动响应到主动预防的转变,提升系统稳定性和效率的同时,降低了运维成本。通过实例解析,揭示智能运维在现代IT架构中的核心价值,为读者提供一份关于未来运维趋势的深刻洞察。 ###
93 10
|
1月前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
2月前
|
分布式计算 大数据 Serverless
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
在2024云栖大会开源大数据专场上,阿里云宣布推出实时计算Flink产品的新一代向量化流计算引擎Flash,该引擎100%兼容Apache Flink标准,性能提升5-10倍,助力企业降本增效。此外,EMR Serverless Spark产品启动商业化,提供全托管Serverless服务,性能提升300%,并支持弹性伸缩与按量付费。七猫免费小说也分享了其在云上数据仓库治理的成功实践。其次 Flink Forward Asia 2024 将于11月在上海举行,欢迎报名参加。
214 6
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
|
1月前
|
分布式计算 大数据 OLAP
AnalyticDB与大数据生态集成:Spark & Flink
【10月更文挑战第25天】在大数据时代,实时数据处理和分析变得越来越重要。AnalyticDB(ADB)是阿里云推出的一款完全托管的实时数据仓库服务,支持PB级数据的实时分析。为了充分发挥AnalyticDB的潜力,将其与大数据处理工具如Apache Spark和Apache Flink集成是非常必要的。本文将从我个人的角度出发,分享如何将AnalyticDB与Spark和Flink集成,构建端到端的大数据处理流水线,实现数据的实时分析和处理。
59 1
|
2月前
|
人工智能 自然语言处理 关系型数据库
阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成
近日,阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成。
|
1月前
|
数据采集 分布式计算 OLAP
最佳实践:AnalyticDB在企业级大数据分析中的应用案例
【10月更文挑战第22天】在数字化转型的大潮中,企业对数据的依赖程度越来越高。如何高效地处理和分析海量数据,从中提取有价值的洞察,成为企业竞争力的关键。作为阿里云推出的一款实时OLAP数据库服务,AnalyticDB(ADB)凭借其强大的数据处理能力和亚秒级的查询响应时间,已经在多个行业和业务场景中得到了广泛应用。本文将从个人的角度出发,分享多个成功案例,展示AnalyticDB如何助力企业在广告投放效果分析、用户行为追踪、财务报表生成等领域实现高效的数据处理与洞察发现。
54 0
|
3月前
|
人工智能 分布式计算 DataWorks
连续四年!阿里云领跑中国公有云大数据平台
近日,国际数据公司(IDC)发布《中国大数据平台市场份额,2023:数智融合时代的真正到来》报告——2023年中国大数据平台公有云服务市场规模达72.2亿元人民币,其中阿里巴巴市场份额保持领先,占比达40.2%,连续四年排名第一。
233 12

相关产品

  • 云原生大数据计算服务 MaxCompute