云栖实录 | MaxCompute 迈向下一代的智能云数仓

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 2024年云栖大会上,阿里云核心自研云原生智能数据仓库产品MaxCompute,在经过一年的深度打磨后,推出了其迈向下一代智能云数据仓的系列主题分享。此次产品发布,充分展示MaxCompute产品领先行业的云数据产品发展理念与核心优势。

本文根据2024云栖大会实录整理而成,演讲信息如下:


演讲人:

张治国 | 阿里云智能集团研究员、阿里云 MaxCompute 负责人

谢德军|阿里云智能集团资深技术专家

于得水|阿里云智能集团资深技术专家

谌鹏飞|绝味集团首席数智增长官


活动:

2024 云栖大会 - 大数据:商用大数据计算与分析平台专场


2024年云栖大会上,阿里云核心自研云原生智能数据仓库产品MaxCompute,在经过一年的深度打磨后,推出了其迈向下一代智能云数据仓的系列主题分享。此次产品发布,充分展示MaxCompute产品领先行业的云数据产品发展理念与核心优势。



MaxCompute:迈向下一代智能云数仓

image.png


阿里云智能集团研究员,MaxCompute 负责人张治国对  新一代 MaxCompute 智能云数仓 进行全面与深度的产品技术阐述与解读。从数仓的经典定义四大维度 Value / Variety / Velocity / Volume 切入,分享了 MaxCompute 在云数据仓库领域上围绕上述四个维度重新构建的全新技术创新与产品突破。


  • Value - Data+AI 一体化:MaxFrame + AI Function + ObjectTable 构建 Data+AI ⼀体化;
  • Variety - 湖仓一体2.0:汇聚高价值数据,在湖仓融合架构之上的多模态结构化/半结构化/非结构化数据的高效处理与分析;
  • Velocity - 近实时数仓:基于 DeltaTable、增量计算&增量物化视图、MCQA2.0 查询加速引擎三层架构实现从离线到近实时架构全面升级;
  • Volume - 企业级能力在安全稳定方面,同城&跨 Region 灾备、数据脱敏。为客户数据安全保驾护航。在可观测性与 AI 智能化上,提供 IntelligentTuning 与智能物化视图创新能力。


image.png


MaxCompute 通过经典数据仓库能力定义与云数据架构的深刻理解,构建出面向下一代智能云数仓。其四个核心产品理念包括但不限于:Data+AI - 数据价值的不断深化, 开放湖仓架构衍生出的多样数据融合处理与分析,近实时数仓-从离线到近实时的系统性能优化,企业级服务能力- Serverless 智能云数仓的企业终极差异优势。


Data+AI 价值化

MaxFrame + AI Function + ObjectTable 构建 Data+AI ⼀体化


随着 AI 应用浪潮的逐步深入,MaxCompute 为用户提供了 Data + AI 一体化开发体验。


MaxFrame 可以基于 External Project + Object Table 的方案对 AI 开发中使用的多模态非结构化数据统一管理,通过 Notebook 的交互式数据处理和 Python SDK 统一开发体验,一份 code 同时包含数据处理及模型训练、推理。MaxFrame 自动分布式 python数据处理框架,兼容 Pandas DataFrame,内置可扩展 AI function,使用通义大模型能力在分布式数据处理中进行智能分析和内容生成,支持灵活易用的 Python 依赖打包及镜像管理能力。为企业构建 AI 时代的大数据基础设施。


阿里云资深技术专家于得水表示,MaxFrame 是由阿里云自研的分布式计算框架,支持Python 编程接口,并直接使用 MaxCompute 的计算资源和数据接口,MaxFrame 不仅兼容 Pandas、Xgboost 接口,还自动实现分布式处理,使得 Python 开发者可以更加高效、便捷地在 MaxCompute 上完成大规模数据处理及 ML/AI 数据预处理等工作。


MaxFrame 已于9月27日商业化发布欢迎感兴趣的朋友测试。

image.png



开放多样化

湖仓一体2.0 & OpenLake 协同,汇聚高价值数据。湖仓融合计算性能已达内表性能的70%


湖仓一体2.0 汇聚高价值数据:通过三层模式更广泛的兼容数据源层析模式;通过自动打通网络、自动映射数据源元数据和数据存储服务、兼容开源文件格式等方法,直接挂载外部数据源数据对象,省去建表和更新;将内表性能优化逐步带到湖上,目前湖上计算性能已达内表性能的 70%;融合数据湖之外,MaxCompute 也正在逐步对接 Hadoop 实例、MPP 数据库、RDS 数据库等多种联邦数据源;在读取外部数据的计算价格上也极具竞争力。


湖仓一体2.0 已于9月进入商业化公测阶段,欢迎感兴趣的朋友试用体验。

image.png


随着基于开放湖仓架构的应用,越来越多面向非结构化数据的需求变得越发重要。建立在开放架构之上 MaxCompute 4.0 也迅速推出具备在湖仓之上多模态非结构数据的数据分析与应用的产品特性 ObjectTable。其功能特性是以结构表的方式描述非结构化数据,简化用户对复杂非结构化数据的使用门槛,并提供完备且高效的数据处理分析能力。

image.png


极致性能化

MaxCompute 近实时数仓升级,MCQA2.0 查询加速全新升级,28亿行数据查询1秒返回


云数仓发展到当前阶段,越来越多的客户对延时敏感的近实时链路有广泛且强烈需求。MaxCompute 通过近实时数仓架构不断迭代升级。实现支持实时数据分钟级导入,分析秒级返回。全新推出的 Delta Table 增量表格式。其对上游数据对接方式灵活,支持 Flink Streaming Tunnel 实时写入,支持 FlinkCDC 数据同步,及 DataWorks 实时数据集成等方式。Delta Table 具有全量增量数据统一处理与管理能力,依赖 Primary Key 主键设置,在实现 Upsert 语义的同时又有很好的读写性能, StorageService 管理服务在后台能够提供自动化的增量数据 AutoClustering / AutoCompaction / AutoClean 等操作,可有效降低存储成本,优化对增量数据处理效率。基于 Delta Table 格式之上的异步构建 CDC 能力,增量物化视图(增量 MV )新特性能够提供增量/全量刷新模式。增量物化视图(增量 MV )同时支持多层 Pipeline 构建,级联查询,支持分区增量 MV 等功能,数据新鲜度提升同时,极大简化增量计算 Pipeline 构建流程。

image.png


而 MCQA2.0 查询加速引擎全新升级,在基于类似 Virtual Warehouse 强资源隔离模式创建,全链路 Cache 优化,在兼顾大规模数据处理 Throughput 的前提下,扩展支持多种基于 Latency 的 E2E 性能优化。通过 MCQA2.0 将 MaxCompute 的性能提升新的高度。阿里云智能集团资深技术专家谢德军表示,MCQA2.0 查询性能在标准 Benchmark中表现非常出色,MCQA2.0 性能是 MCQA1.0 1.9X,开源版本 Spark 2.7X。28亿行数据查询1秒返回。

image.png


同时,MCQA2.0 查询加速引擎在 TPC-DS 测试中,面对复杂 Query 查询与大 Query 多并发提交等复杂场景下其查询表现上无论是性能还是稳定性都更具优势。使用MaxCompute 512CU 对 TPC-DS 的1TB 数据量进行测试,其 Query 平均 E2E 所需时间为 4.7s。

image.png



近实时数仓系列特性 ( DeltaTable/ 增量物化视图/ MCQA2.0) ,已在云栖大会期间进入面向企业用户的邀测阶段,欢迎感兴趣的朋友试用体验。


企业级服务化

安全稳定,提供数据的保密性、完整性、可用性保障。支持 AI 智能化在企业级场景下应用等。


MaxCompute 数据脱敏在最靠近数据的从存储中读取的环节实现,具备高性能和高安全性,确保数据在查询、下载、关联、UDF 计算时已经处于脱敏状态,避免敏感数据泄露风险。


脱敏策略支持掩码、散列、字符替换、数值取整、日期取整等脱敏策略,支持与数据保护伞的数据分类分级功能联动,满足用户对身份信息、银行卡号、地址、电话等数据的脱敏需求。


MaxCompute 以数据保护三要素保密性、完整性和可用性为基础,构建全面的数据安全保护屏障,并提供完善的数据访问控制能力和安全可信的计算环境。通过集群高可用和容灾方案确保业务的连续性,系统详细记录用户操作日志和任务运行日志,供事中运维监测和事后安全审计。MaxCompute 服务建立在阿里云 IaaS 服务之上,利用云基础设施的安全能力,同时能够与云平台相关的安全产品进行联动,如 RAM 访问控制、DataWorks 安全中心、数据保护伞,以实现更加丰富的安全管控场景。

image.png


在企业级服务方面,MaxCompute 以其多年在阿里巴巴体系系统优化经验,发布智能数仓产品新能力。其最新发布的智能物化视图 与 Intelligent Tuning 新特性,可帮助用户智能简化查询与系统运维工作。智能物化视图通过智能分析周期性 Pipeline 作业等方式,实现物化视图推荐,简化物化视图生成方式,明显提升查询分析效率。而 Intelligent Tuning 特性更多的是帮助用户自助实现数仓运维优化管理的能力。

image.png


总结

毫无疑问,在 2024 年云栖大会上 MaxCompute 所展示的全新四大产品理念与多项技术创新突破,是 MaxCompute4.0 发布以来的产品能力的一次整体展示,是技术产品阶段沉淀后的厚积薄发。在迈向下一代智能云数仓的道路上,MaxCompute 在 Data+AI  / 湖仓一体 / 近实时数仓 / 企业级能力四大方向,又走出坚定且扎实一大步。


希望广泛用户在云栖大会上了解 MaxCompute 全新发布后,积极尝试与应用 MaxCompute 新一代智能云产品,为行业与用户提供最优秀的云数仓产品。

image.png


绝味集团基于阿里云大数据产品构建全域数智增长底座

同时,在云栖大会-商用大数据计算与分析平台专场,绝味集团首席数智增长官谌鹏飞先生也分享了基于阿里云 MaxCompute、Hologres、DataWorks 及实时计算 Flink 版等产品的大数据链路,构建支撑全域数智增长的稳固底座,推动了绝味集团的数字化转型。主要应用在以下几个方面,并取得显著效果:


  • 绝知:大数据+知识库+ AI 赋能店长创新应用,累计使用超过4.1万人,经营效率提升20%;
  • 智能选址:大数据+算法结合,定位黄金商机,选址业绩准确率80.8%;
  • 产品创新:大数据+ AI 洞察产品脉搏,用户画像精准分析;
  • 物流监控:大数据全链路品质管控,促进客户满意度提升了10%以上。

image.png


MaxCompute 从2009年诞生至今,作为阿里云最核心的核心战略级云数仓产品之一,一直在进化。现在我们已经发展成一个 EB 级的企业级数仓。阿里集团、蚂蚁集团,还有数万个企业用户像绝味集团一样,都在使用 MaxCompute,构建大数据平台底座推动业务增长,欢迎大家后续关注与使用,谢谢大家!

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
11月前
|
存储 分布式计算 运维
【2023云栖】刘一鸣:Data+AI时代大数据平台建设的思考与发布
本文根据2023云栖大会演讲实录整理而成,演讲信息如下: 演讲人:刘一鸣 | 阿里云自研大数据产品负责人 演讲主题:Data+AI时代大数据平台应该如何建设
102075 14
|
1天前
|
分布式计算 大数据 Serverless
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
在2024云栖大会开源大数据专场上,阿里云宣布推出实时计算Flink产品的新一代向量化流计算引擎Flash,该引擎100%兼容Apache Flink标准,性能提升5-10倍,助力企业降本增效。此外,EMR Serverless Spark产品启动商业化,提供全托管Serverless服务,性能提升300%,并支持弹性伸缩与按量付费。七猫免费小说也分享了其在云上数据仓库治理的成功实践。其次 Flink Forward Asia 2024 将于11月在上海举行,欢迎报名参加。
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
|
11月前
|
人工智能 大数据 调度
【云栖2023】林伟:大数据AI一体化的解读
本文根据2023云栖大会阿里云研究员,阿里云计算平台事业部首席架构师,阿里云人工智能平台PAI和大数据开发治理平台DataWorks负责人---林伟演讲实录整理而成,演讲主题:”大数据AI一体化的解读“。
|
11月前
|
存储 人工智能 分布式计算
【云栖2023】张治国:MaxCompute架构升级及开放性解读
本文根据2023云栖大会演讲实录整理而成,演讲信息如下 演讲人:张治国|阿里云智能计算平台研究员、阿里云MaxCompute负责人 演讲主题:MaxCompute架构升级及开放性解读 活动:2023云栖大会
60774 16
|
10月前
|
存储 人工智能 大数据
2023云栖陈守元,阿里云开源大数据产品年度发布
阿里云计算平台事业部开源大数据产品总监陈守元围绕EMR、Flink Streaming Lakehouse、 Elasticsearch、Milvus等产品发布展开分享介绍。
438 3
|
存储 SQL 人工智能
贾扬清演讲实录:阿里云一体化大数据智能平台的演进丨2022云栖一体化大数据智能峰会
贾扬清在一体化大数据智能峰会论坛上分享立足于数据这个领域,数据和智能之间创新的火花。
贾扬清演讲实录:阿里云一体化大数据智能平台的演进丨2022云栖一体化大数据智能峰会
|
存储 运维 分布式计算
|
存储 弹性计算 分布式计算
【云栖号案例 | 能源】东润环能利用MaxCompute资源确保数据在云端也可以万无一失
企业自建大数据平台存在投资成本过高、运维复杂,成本增加等问题。通过MaxCompute总成本降低,方便产生的数据有效管理,对数据权限有很高的管理及防护能力。
【云栖号案例 | 能源】东润环能利用MaxCompute资源确保数据在云端也可以万无一失
|
机器学习/深度学习 分布式计算 监控
【云栖号案例 | 医疗健康】美甲帮通过数加搭建大数据平台 针对百万用户的精细运营
美甲帮希望更好的提升客户使用体验,为业务赋能,提升业务洞察能力。通过数加平台业务更敏捷、智能、具洞察力,快速响应新业务的数据及分析需求。
【云栖号案例 | 医疗健康】美甲帮通过数加搭建大数据平台 针对百万用户的精细运营
|
SQL 分布式计算 前端开发
【云栖号案例 | 交通&物流】中邮智递通过数加和datav将系统和服务迁移到大数据平台
中邮智递数据平台发展到现在经历了四个阶段,最近通过数加和datav将系统和服务迁移到大数据平台,以及使用ADB实现实时OLAP达到低延迟、高并发。
【云栖号案例 | 交通&物流】中邮智递通过数加和datav将系统和服务迁移到大数据平台

相关产品

  • 云原生大数据计算服务 MaxCompute