云栖实录 | MaxCompute 迈向下一代的智能云数仓

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 2024年云栖大会上,阿里云核心自研云原生智能数据仓库产品MaxCompute,在经过一年的深度打磨后,推出了其迈向下一代智能云数据仓的系列主题分享。此次产品发布,充分展示MaxCompute产品领先行业的云数据产品发展理念与核心优势。

本文根据2024云栖大会实录整理而成,演讲信息如下:


演讲人:

张治国 | 阿里云智能集团研究员、阿里云 MaxCompute 负责人

谢德军|阿里云智能集团资深技术专家

于得水|阿里云智能集团资深技术专家

谌鹏飞|绝味集团首席数智增长官


活动:

2024 云栖大会 - 大数据:商用大数据计算与分析平台专场


2024年云栖大会上,阿里云核心自研云原生智能数据仓库产品MaxCompute,在经过一年的深度打磨后,推出了其迈向下一代智能云数据仓的系列主题分享。此次产品发布,充分展示MaxCompute产品领先行业的云数据产品发展理念与核心优势。



MaxCompute:迈向下一代智能云数仓

image.png


阿里云智能集团研究员,MaxCompute 负责人张治国对  新一代 MaxCompute 智能云数仓 进行全面与深度的产品技术阐述与解读。从数仓的经典定义四大维度 Value / Variety / Velocity / Volume 切入,分享了 MaxCompute 在云数据仓库领域上围绕上述四个维度重新构建的全新技术创新与产品突破。


  • Value - Data+AI 一体化:MaxFrame + AI Function + ObjectTable 构建 Data+AI ⼀体化;
  • Variety - 湖仓一体2.0:汇聚高价值数据,在湖仓融合架构之上的多模态结构化/半结构化/非结构化数据的高效处理与分析;
  • Velocity - 近实时数仓:基于 DeltaTable、增量计算&增量物化视图、MCQA2.0 查询加速引擎三层架构实现从离线到近实时架构全面升级;
  • Volume - 企业级能力在安全稳定方面,同城&跨 Region 灾备、数据脱敏。为客户数据安全保驾护航。在可观测性与 AI 智能化上,提供 IntelligentTuning 与智能物化视图创新能力。


image.png


MaxCompute 通过经典数据仓库能力定义与云数据架构的深刻理解,构建出面向下一代智能云数仓。其四个核心产品理念包括但不限于:Data+AI - 数据价值的不断深化, 开放湖仓架构衍生出的多样数据融合处理与分析,近实时数仓-从离线到近实时的系统性能优化,企业级服务能力- Serverless 智能云数仓的企业终极差异优势。


Data+AI 价值化

MaxFrame + AI Function + ObjectTable 构建 Data+AI ⼀体化


随着 AI 应用浪潮的逐步深入,MaxCompute 为用户提供了 Data + AI 一体化开发体验。


MaxFrame 可以基于 External Project + Object Table 的方案对 AI 开发中使用的多模态非结构化数据统一管理,通过 Notebook 的交互式数据处理和 Python SDK 统一开发体验,一份 code 同时包含数据处理及模型训练、推理。MaxFrame 自动分布式 python数据处理框架,兼容 Pandas DataFrame,内置可扩展 AI function,使用通义大模型能力在分布式数据处理中进行智能分析和内容生成,支持灵活易用的 Python 依赖打包及镜像管理能力。为企业构建 AI 时代的大数据基础设施。


阿里云资深技术专家于得水表示,MaxFrame 是由阿里云自研的分布式计算框架,支持Python 编程接口,并直接使用 MaxCompute 的计算资源和数据接口,MaxFrame 不仅兼容 Pandas、Xgboost 接口,还自动实现分布式处理,使得 Python 开发者可以更加高效、便捷地在 MaxCompute 上完成大规模数据处理及 ML/AI 数据预处理等工作。


MaxFrame 已于9月27日商业化发布欢迎感兴趣的朋友测试。

image.png



开放多样化

湖仓一体2.0 & OpenLake 协同,汇聚高价值数据。湖仓融合计算性能已达内表性能的70%


湖仓一体2.0 汇聚高价值数据:通过三层模式更广泛的兼容数据源层析模式;通过自动打通网络、自动映射数据源元数据和数据存储服务、兼容开源文件格式等方法,直接挂载外部数据源数据对象,省去建表和更新;将内表性能优化逐步带到湖上,目前湖上计算性能已达内表性能的 70%;融合数据湖之外,MaxCompute 也正在逐步对接 Hadoop 实例、MPP 数据库、RDS 数据库等多种联邦数据源;在读取外部数据的计算价格上也极具竞争力。


湖仓一体2.0 已于9月进入商业化公测阶段,欢迎感兴趣的朋友试用体验。

image.png


随着基于开放湖仓架构的应用,越来越多面向非结构化数据的需求变得越发重要。建立在开放架构之上 MaxCompute 4.0 也迅速推出具备在湖仓之上多模态非结构数据的数据分析与应用的产品特性 ObjectTable。其功能特性是以结构表的方式描述非结构化数据,简化用户对复杂非结构化数据的使用门槛,并提供完备且高效的数据处理分析能力。

image.png


极致性能化

MaxCompute 近实时数仓升级,MCQA2.0 查询加速全新升级,28亿行数据查询1秒返回


云数仓发展到当前阶段,越来越多的客户对延时敏感的近实时链路有广泛且强烈需求。MaxCompute 通过近实时数仓架构不断迭代升级。实现支持实时数据分钟级导入,分析秒级返回。全新推出的 Delta Table 增量表格式。其对上游数据对接方式灵活,支持 Flink Streaming Tunnel 实时写入,支持 FlinkCDC 数据同步,及 DataWorks 实时数据集成等方式。Delta Table 具有全量增量数据统一处理与管理能力,依赖 Primary Key 主键设置,在实现 Upsert 语义的同时又有很好的读写性能, StorageService 管理服务在后台能够提供自动化的增量数据 AutoClustering / AutoCompaction / AutoClean 等操作,可有效降低存储成本,优化对增量数据处理效率。基于 Delta Table 格式之上的异步构建 CDC 能力,增量物化视图(增量 MV )新特性能够提供增量/全量刷新模式。增量物化视图(增量 MV )同时支持多层 Pipeline 构建,级联查询,支持分区增量 MV 等功能,数据新鲜度提升同时,极大简化增量计算 Pipeline 构建流程。

image.png


而 MCQA2.0 查询加速引擎全新升级,在基于类似 Virtual Warehouse 强资源隔离模式创建,全链路 Cache 优化,在兼顾大规模数据处理 Throughput 的前提下,扩展支持多种基于 Latency 的 E2E 性能优化。通过 MCQA2.0 将 MaxCompute 的性能提升新的高度。阿里云智能集团资深技术专家谢德军表示,MCQA2.0 查询性能在标准 Benchmark中表现非常出色,MCQA2.0 性能是 MCQA1.0 1.9X,开源版本 Spark 2.7X。28亿行数据查询1秒返回。

image.png


同时,MCQA2.0 查询加速引擎在 TPC-DS 测试中,面对复杂 Query 查询与大 Query 多并发提交等复杂场景下其查询表现上无论是性能还是稳定性都更具优势。使用MaxCompute 512CU 对 TPC-DS 的1TB 数据量进行测试,其 Query 平均 E2E 所需时间为 4.7s。

image.png



近实时数仓系列特性 ( DeltaTable/ 增量物化视图/ MCQA2.0) ,已在云栖大会期间进入面向企业用户的邀测阶段,欢迎感兴趣的朋友试用体验。


企业级服务化

安全稳定,提供数据的保密性、完整性、可用性保障。支持 AI 智能化在企业级场景下应用等。


MaxCompute 数据脱敏在最靠近数据的从存储中读取的环节实现,具备高性能和高安全性,确保数据在查询、下载、关联、UDF 计算时已经处于脱敏状态,避免敏感数据泄露风险。


脱敏策略支持掩码、散列、字符替换、数值取整、日期取整等脱敏策略,支持与数据保护伞的数据分类分级功能联动,满足用户对身份信息、银行卡号、地址、电话等数据的脱敏需求。


MaxCompute 以数据保护三要素保密性、完整性和可用性为基础,构建全面的数据安全保护屏障,并提供完善的数据访问控制能力和安全可信的计算环境。通过集群高可用和容灾方案确保业务的连续性,系统详细记录用户操作日志和任务运行日志,供事中运维监测和事后安全审计。MaxCompute 服务建立在阿里云 IaaS 服务之上,利用云基础设施的安全能力,同时能够与云平台相关的安全产品进行联动,如 RAM 访问控制、DataWorks 安全中心、数据保护伞,以实现更加丰富的安全管控场景。

image.png


在企业级服务方面,MaxCompute 以其多年在阿里巴巴体系系统优化经验,发布智能数仓产品新能力。其最新发布的智能物化视图 与 Intelligent Tuning 新特性,可帮助用户智能简化查询与系统运维工作。智能物化视图通过智能分析周期性 Pipeline 作业等方式,实现物化视图推荐,简化物化视图生成方式,明显提升查询分析效率。而 Intelligent Tuning 特性更多的是帮助用户自助实现数仓运维优化管理的能力。

image.png


总结

毫无疑问,在 2024 年云栖大会上 MaxCompute 所展示的全新四大产品理念与多项技术创新突破,是 MaxCompute4.0 发布以来的产品能力的一次整体展示,是技术产品阶段沉淀后的厚积薄发。在迈向下一代智能云数仓的道路上,MaxCompute 在 Data+AI  / 湖仓一体 / 近实时数仓 / 企业级能力四大方向,又走出坚定且扎实一大步。


希望广泛用户在云栖大会上了解 MaxCompute 全新发布后,积极尝试与应用 MaxCompute 新一代智能云产品,为行业与用户提供最优秀的云数仓产品。

image.png


绝味集团基于阿里云大数据产品构建全域数智增长底座

同时,在云栖大会-商用大数据计算与分析平台专场,绝味集团首席数智增长官谌鹏飞先生也分享了基于阿里云 MaxCompute、Hologres、DataWorks 及实时计算 Flink 版等产品的大数据链路,构建支撑全域数智增长的稳固底座,推动了绝味集团的数字化转型。主要应用在以下几个方面,并取得显著效果:


  • 绝知:大数据+知识库+ AI 赋能店长创新应用,累计使用超过4.1万人,经营效率提升20%;
  • 智能选址:大数据+算法结合,定位黄金商机,选址业绩准确率80.8%;
  • 产品创新:大数据+ AI 洞察产品脉搏,用户画像精准分析;
  • 物流监控:大数据全链路品质管控,促进客户满意度提升了10%以上。

image.png


MaxCompute 从2009年诞生至今,作为阿里云最核心的核心战略级云数仓产品之一,一直在进化。现在我们已经发展成一个 EB 级的企业级数仓。阿里集团、蚂蚁集团,还有数万个企业用户像绝味集团一样,都在使用 MaxCompute,构建大数据平台底座推动业务增长,欢迎大家后续关注与使用,谢谢大家!

目录
相关文章
|
21天前
|
弹性计算 人工智能 架构师
阿里云携手Altair共拓云上工业仿真新机遇
2024年9月12日,「2024 Altair 技术大会杭州站」成功召开,阿里云弹性计算产品运营与生态负责人何川,与Altair中国技术总监赵阳在会上联合发布了最新的“云上CAE一体机”。
阿里云携手Altair共拓云上工业仿真新机遇
|
17天前
|
机器学习/深度学习 算法 大数据
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析
2024“华为杯”数学建模竞赛,对ABCDEF每个题进行详细的分析,涵盖风电场功率优化、WLAN网络吞吐量、磁性元件损耗建模、地理环境问题、高速公路应急车道启用和X射线脉冲星建模等多领域问题,解析了问题类型、专业和技能的需要。
2563 22
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析
|
15天前
|
人工智能 IDE 程序员
期盼已久!通义灵码 AI 程序员开启邀测,全流程开发仅用几分钟
在云栖大会上,阿里云云原生应用平台负责人丁宇宣布,「通义灵码」完成全面升级,并正式发布 AI 程序员。
|
13天前
|
存储 关系型数据库 分布式数据库
GraphRAG:基于PolarDB+通义千问+LangChain的知识图谱+大模型最佳实践
本文介绍了如何使用PolarDB、通义千问和LangChain搭建GraphRAG系统,结合知识图谱和向量检索提升问答质量。通过实例展示了单独使用向量检索和图检索的局限性,并通过图+向量联合搜索增强了问答准确性。PolarDB支持AGE图引擎和pgvector插件,实现图数据和向量数据的统一存储与检索,提升了RAG系统的性能和效果。
|
17天前
|
机器学习/深度学习 算法 数据可视化
【BetterBench博士】2024年中国研究生数学建模竞赛 C题:数据驱动下磁性元件的磁芯损耗建模 问题分析、数学模型、python 代码
2024年中国研究生数学建模竞赛C题聚焦磁性元件磁芯损耗建模。题目背景介绍了电能变换技术的发展与应用,强调磁性元件在功率变换器中的重要性。磁芯损耗受多种因素影响,现有模型难以精确预测。题目要求通过数据分析建立高精度磁芯损耗模型。具体任务包括励磁波形分类、修正斯坦麦茨方程、分析影响因素、构建预测模型及优化设计条件。涉及数据预处理、特征提取、机器学习及优化算法等技术。适合电气、材料、计算机等多个专业学生参与。
1556 16
【BetterBench博士】2024年中国研究生数学建模竞赛 C题:数据驱动下磁性元件的磁芯损耗建模 问题分析、数学模型、python 代码
|
19天前
|
编解码 JSON 自然语言处理
通义千问重磅开源Qwen2.5,性能超越Llama
击败Meta,阿里Qwen2.5再登全球开源大模型王座
826 14
|
14天前
|
人工智能 开发框架 Java
重磅发布!AI 驱动的 Java 开发框架:Spring AI Alibaba
随着生成式 AI 的快速发展,基于 AI 开发框架构建 AI 应用的诉求迅速增长,涌现出了包括 LangChain、LlamaIndex 等开发框架,但大部分框架只提供了 Python 语言的实现。但这些开发框架对于国内习惯了 Spring 开发范式的 Java 开发者而言,并非十分友好和丝滑。因此,我们基于 Spring AI 发布并快速演进 Spring AI Alibaba,通过提供一种方便的 API 抽象,帮助 Java 开发者简化 AI 应用的开发。同时,提供了完整的开源配套,包括可观测、网关、消息队列、配置中心等。
621 7
|
7天前
|
Docker 容器
Docker操作 (五)
Docker操作 (五)
170 69
|
7天前
|
Docker 容器
Docker操作 (三)
Docker操作 (三)
167 69
|
19天前
|
人工智能 自动驾驶 机器人
吴泳铭:AI最大的想象力不在手机屏幕,而是改变物理世界
过去22个月,AI发展速度超过任何历史时期,但我们依然还处于AGI变革的早期。生成式AI最大的想象力,绝不是在手机屏幕上做一两个新的超级app,而是接管数字世界,改变物理世界。
628 52
吴泳铭:AI最大的想象力不在手机屏幕,而是改变物理世界

热门文章

最新文章

下一篇
无影云桌面