一体化大数据智能计算平台 ODPS 产品年度发布

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 阿里云ODPS全新升级,存储、调度、元数据一体化融合 ,从 Processing 升级为 Platform,即 Open Data Platform and Service。本次峰会,同步发布了新的产品能力,即MaxCompute 引擎新功能发布及Hologres 引擎新功能发布。

演讲人:刘一鸣 | 阿里云计算平台自研大数据产品负责人

演讲主题:阿里云 ODPS 一体化大数据智能计算平台新能力解读

活动:2022 云栖大会 - 一体化大数据智能峰会


阿里巴巴做大数据已有 13 年历史。在阿里云成立的最初,技术同学就有一个梦想:希望计算力不再受到硬件资源的限制,可以充分利用云计算带来的弹性和规模优势,解决海量数据的加工处理难题。因此有了最初的 Design for Scale,之后数据开始为更多的使用者服务,为更多的场景方案服务,技术同学没有停止脚步,并进一步 Design for Speed,Design for Simplicity,Design for Scenario。我们相信好的技术应该足够简单、易用、能够深入到业务场景中创造价值。


过去几十年,大数据技术的发展有几条主脉络:


  1. MPP 技术在性能和功能方面拥有着深厚的技术积淀,很多技术原理被广泛吸收在各类创新的数据引擎中,其中也包括阿里云的实时数仓引擎 Hologres;
  2. 开源大数据技术伴随着分布式基础框架技术的改进而快速发展,让我们更容易开发出可扩展且健壮的分布式程序,阿里积极参与其中,特别是深度参与了 Flink 项目的开发和演进,不断拓展着流式计算的边界;
  3. 大数据技术与云原生相结合,本质性降低了大数据应用技术的门槛,诞生了 BigQuery、Snowflake 等一大批优秀的云上数据分析引擎;阿里云也采用了相似的思路,从内部孵化出 Serverless 的大数据引擎 ODPS。


ODPS 再出发:一体化架构满足多样化计算需求

ODPS 最初的全称是 Open Data Processing Service,寓意是希望这个处理引擎是开放的,支持多种类,多场景的数据应用,我们沿着云原生这条路,迭代出数据中台等多种应用场景,并提出了湖仓一体、离线实时一体等多项战略演进方向。

image.png

多年前我们注意到,业务需求在快速演进,在 Scale 之外,我们看到了越来越多 Speed 的需求,有大数据交互式、高性能的需求,有更灵活的全频谱、全场景的中台类需求,在需求多元化的背景下,单一计算引擎已经无法满足用户复杂的应用场景。因此在技术创新上,演化出擅长大规模批量计算的 MaxCompute 引擎,擅长流式数据加工的实时计算 Flink 引擎,以及擅长交互式分析的实时数仓 Hologres 等多引擎格局。这些引擎与统一的大数据开发治理平台 DataWorks 组合在一起,构成了今天全新升级的阿里自研大数据品牌 ODPS,即 Open Data Platform and Service。ODPS 从 Processing 升级为 Platform,表达了我们对未来扩展的预期。诚然,技术创新有时不可避免会有使用门槛的上升和运维难度的提高。但正如 IDC 报告中对未来的展望:大数据技术在将来必定会普惠化且深入各行业去推动数字化转型。因此,大数据技术必须要自我升级甚至革命,从单点的极致创新,向融合化的操作体验和一体化的系统架构演进,进一步降低平台开发门槛,减少运维成本,从而提升数据应用的效率。


ODPS 扎根于阿里集团内部多年以来的大规模复杂应用场景的历练,取得了不少优秀的成绩,如每天 EB 级数据处理规模、连续 6 年获得国际权威数据类评测机构 TPCx-BB 性能冠军、多项专利和软著等。这些规模和记录不停推动着大数据技术的前沿边界。ODPS 的一体化是基于公共的存储底座 Pangu 和跨引擎的开发平台 DataWorks,通过这些基础服务的共享实现数据更灵活的获取,引擎按需使用。阿里的大数据平台不是闭环的系统。我们深信,只有开放、和合作伙伴在一起、和各类开放技术标准在一起,技术才会最有价值地发挥出来。


ODPS 一体化的体现是全方位的:

  • 存储层:多引擎共享存储底座 Pangu,支持存算分离架构,实现计算存储资源的灵活扩展;
  • 调度层:基于统一的容器调度技术,实现资源的按需弹性以及混合部署,降低总体运维成本;
  • 多引擎:支持跨系统引擎直读,在一份数据的基础上,同时支持 MaxCompute 和 Hologres 多引擎交叉访问,支持联邦查询;
  • 元数据:支持统一元数据管理,给用户统一的资产和元数据视图;
  • 开发侧:统一基于 DataWorks 实践数仓开发;
  • 企业级能力:支持多项企业级安全管理和细粒度跨引擎授权等。

MaxCompute 引擎新功能发布

本次峰会,我们发布新的产品能力:MaxCompute 直读 Hologres 数据,横坐标是表的数据量,纵坐标是查询数据的延迟。随着表的数据量越大,加速的效果明显,具备几倍到几十倍的加速效果。同时因为是存储直读,也不再消耗 Hologres 侧的网络和 CPU 资源,体验提升明显。

image.png

云计算本质是对 IT 资源管理的革命,追求极致的弹性和敏捷。本次峰会,我们也带来了 MaxCompute 弹性 CU 能力。在过去预留 CU 的基础上,客户可以设置不同的弹性策略,选择指定时间段的弹性规格。一方面降低使用成本,避免过去为了高峰期的执行效率,预留较多 CU,在低峰期浪费资源的情况,通过弹性实现削峰填谷。同时,弹性 CU 也能很好帮助企业实现提效效果,使用更低的资源成本投入在核心作业上,实现关键业务的准时产出。


在湖仓一体的场景中,ODPS 的创新体现在两个方面,一个是支持更广泛的 External Schema,除了已有的 Hive、OSS 等数据源,这次进一步支持了 MySQL、PG 等多种外部数据源的元数据映射,实现更广泛、更灵活的联邦查询场景,支持湖与仓、仓与库之间的无缝打通;另一个是对非结构化文件的细粒度权限管理,引入 Volume 抽象,支持目录结构定义,这些文件资源可以被用于 UDF、MR 等自定义场景。


本次峰会,MaxCompute 在灵活性、普适性方面也带来了更多新 Feature。包括支持可配置的高吞吐流式写入服务,可以实现更高的吞吐能力。支持 Schema Evolution,用户可以灵活修改表的数据结构,支持增加、删除列。不久我们将会发布 ACID 2.0 能力,支持完善的主键去重写入能力,也就是 Upsert,同时也支持查询加速机制,为 BI 查询提供更稳定的交互式体验。

image.png

物化视图是数仓领域常见的性能优化手段之一,在大数据体系还不多见。MaxCompute 将发布智能物化视图能力,将多项作业作为智能引擎的输入条件,引擎通过计算公共子查询的方法,为用户推荐物化视图建议,被选中的物化视图可以配置数据刷新策略,实现数据定时更新。智能物化视图一个很重要的能力是查询改写,业务方无需感知物化视图的定义,查询会自动选择计算成本最低的物化视图,利用空间换时间,避免了重复计算,极大降低了运行时计算量。

Hologres 引擎新功能发布

Hologres 这次为大家带来了 JSON 的列式存储,我们认为 Schemaless 会是未来数据处理的重要范式,这样数据可以更灵活地存储和解析。列式存储的关键特征是,将树形结构的不规则 JSON 体,自动解析转存为列式存储,具备列式存储的高效压缩、快速过滤和灵活索引的特性。在读取时,无需解析整个 JSON 体,只需访问所需叶子节点,从而实现查询效率数十倍的提升,为埋点数据的灵活采集和分析提供了新解法。


Hologres 定位在数据服务层,即加工后的数据供给给消费端,包括报表、大屏、各类 API、在线应用等,对服务的 QPS、延时、稳定要求很高。Hologres 提供基于共享存储的一主多从部署模式,多个物理上独立的计算实例共享同一份数据存储,实现全局一份存储,无数据孤岛,实例之间数据实时一致。同时,通过资源隔离,实现了读写分离、OLAP 服务与在线点查分离,内表查询与外表查询分离等多种场景,让服务的稳定性有了本质的提升。


最后,向大家汇报一个好消息。在上周的 TPC-H 30TB 性能测试中,Hologres 创造了新的世界纪录,超过原有记录 23%。创造记录并没有某项神秘的黑科技,而是数百名技术同学多年的专注和积累,将向量化、异步化、云原生、行列共存,计算存储协同优化等方法落实到工程实践中,榨取计算系统的每一点计算潜力。或许大家会有这样的疑问:我真的需要性能这么强的数据仓库吗?事实上,通过对性能的极致追求,我们将有机会用更少的硬件资源,解决用户的更大规模问题,从而实现最佳的性价比,帮助我们的用户实现提效降本。


更多关于大数据+ AI 相关消息:https://www.aliyun.com/product/bigdata/apsarabigdata?gzh_allj1116

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
10天前
|
人工智能 运维 自然语言处理
大数据&AI产品月刊【2024年5月】
大数据&AI产品技术月刊【2024年5月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据&AI方面最新动态。
|
12天前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI产品使用合集之如何在odps上启动独立的任务
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
人工智能平台PAI产品使用合集之如何在odps上启动独立的任务
|
12天前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI产品使用合集之在maxcompute上跑模型,如何在本地进行推理
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
人工智能平台PAI产品使用合集之在maxcompute上跑模型,如何在本地进行推理
|
1天前
|
存储 分布式计算 专有云
MaxCompute产品使用问题之阿里公有云的数据如何迁移到阿里专有云
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
16 10
|
13天前
|
SQL 机器学习/深度学习 分布式计算
MaxCompute产品使用合集之如何设置每次返回超过10000行记录
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
12天前
|
机器学习/深度学习 人工智能 DataWorks
人工智能平台PAI产品使用合集之在使用行调用时遇到一直卡在ps job的问题,并且无法在DataWorks上查看到相关日志,是什么导致的
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
13天前
|
存储 分布式计算 大数据
MaxCompute产品使用合集之读取OSS数据出现重复的情况是什么导致的
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
13天前
|
SQL 分布式计算 大数据
MaxCompute产品使用合集之启用hive兼容的时候,某个字段是null,是否会把这个字段当成空白连起来
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
13天前
|
SQL 分布式计算 大数据
MaxCompute产品使用合集之是否可以对OSS文件进行谓词下推
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
13天前
|
分布式计算 DataWorks 大数据
MaxCompute产品使用合集之odps.sql.mapper.split.size和odps.stage.mapper.split.size这两个参数的区别是什么
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。

热门文章

最新文章