今年是 ODPS 15 周年,过去15年,ODPS 的成长过程可以分为四个阶段:
第一个阶段是探索期。ODPS 在 2009 年写下了第一行代码,2010年正式发布 ODPS 1.0。这个阶段是一个从 0 到 1 的过程。
第二个阶段聚焦开发效率、分布式计算等场景。在这个过程中 ODPS 第一次达到了单集群 5000 台。同时也在这个过程中实现了登月,推动整个集团业务上云。
第三阶段是大数据普惠期。ODPS 单集群规模能够超过 1 万台,同时支持 Hadoop 联邦查询、联邦计算,并推出了 MaxCompute LakeHouse 2.0。
第四个阶段随着 AI 浪潮发展。ODPS 更多地关注 Big Data 和 AI 的异构计算,多模态数据的处理能力。
ODPS 家族可以分成四层:第一层是数据集成层;第二层是存储数据层;再往上是计算层和数据应用及消费层。
数据集成层包含了 DataWorks、Data Ingestion,可以将不同数据源的数据集成到 MaxCompute 数据存储中。同时也能够通过 Flink CDC、Datahub、Tunnel 进行数据集成。
数据存储层包含了内置的 MaxCompute 存储和开源 OSS 数据湖存储。再往上,所有的数据不管是在内置存储和开源数据湖上面的存储,都可以统一通过 MaxMeta 进行元数据管理。通过统一的元数据管理对接不同的计算引擎,包括 ODPS SQL、ODPS Spark、ODPS MapReduce 和 MaxFrame。同时也能够对接 Hologres 和 MaxQA 进行交互式查询,还能通过 Flink 进行流式计算。
在应用层,可以对接不同的数据应用及消费,包含了 Quick BI、DataWorks 的 Data Service 和 DataV。
01 ODPS 技术演进-SQL 引擎全面升级优化
在过去几年里,ODPS SQL 引擎进行了全面的升级优化,提供了更丰富的功能、更高的性能和更低的成本。ODPS 提供了复杂数据类型的处理和更多的时间类型数据格式,还有针对不同的数据类型提供了比较灵活的类型转换和格式转换能力。
同时,ODPS 也提供了更强大的表能力,发布了近实时的 Deltatable,不管是有 PK 的增量计算的 Deltatable 和无 PK 的 Append Deltatable。在此基础上,ODPS 能够提供 Auto Partition,时间函数或写入时间分区,进行灵活的分区和裁剪的能力。
同时,在兼容各个不同的大数据产品上面,ODPS 提供扩展了三十多个内置的函数,包括时间/日期函数、字符串函数、二进制的转换优化,同时也扩展了 JSON_LENGTH 和 JSON_CONTAINS 等其他的一些半结构化数据处理能力。在语法和语言上面也进行了大幅的增强,包含 DQL 的语法灵活性的提升,完善了 GROUP BY, PIVOT 等语法细节,也提供了更丰富的 CTE 和 SUBQUERY 的一些能力,还扩展了更多的 DML 的操作,包含 MERGE INTO,支持多次的 UPDATE 和 INSERT,支持 DELETE FROM 别名等不同的 DML 操作,极大地丰富了数据操作的灵活性。
在智能数仓自动优化方面,ODPS 全面收集所有的执行信息,能够在执行计划、资源分配、执行模式和 Runtime 的 Operator 选择上面,面向不同的 Latency 或者 Throughput 进行动态的自动优化选择。包含优化 Join 的算法、Apply Runtime 运行时的 Filter,以及调整不同 stage 的并行度。这样能够自动地进行优化,无论是从资源节省方面还是从作业性能方面,都能得到很大的提高。
02 ODPS 技术演进-更高效更实时的大数据处理平台
大数据对于时效性的要求越来越高,ODPS-MaxCompute 也逐渐向近线和近实时方面发展,发布了增全量一体计算 Delta Live MV 及近线的查询 MaxQA,打造更高效更实时的大数据处理平台。
上图是 ODPS 增全量一体的整体计算架构。左边是从不同的实时数据写入,包括 Upsert, Append 等。同时,在表格式上面 ODPS 提供了 Delta Table,包括 PK Format 和 Append Format,也包含了 Deletion Vector 这样的一些新能力,能够做到数据的实时更新。在 DeltaLive MV 上面,ODPS 可以做到增全量一体的计算,通过声明式的语言能够自动的选择是做增量计算还是做全量计算,这样能够极大地优化整体计算资源,提供更稳定的环境、更强大的计算能力和更极致的性价比。
同时,ODPS 提供了 MaxQA 近实时的查询能力,同时能够通过 Delta Live MV 和 Delta Table 对接 Hologres、Flink 等其他的实时计算产品,为用户提供更高效的查询计算效率。
03 ODPS 技术演进-湖仓一体链接多元化数据
随着 AI 时代的到来,数据不仅包含了结构化数据,也包含了非结构化数据,并且现在非结构化数据占比超过 80%。因此,ODPS 平台开始向着更开放的架构迈进。通过 MaxMeta、MaxStorage、MaxStorageAPI 和 MaxCatalogAPI 统一地提供纳管。不管是内置的存储和开源数据湖上的开源数据格式,包括 PAIMON、ICEBERG、DELTA LAKE 这样的一些开源数据,也包含了非结构化数据,不管是图片数据还是图像数据,都能够统一进行 Batch 计算和近实时的增全量计算。
通过整体架构可以看到,底层不管是内置存储的结构化数据,还是半结构化数据,或者数据湖上 OSS/HDFS 上面的 Paimon、Parquet、开源格式的数据湖数据,和诸如视频文件、图像这样的非结构化数据,都能够进行统一的数据访问和统一的元数据管理。这些数据能够统一地按照现有的 SQL 和 Python 引擎进行统一计算,整体发布,通过湖仓一体连接更多数据进行更高效的计算。
04 ODPS 技术演进-Data + AI 一体化
AI 的发展日新月异,ODPS 也是向着和 AI 的计算结合不断发展。此次,ODPS 发布了 Data + AI 的整体产品策略。向下能够通过湖仓一体连接数据湖上的非结构化数据,通过 ODPS-MaxCompute 提供的 AI Function 功能连接用户上传的模型、内部训练模型、以及 Remote Function 的远端模型。同时,通过统一使用包含 CPU 和 GPU 的异构算力,能够使用 AI 算子对接,通过 Python MaxFrame 和 SQL AI 进行一个整体的 AI 计算。
ODPS-MaxCompute:SQL AI Function 提供低门槛推理分析能力
通过 SQL AI Function,ODPS 面向 SQL 分析师提供降低 AI 推理分析的能力,包括将多模态数据通过 Object Table 作为类似结构化数据来处理。同时通过不同的 AI Function 能够连接不同的模型,包含千问模型、Deepseek 模型或者传统的 XGBoost 模型。我们能统一的通过 AI Function,不管是 ML-Based 的 AI Function 和 LLM-Based AI Function,都能在多模态处理、内容生成、信息抽取、图文分析等不同的应用场景上,进行大规模的 AI 计算。
ODPS-MaxCompute:AI 异构计算能力,支持 SQL 和 Python 两种开发模式
面向海量的多模态数据,基于大模型能力,ODPS-MaxCompute 发布的 AI 异构计算能力,能够同时支持用户使用 SQL 和 Python 两种开发模式。整体上,非结构化数据通过 Object Table;结构化和半结构化数据通过内部的 Delta Table,实现统一的数据访问。在模型方面,通过 AI Function,针对内部训练模型、远端模型,或者是用户上传的模型,包含公共模型,我们都能统一进行 AI 计算。AI 的算力方面,我们提供 CPU 和 GPU 的混合算力。向上我们可以通过使用 Python,面向 Data Scientist 开发环境;同时也能面向 Data Engineering,通过 SQL 的开发环境,能够统一提供一个 AI 的开发和计算。
ODPS-DataWorks:Data+AI 开发新模式
ODPS-DataWorks 提供了新的开发范式,通过 NoteBook 提供 SQL 和 Python 的统一镜像,用户可以基于此进行 SQL 和 Python 的统一开发。DataWorks Data+AI 开发模式,包含了多引擎的工作流编排与调度,CPU 和 GPU 的混合异构资源的调度,并且通过随时访问到 MaxCompute 中的海量数据,从而轻松实现 Data + AI 一体化的数据分析、科学计算和 AI 模型的数据处理。
在开发辅助上面,DataWorks Copilot 提供了智能的 SQL 编程助手,可以做到根据自然语言能够主动生成 SQL,SQL 的代码补全以及 SQL 的优化,为数据开发与分析提效超30%。同时在 AI Agent 方面,DataWorks 也提供了 MCP Server,能够对接不同的 Agent,进行智能找表、智能建表、智能元数据增强、智能图表生成、代码生成,以及 AI 代码评审和质量规则生成、ETL 的任务创建等不同的任务,能够提供更自动化、更高效的开发体验。
除此之外,DataWorks ChatBI 能够通过智能对话为核心,能够进行全流程的自动化分析,帮助数据分析师以及更多的业务人员,即使不懂 SQL,也能生成高效的数据洞察。
05 总结
过去15年,ODPS 一直在拥抱不同的生态,我们能够对接 Quick BI、Metabase、Tableau,一些不同的数据应用,同时也能够对接不同的各行各业的一些解决方案,包含企业服务、制造、通信、交通、游戏、零售、物流、汽车、金融这些不同的行业。过去15年,是 ODPS 一直成长的15年;接下来我们也希望 ODPS 在 AI 整体大潮中,在 Data+AI 的大数据处理上面,能够拥抱 AI,在 AI 上做出更多的应用和计算。