MaxCompute Data + AI:构建 Data + AI 的一体化数智融合

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 本次分享将分为四个部分讲解:第一部分探讨AI时代数据开发范式的演变,特别是MaxCompute自研大数据平台在客户工作负载和任务类型变化下的影响。第二部分介绍MaxCompute在资源大数据平台上构建的Data + AI核心能力,提供一站式开发体验和流程。第三部分展示MaxCompute Data + AI的一站式开发体验,涵盖多模态数据管理、交互式开发环境及模型训练与部署。第四部分分享成功落地的客户案例及其收益,包括互联网公司和大模型训练客户的实践,展示了MaxFrame带来的显著性能提升和开发效率改进。

本次将分四个部分讲解,第一部分是AI时代,数据开发范式演变尤其对于Maxcompute自研大数据平台,客户的工作负载任务类型都发生一些变化,也影响到开发平台的范式变化范变化影响之后能力的重新构建第二部分在资源大数据平台做哪些Data + AI领域的核心能力,基于核心能力做的一站式的开发体验和开发流程,最后分享在新的Data + AI框架上成功落地的客户案例,和获得的收益。

 

一、AI时代数据开发范式演变

数据、算力和算法几个要素是比较常提,还有人才要素也是核心之一。海量数据是基础,但核心的是海量数据之上的高质量数据。如何高效的从海量数据里提取高质量的数据,对整个开发是非常核心的一点,要求平台具有很好的扩展性,提供丰富的数据处理的能力和算子第二是算力,大模型训练GPU算力包含CPU算力,在数据处理包括离线推理领域CPU资源还很重要,它可以非常高效的帮做计算,最后是算法,算法是一个核心的要素取决于最后的模型质量。


整个的开发生命周期这张图表示,这张图从最开始的数据分析到数据的预处理,预处理包括数据清洗过滤转换数据增强等,是比较复杂一个过程,包括模型开发,基于分布式训练平台的模型训练,最后把训练之后的模型进行评估


最后是模型部署,整个链条非常长,涉及到不同用户在不同平台之间进行切换,使用不同的语言技术栈工具包括角色不一样开发领域有数据工程师数据科学家算法工程师,包括训练的调参工程师以及部署,整个一系列涉及到很多链条角色平台


这就带来一些挑战,俗称的开发的痛点,第一是数据管理,整个AI开发过程中,可以看到数据类型非常多,随着面向AI领域的开发,不光是传统的像数仓领域结构化数据为主,在AI开发半结构化数据,比如文本,从互联网爬取海量的文本数据,要抽取有用的信息,包括非结构化数据,视频对话,音频生成,合成都需要多模态数据图片视频音频做数据处理和预训练。多种多样的数据形态散布在不同的数据平台里,如何高效的管理是一个挑战


第二是开发效率,整个开发流程很复杂,每个平台每个阶段都有不同的特点,要求开发人员熟悉不同平台管理运维,这些平台提出很大的挑战,比如环境的管理,可能开发环境里调试没有问题,但部署到线上很多依赖,发现有不同的地方,这是一个影响开发效率的点。最后一点运维整个开发流程复杂,用户需要在不同平台去切换,很多用户用的是自用开源框架搭的自建平台,自建平台好处上手比较快,有很多资料可以去学,但是日常在运行过程中会发现用户要处理很多复杂的运维问题,比如节点失效,做高可用的保障给Data + AI的开发提出很高的门槛

 

二、MaxCompute Data + AI核心能力解读

介绍针对流程面临的挑战。Maxcompute作为阿里云的自研大数据平台,在过去一年,在Data + AI领域,尤其是面向Data for AI领域做能力建设这是在Maxcompute里提出的一个解决方案。


首先底层为解决数据管理提供统一的原数据视图支持进行统一的多模态,包括结构化数据管理,底层是原数据管理模块。可以管理存储在盘古上的Maxcompute的结构化数据,也可以管理存储在数据湖上的非结构数据,包括Paimon里面的数据。提供统一的数据视图,中间层是计算框架,可以提供统一的Python生态的编程接口,支持用户进行数据处理模型开发,包括提交、分布式训练等一系列操作。


上层是为提升开发效率。提供很多易于使用的工具,包括交付式开发的Notebook,通过DataWorkers可以提交Data + AI的作业节点等,为解决开发效率和运维问题,提供自定镜像,用户可以提前把自己的依赖都打包在镜像里,运行时就可以在用户的自己的镜像里面运行,比较明显的提升开发效率,不用人工解决复杂三方包的依赖问题。


Maxcompute新推出的一套分布式的计算框架MaxFrame,它是一套新升级的Python生态,提供统一的分布式社区兼容版的Python接口,以及很多高效的数据处理的算子。构建在MaxFrame上提供很强大的分布式计算能力,核心能力统一的数据管理视图,底层可以基于Maxcompute计算平台发布的OpenLake,中间计算表示层是自研的分布式计算框架MaxFrame,提供统一的编程接口交互式的开发环境-Maxcompute notebook提供自定义项功能管理,支持用户提前构建好要运行的环境解决依赖。


MaxcomputePython生态的升级,最早Maxcompute是以SQL形式去提交执行,最早提供PYODPS,这套工具包是2015年发布的,它是作为Python SDK的方式,用户可以调用Python接口来操作Maxcompute的各种对象,比如创建表查询实例提交任务,作为SDK形式比较方便,让用户用Python操作Maxcompute,在2016年发布升级版PYODPS,提供自定的一套Data Frame进行计算表示层的操作。用户可以不用SQL操作数据。用户可以使用PYODPS里的Data Frame表示层操作数据,缺陷是Data Frame不是社区兼容的,比较流行的是Pandas标准的Data Frame各种各样的算子index的概念


这一版升级没有做到社区兼容,之后在Panda 生态mask into团队在2019年发布Mars,做numpy分布式的改写执行,底层是基于调度能力,缺陷是启动和运行的体验不好。


在今年正式对外推出Maxcompute的全新的自研的计算框架,亮点相比以前的PYODPSData Frame表示层,这个是兼容社区的Pandas标准的Data Frame,用户可以非常熟悉pandas的API分布式的作业,这是很大的功能提升。第二底层做分布式,用户调用Pandas算可以像写本地Pandas程序一样,但真正执行的时候,会利用MC的分布式执行能力在多个节点中分布式的执行可以复用底层Maxcompute计算资源和调度能力。


最后通过跟上下游的各种产品包括notebook自定镜像能力底层的Open Lake统一数据管理能力,打通Data + AI整个的pipeline。然后介绍新推出的框架,它的目标全新升级MaxcomputePython开发生态,现在用户也可以和SQL同等的地位写Python的作业提交MaxFrame是基于Maxcompute的表示层Data Frame的框架。Data Frame在Data + AI领域,Data Frame生态更好,越来越流行,包括上下游的很多可以集成起来。在底层依赖于Maxcompute的弹性计算资源,实现低运维方式用户基本是开箱即用,申请MC账号就可以使用MaxFrame这套产品基于MaxFrame海量数据,包括结构的内表,包括可以读取数据上的外表,这是构建MaxFrame的基本的能力。提供统一的Python接口支持用户开发。原生的Python开发不必写SQL加上Python方式做数据处理,中间场景支持数据处理数据探查科学计算,包括AI开发来支撑不同的业务场景。


核心能力总结以下几点

第一是开发生态更熟悉,因为相比于PYODPSData FrameMaxFrame Data Frame跟Pandas兼容性更强,用户比较容易上手,很多落地的客户迁移成本非常低,以前是本地跑Pandas,现在可以用MaxFrame Data Frame跑Pandas作业。


第二丰富的算子支持,除Demo兼容Pandas算子,因为AI开发领域要联动数据处理模型训练,也提供其他社区兼容的算子,比如xgboost训练,也支持调用兼容接口进行分布式的训练。也支持其他大模型相关的处理算子,比如文本驱虫等,也支持使用大模型的能力,对数据进行进一步的分析。算子支持比用户自己手写逻辑在大部分场景会调更好然后是更快的处理性能。相比于传统的用户本地写Pandas,基于Maxcompute底层的分拨计算能力,它运行的效率和能处理的规模都大。最后是更好的开发体验,包括notebook、自定镜像管理能力都会极大提升开发效率,降低用户在开发环境上运营环境配置上花的时间


介绍Maxcompute团队新推出的功能Object Table。在AI领域,结化数据是一方面,但更多场景是跟非结化数据去打交道,包括图片视频音频。传统方式数据都在数据湖上,用户调用API自己去操作管理原数据,包括数据更新以及不同的原数据处理的过程Check Point。Object Table的概念是提供统一的表的形式管理存储在数据湖上的非结构化数据。用户可以建一张表,指定在OSS的一个目录,可以建出这张表,可以后续通过SQL或者是Python的接口Data Frame操作非结构化数据的表,从语义上看是非常简洁的,不需要再写复杂逻辑处理非结构化数据。另外经过Object Table方式,可以做很多查询加速,包括列的裁剪查询条件过滤的下推也包括自己用的缓存加速,这些会让用户访问处理非结构化数据效率更高,最后也支持多种形态的数据写入,Object Table也同MaxFrame做深度集成开发环境比较便捷的包括Maxcomputer推出的notebook,这种都是预装MaxFrame SDK包括配好用户的身份信息,和Dataworks平台和DSW集成的notebook,包括用户用notebook写好的作业,可以支持在Dataworks里有节点,通过节点提交作业来执行,用户可以对作业进行管理和查看。


总结一下核心优势,第一是Serverless弹性计算能力,极大降低用户的运维成本和资源管理成本。第二是分布式计算能力,用户可以用类似于Pandas API方式操作非常大规模的数据,支持统一的数据管理,包括各种形态的数据,提供统一的视图操作,提升应用性和开发效率。适用这套方案客户传统的数据科学家做一些需要开箱即用的Python环境,然后进行数据探查,包括数据分析师要非常大的计算能力操生产级别的数据,AI开发者提供一站式的notebook形式,提供分布式的传统AI开发算子

 

三、MaxCompute Data + AI一站式开发体验

基于新的解决方案提到这些核心能力,开发流程是基于数据存储这一层数据层MaxFrame的内表以及OSS上的外表Paimon,可以统一的通过MaxFrame来读取,或者是SQLObject Table也支持SQL读取数据,利用提供的统一的Python API做开发,利用自定镜像降低环境依赖的问题。最后集成计算平台其他的产品,比如可以支持用户提交作业到Paimon。MaxFrame也支持离线的CPU的一些推理,最后集成可以支持其产品像Paimon的模型仓库进行模型管理和模型部署。以上是简化的模型一站开发流程。原始数据过来做数据分析处理、模型开发训练最后模型开发管理


表示如何进行多模态的数据管理,原始数据用户在OSS上面,可以通过Object Table构建一张表管理传统方式用户可能需要自己读取非结构化的数据。这是notebook的解读在notebook可以支持交互式的开发,用户自定义Python函数,对半结构化数据网页数据进行文本匹配和提取,函数写好之后,用户只要调一个apply接口,像pandas apply一样就可以分布式的执行文本提取的作业,效率是非常高的。


这里展示自定义镜像的功能,支持用户基于基础镜像构建自己的镜像,用户把自己的三方依赖,比如二进制的包放到镜像。有些用户把自己的模型文件放到镜像,可以支持镜像的高效分发,用户的自定函数就可以运行在自己的镜像,可以解决环境依赖的问题。


一个简单的例子,用MaxFrame接口高效的进行数据处理这里是离线推理的场景,量化的模型,用 Llama.cpp框架做离线的推理,原始数据文本数据存在Maxcompute的表中,这里提供注解,用户可以把模型文件提前上传到Maxcompute,注解只是资源文件会在用户的函数里面使用到,这使用Llama.cpp的框架,用户的文本基于一定的prompt进行推理,把推理后的结果存在MaxFrame表里做后续的处理,接口定义好,通过passion算子执行在表读出来的Data Frame可以做大规模的分布式的作业执行,下一个提供很丰富的算子支持,除Demo兼容传统Pandas,包括xgboost算子,也提供很多额外增强能力的算子,比如AI FunctionReshuffle


先介绍AI Function能力,很多企业在MC沉淀很多数据结构化也有,包括MC的外表的非结构化数据,观察到很多用户有使用大模型的能力Maxcompute数据进行分析,进行内容生成需求,传统的部署模型,用好各种各样的参数,设置好模型的anny Point还是比较挑战,内置一个算子结通易提供的零基的API就可以支持用户比较方便的对存在MC表里的数据进行使用大模型进行智能分析,架构提供基于MaxFrame的API提供一套AI function,底层支持没有Object Table,可以读取在数据湖上的非结构化数据,比如图片,读取出来调用在零基上面的大模型的服务,根据用户的prompt,可以通过函数的接口传进来,对这段文本进行内容生成。生成之后把一定的格式组织起来,最后存在Data Frame里,用户可以决定把Data Frame的内容是要存回MC表做后续的处理,这是内部的场景,介绍AI Function如何使用


首先有一张OSS的非结构化图片,图片存在OSS里,可以创建Object Table,把这个图片组成一张表的形式,之后用MaxFrame读取这张表生成date Frame表示层对象Data Frame表示层对象用AI function,这里传一些prompt描述车辆摄像头拍摄的照片,需要大模型描述道路状况天气、车辆情况等,并以Jison的格式输出可以支持设置温度,设置输出token树的参数到AI Function里,执行针对Object Table出来Data Frame执行AI function,执行完之后的结果这张图片,可以看到生成一个Jison格式的描述。


道路环境是主干道,路况是畅通,天气是清晨,有一些车辆描述,这些数据分析出来非常有用,它比传统的基于模型的embedding生成出来的数据要更有用。有一个Demo是把这些数据是存在MC表里面构建一套索引,用户可以支持查询天气查询车辆,可以非常精确的召回这张图片相比传统的通过向量化召回的方式,通过大模型描述会非常准确,这是AI方式的一个具体使用场景

 

四、典型客户案例

MaxFrame已经对外正式发布,很多客户成功在这边使用MaxFrame,并且得到很好的收益。第一个客户案例是一家互联网公司。类似于电商的场景,有很多海量的客户的行为数据针对商品的行为。比如浏览加入购物车购买收藏行为,这些数据存在Maxcompute的表里面,他需要针对历史的客户行为数据使用charge boost训练一个模型,训练好的模型预测用户未来一段时间是否会产生购买行为,以此做相应的推荐操作,把一些商品推荐给客户,虽然客户之前的数据在Maxcompute里面,但因为整个数据需要一些很复杂的数据清洗操作,所以Pandas写的一个本地的Pandas作业,包括使用Pandas的接口对缺失的数据进行填充,包括可以对一些数据做encoding,把字符串变成一些整式化的值做训练。


遇到的问题是本地的Pandas作业的执行的资源是有限的,因为数据规模一旦膨胀之后,本地处理不Demo,又会遇到这些问题,通过跟用户Demo解情况推荐使用MaxFrame,其实本地Panda作业使用兼容算子,经过一定的改写,成本并不高,包括Pandas处理xgboost的训练。都在集群内部运行Demo,不再受限于本地的计算资源。这里是一个对比图三个柱状图分别是不同的数据规模,最左边是800万行的用户行为数据进行的处理训练和推理的时间,纵轴是秒时间单位,中间是1600万行数据,最右边的是2400万行数据,橙色是用户以前的方案通过PLTS读取数据到本地构建Pandas的Data Frame做数据处理,xgboost的模型训练和推理需要时长,基本随着数据规模,这种是不断的线性增长,蓝色部分是切换到MaxFrame之后,经过一定的改写,可以看到时长基本是比较平稳的,尤其是用户要处理新的规模数据是比最右边图更大,本地资源膨胀没法处理,后来在MaxFrame上做很好的运行,说明像一些传统的客户,使用Pandas加上传统场景非常适合于这套解决方案,可以实现很好的资源并行和处理更大规模的计算任务。


下一个案例是大模型相关的一个客户,是做大模型训练之前做数据处理。是使用的fast test的模型对文档进行分类,但文档规模很大,有几十亿条文本规模。之前是Maxcompute的客户会用SQL写作业,很多二进依赖会在pass udf里处理,包括解决运行三方包的依赖包括要解决运行环境的依赖等,效率很低,尤其是要处理很多不同语言的文本,它有不同的模型穿起这样一套逻辑链条使用SQL非常难写,经常出错,并不支持调能力,向用户推荐使MaxFrame的框架进行处理,用户可以看到改写之后的代码提供自动打包功能,通过Python requirements注解,让用户把需要的依赖包写在注解服务就可以自动把这些依赖包下载到对应的worker里面执行,不需要用户手工上传打包操作,用户写的自定义函数也可以在Data Frame里面分布式的运行,这样的规模在本地是无法运行的,最后通过使用这套方案,用户取得非常好的作业执行时间提升


最后总结提供的Data + AI方案MaxFrame。作为自研大数据平台提供包括统一的数据管理分布式社区兼容的计算框架更好的开发体验,通过各种开发工具的提升,包括支持自定义项自动打包,提升开发体验,一站式的解决用户在Data + AI领域的开发。也通过落地一些客户取得很好的效果。

 

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3天前
|
人工智能 开发框架 算法
Qwen-Agent:阿里通义开源 AI Agent 应用开发框架,支持构建多智能体,具备自动记忆上下文等能力
Qwen-Agent 是阿里通义开源的一个基于 Qwen 模型的 Agent 应用开发框架,支持指令遵循、工具使用、规划和记忆能力,适用于构建复杂的智能代理应用。
49 10
Qwen-Agent:阿里通义开源 AI Agent 应用开发框架,支持构建多智能体,具备自动记忆上下文等能力
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
PeterCat:一键创建开源项目 AI 问答机器人,自动抓取 GitHub 仓库信息、文档和 issue 等构建知识库
PeterCat 是一款开源的智能答疑机器人,能够自动抓取 GitHub 上的文档和 issue 构建知识库,提供对话式答疑服务,帮助开发者和社区维护者高效解决技术问题。
39 7
PeterCat:一键创建开源项目 AI 问答机器人,自动抓取 GitHub 仓库信息、文档和 issue 等构建知识库
|
6天前
|
存储 人工智能 BI
Paimon 1.0: Unified Lake Format for Data + AI
本文整理自阿里云智能开源湖存储负责人李劲松在Flink Forward Asia 2024上海站主论坛的演讲。Apache Paimon于今年3月成为顶级项目,计划发布1.0版本,目标是Unified Lake Format for Data + AI,解决数据处理与AI应用中的关键问题。Paimon结合Flink打造Streaming Lakehouse解决方案,已在阿里巴巴集团及多个行业中广泛应用。来自淘天、抖音和vivo的嘉宾分享了基于Paimon + Flink技术栈的数据湖实时处理与分析实践案例。内容涵盖大数据从业者面临的痛点、Paimon的发展历程及大厂的应用经验。
266 1
Paimon 1.0: Unified Lake Format for Data + AI
|
7天前
|
存储 人工智能 数据管理
|
9天前
|
人工智能 Serverless API
aliyun解决方案评测|主动式智能导购AI助手构建
《主动式智能导购AI助手构建》方案结合百炼大模型与函数计算,提供高效智能导购服务。然而,实际体验中发现官方教程的说明顺序有待优化,特别是关于百炼大模型服务开通及API-key的使用指引不够清晰,导致初次使用者需查阅额外资料。此外,架构设计和实践原理在部署过程中逐步展现,有助于理解,但针对生产环境的具体指导还需进一步完善以满足实际需求。为优化用户体验,建议调整文档中的步骤顺序,确保新手能更顺畅地完成部署和测试。
101 27
|
2天前
|
存储 人工智能 物联网
工业公辅车间数智化节能头部企业,蘑菇物联选择 TDengine 升级 AI 云智控
在工业节能和智能化转型的浪潮中,蘑菇物联凭借其自研的灵知 AI 大模型走在行业前沿,为高能耗设备和公辅能源车间提供先进的 AI 解决方案。此次采访聚焦于蘑菇物联与 TDengine 的合作项目,通过 AI 云智控平台的建设,双方携手推动制造工厂的能源数智化管理,助力企业实现节能降碳。在本文中,我们将深入探讨蘑菇物联选择 TDengine 的原因、项目实施中的挑战与解决方案,以及合作视角下双方的未来愿景。
11 2
|
11天前
|
数据采集 机器学习/深度学习 人工智能
基于AI的网络流量分析:构建智能化运维体系
基于AI的网络流量分析:构建智能化运维体系
72 13
|
12天前
|
数据采集 人工智能 分布式计算
探索 MaxCompute MaxFrame:AI 数据预处理的高效之选
探索 MaxCompute MaxFrame:AI 数据预处理的高效之选
|
10天前
|
人工智能 容灾 关系型数据库
【AI应用启航workshop】构建高可用数据库、拥抱AI智能问数
12月25日(周三)14:00-16:30参与线上闭门会,阿里云诚邀您一同开启AI应用实践之旅!
|
2天前
|
人工智能 Cloud Native 数据管理
数据+AI融合趋势洞察暨阿里云OpenLake解决方案发布
Forrester是全球领先的市场研究与咨询机构,专注于新兴技术在各领域的应用。本文探讨如何加速现代数据管理,推动人工智能与客户业务的融合创新。面对数据标准缺乏、多云环境复杂性、新兴业务场景及过多数据平台等挑战,Forrester提出构建AI就绪的数据管理基石,通过互联智能框架、全局数据管理和DataOps、端到端数据管理能力、AI赋能的数据管理以及用例驱动的策略,帮助企业实现数据和AI的深度融合,提升业务价值并降低管理成本。

相关产品

  • 云原生大数据计算服务 MaxCompute