分布式Python计算服务MaxFrame使用心得

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 大家好,我是V哥。MaxFrame是阿里云自研的分布式计算框架,专为Python开发者设计,支持大规模数据处理和AI模型开发。MaxFrame适用于快速进行数据处理、数据科学和交互式探索,支持按量付费及包年包月两种计费方式。通过两个案例(金融数据清洗和大语言模型预处理),展示了MaxFrame在大规模数据处理中的显著性能提升。安装MaxFrame客户端只需简单几步,轻松开启高效数据处理之旅。欢迎关注威哥爱编程,一起交流技术心得!

大家好,我是 V 哥,MaxFrame是由阿里云自研的分布式计算框架,专为Python开发者设计,以支持大规模数据处理和AI模型开发。以下是MaxFrame的一些核心特性和优势:

  1. Python编程接口和Pandas兼容性:MaxFrame支持Python编程接口,并完全兼容Pandas接口。这意味着Python开发者可以使用他们熟悉的Pandas语法来进行分布式数据处理,而无需关心底层的分布式计算细节。

  2. 自动分布式计算:MaxFrame能够自动将计算任务分布到MaxCompute的计算资源上,实现分布式计算。这使得开发者可以利用MaxCompute的海量计算资源,而不受本地资源大小的限制。

  3. 高效的数据处理能力:MaxFrame直接在MaxCompute集群中进行数据分布式计算,无需将数据拉取至本地处理,从而消除了不必要的本地数据传输,提高了作业执行效率。

MaxFrame适用于需要开箱即用的Python环境,并迅速进行数据处理、数据科学和交互式数据探索的开发人员。它也适用于大规模数据分析与处理,以及Data+AI开发,满足从数据处理到AI模型训练与部署的需要。MaxFrame按照作业计算资源使用量进行计费,支持按量付费及包年包月两种付费方式。

下面 V 哥通过两个案例来演示具体的操作。

使用案例

1. 分布式Pandas处理

在处理大规模数据集时,传统的Pandas会面临内存瓶颈和计算效率低下的问题。MaxFrame通过分布式计算,显著提升了数据处理的速度。例如,在对一个包含数百万行数据的金融数据集进行清洗和特征工程时,使用传统Pandas耗时数小时,而采用MaxFrame后,处理时间缩短至几十分钟,兄弟不要着急,后面结合实现来介绍。

2. 大语言模型数据处理

MaxFrame在大语言模型数据处理场景中表现出色。它提供了丰富的算子和工具,能够高效地对大规模文本数据进行预处理,如分词、去噪、词向量计算等。使用MaxFrame处理用于训练语言模型的大规模文本语料库,能够快速完成数据的清洗和转换,为模型训练提供高质量的数据,从而显著缩短模型的训练周期,提高模型的性能。

这是两个典型的业务场景,要使用 MaxFrame 来完成这个操作,我们先要把MaxFrame客户端装上。

万事具备,先装MaxFrame客户端

1. 安装MaxFrame客户端

您可以通过PIP安装MaxFrame客户端:

pip install maxframe
AI 代码解读

或者从源代码安装:

pip install git+https://github.com/aliyun/alibabacloud-odps-maxframe-client.git
AI 代码解读

确保安装成功后,可以通过以下命令检查:

python -c "import maxframe.dataframe as md"
AI 代码解读

如果无返回值或报错信息,则表示安装成功。

2. 初始化MaxFrame会话

在代码的入口处,通过调用new_session接口初始化整个作业。后续的数据处理将借助所构建的会话对象与后端服务进行交互,以执行各种数据操作:

import os
from maxframe import new_session
from odps import ODPS

o = ODPS(
    os.getenv('ALIBABA_CLOUD_ACCESS_KEY_ID'),
    os.getenv('ALIBABA_CLOUD_ACCESS_KEY_SECRET'),
    project='your-default-project',
    endpoint='your-end-point'
)

session = new_session(o)
AI 代码解读

3. 读取和写入MaxCompute表

使用MaxFrame读取MaxCompute表中的数据,并进行处理:

import maxframe.dataframe as md

df = md.read_odps_table("source_table")
df["A"] = "prefix_" + df["A"]
md.to_odps_table(df, "prefix_source_table").execute()
AI 代码解读

4. 执行数据处理

MaxFrame提供了一系列兼容Pandas的API接口,覆盖了数据计算、投影、过滤及排序等多种操作。例如,进行简单的数据加法:

df = md.DataFrame({
   'angles': [0, 3, 4],
                   'degrees': [360, 180, 360]},
                  index=['circle', 'triangle', 'rectangle'])
df = df + 1
AI 代码解读

5. 销毁MaxFrame会话

完成数据处理后,销毁MaxFrame会话:

session.destroy()
AI 代码解读

根据搜索结果,以下是两个具体的MaxFrame在处理大规模数据集时的应用案例:

案例1:金融数据集的清洗和特征工程

场景描述
在这个案例中,我们使用MaxFrame来处理一个包含数百万行数据的金融数据集,进行数据清洗和特征工程。传统Pandas在处理这样大规模的数据集时会面临内存瓶颈和计算效率低下的问题,而MaxFrame通过分布式计算显著提升了数据处理的速度。

实现步骤

  1. 初始化MaxFrame会话

    from odps import ODPS
    from maxframe.session import new_session
    import os
    
    o = ODPS(
        os.getenv('ALIBABA_CLOUD_ACCESS_KEY_ID'),
        os.getenv('ALIBABA_CLOUD_ACCESS_KEY_SECRET'),
        project='your-default-project',
        endpoint='your-end-point',
    )
    session = new_session(o)
    
    AI 代码解读
  2. 读取MaxCompute表中的数据

    sales = md.read_odps_table("sales_maxframe_demo", index_col="index")
    product = md.read_odps_table("product_maxframe_demo", index_col="product_id")
    
    AI 代码解读
  3. 使用merge方法连接两张数据表

    df = sales.merge(product, left_on="product_id", right_index=True)
    df = df[["product_name", "year", "price"]]
    
    AI 代码解读
  4. 执行计算并获取结果

    print(df.execute().fetch())
    
    AI 代码解读
  5. 保存结果到MaxCompute表中,并销毁Session

    md.to_odps_table(df, "result_df", overwrite=True).execute()
    session.destroy()
    
    AI 代码解读

性能对比

在sales表数据量为5000W条(size:1.96 GB),product表数据量为10W条(size:3 MB)的数据样本中进行运算,本地Pandas耗时65.8秒,而MaxFrame耗时22秒,是不是很牛 X。

案例2:大语言模型数据处理

场景描述
在大语言模型数据处理场景中,MaxFrame提供了丰富的算子和工具,能够高效地对大规模文本数据进行预处理,如分词、去噪、词向量计算等。使用MaxFrame处理一个用于训练语言模型的大规模文本语料库,能够快速地完成数据的清洗和转换,为模型训练提供高质量的数据,从而显著缩短了模型的训练周期,提高了模型的性能,V 哥是这么做的:

实现步骤

  1. 初始化MaxFrame会话

    from odps import ODPS
    from maxframe.session import new_session
    import os
    
    o = ODPS(
        os.getenv('ALIBABA_CLOUD_ACCESS_KEY_ID'),
        os.getenv('ALIBABA_CLOUD_ACCESS_KEY_SECRET'),
        project='your-default-project',
        endpoint='your-end-point',
    )
    session = new_session(o)
    
    AI 代码解读
  2. 读取MaxCompute表中的数据

    text_data = md.read_odps_table("text_data_maxframe_demo", index_col="index")
    
    AI 代码解读
  3. 进行文本预处理

    • 分词、去噪等操作可以根据具体需求使用MaxFrame提供的算子或自定义UDF函数实现。
  4. 执行计算并获取结果

    processed_data = text_data.execute().fetch()
    
    AI 代码解读
  5. 保存处理后的数据到MaxCompute表中,并销毁Session

    md.to_odps_table(processed_data, "processed_text_data", overwrite=True).execute()
    session.destroy()
    
    AI 代码解读

上面是关键代码片段,并进行脱敏处理,兄弟只需要根据自身情况修改即可,我们可以看到,在金融数据分析和大语言模型数据处理方面,MaxFrame通过分布式计算显著提高了数据处理的速度和效率。

小结

为了优化MaxFrame在大型数据集上的性能,总结几点关键问题:

  1. 数据分区:将大型数据集分成较小的分区,以便在查询时只需处理与请求相关的分区,减少数据扫描范围,提高查询性能。

  2. 数据压缩:使用压缩技术减小数据存储空间和提高I/O效率,减少磁盘I/O操作,提高查询性能。

  3. 分布式Pandas处理:MaxFrame支持分布式Pandas处理,通过简单的代码修改和配置,能够轻松地将数据分割到多个节点上进行并行计算,显著提升了数据处理的速度。

  4. 执行任务并查看执行结果:通过execute()方法触发数据处理任务,并使用fetch()方法获取部分执行结果数据,相比于Pandas,MaxFrame允许有效地处理大规模数据集,并通过延迟计算模式来减少不必要的数据传输。

好了,今天的内容就到这里,欢迎关注威哥爱编程,广交天下好友,交流技术心得,老友,加个关注呗。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
打赏
0
0
0
0
113
分享
相关文章
产品测评 | 上手分布式Python计算服务MaxFrame产品最佳实践
MaxFrame是阿里云自研的分布式计算框架,专为大数据处理设计,提供高效便捷的Python开发体验。其主要功能包括Python编程接口、直接利用MaxCompute资源、与MaxCompute Notebook集成及镜像管理功能。本文基于MaxFrame最佳实践,详细介绍了在DataWorks中使用MaxFrame创建数据源、PyODPS节点和MaxFrame会话的过程,并展示了如何通过MaxFrame实现分布式Pandas处理和大语言模型数据处理。测评反馈指出,虽然MaxFrame具备强大的数据处理能力,但在文档细节和新手友好性方面仍有改进空间。
|
2月前
|
云产品评测|分布式Python计算服务MaxFrame获奖名单公布!
云产品评测|分布式Python计算服务MaxFrame获奖名单公布!
MaxFrame 产品评测:大数据与AI融合的Python分布式计算框架
MaxFrame是阿里云MaxCompute推出的自研Python分布式计算框架,支持大规模数据处理与AI应用。它提供类似Pandas的API,简化开发流程,并兼容多种机器学习库,加速模型训练前的数据准备。MaxFrame融合大数据和AI,提升效率、促进协作、增强创新能力。尽管初次配置稍显复杂,但其强大的功能集、性能优化及开放性使其成为现代企业与研究机构的理想选择。未来有望进一步简化使用门槛并加强社区建设。
206 7
云产品评测|分布式Python计算服务MaxFrame | 在本地环境中使用MaxFrame + 基于MaxFrame实现大语言模型数据处理
本文基于官方文档,介绍了由浅入深的两个部分实操测试,包括在本地环境中使用MaxFrame & 基于MaxFrame实现大语言模型数据处理,对步骤有详细说明。体验下来对MaxCompute的感受是很不错的,值得尝试并使用!
85 1
MaxCompute MaxFrame评测 | 分布式Python计算服务MaxFrame(完整操作版)
在当今数字化迅猛发展的时代,数据信息的保存与分析对企业决策至关重要。MaxCompute MaxFrame是阿里云自研的分布式计算框架,支持Python编程接口、兼容Pandas接口并自动进行分布式计算。通过MaxCompute的海量计算资源,企业可以进行大规模数据处理、可视化数据分析及科学计算等任务。本文将详细介绍如何开通MaxCompute和DataWorks服务,并使用MaxFrame进行数据操作。包括创建项目、绑定数据源、编写PyODPS 3节点代码以及执行SQL查询等内容。最后,针对使用过程中遇到的问题提出反馈建议,帮助用户更好地理解和使用MaxFrame。
云产品评测|分布式Python计算服务MaxFrame
云产品评测|分布式Python计算服务MaxFrame
99 2
Python 高级编程与实战:深入理解性能优化与调试技巧
本文深入探讨了Python的性能优化与调试技巧,涵盖profiling、caching、Cython等优化工具,以及pdb、logging、assert等调试方法。通过实战项目,如优化斐波那契数列计算和调试Web应用,帮助读者掌握这些技术,提升编程效率。附有进一步学习资源,助力读者深入学习。
[oeasy]python081_ai编程最佳实践_ai辅助编程_提出要求_解决问题
本文介绍了如何利用AI辅助编程解决实际问题,以猫屎咖啡的购买为例,逐步实现将购买斤数换算成人民币金额的功能。文章强调了与AI协作时的三个要点:1) 去除无关信息,聚焦目标;2) 将复杂任务拆解为小步骤,逐步完成;3) 巩固已有成果后再推进。最终代码实现了输入验证、单位转换和价格计算,并保留两位小数。总结指出,在AI时代,人类负责明确目标、拆分任务和确认结果,AI则负责生成代码、解释含义和提供优化建议,编程不会被取代,而是会更广泛地融入各领域。
48 28
Python 高级编程与实战:深入理解数据科学与机器学习
本文深入探讨了Python在数据科学与机器学习中的应用,介绍了pandas、numpy、matplotlib等数据科学工具,以及scikit-learn、tensorflow、keras等机器学习库。通过实战项目,如数据可视化和鸢尾花数据集分类,帮助读者掌握这些技术。最后提供了进一步学习资源,助力提升Python编程技能。