「直播回顾」Mars应用与最佳实践

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 本文首先对Mars的概念、功能、优势进行了介绍,随后,对Mars几个典型的应用场景进行介绍,并通过两个Demo展示了在使用Mars后数据科学性能的提升,最后总结了Mars的最佳实践,让使用Mars更高效便捷。

本文主要从以下几个方面展开:

  • Mars简介
  • 典型场景
  • Demo
  • 最佳实践

一、Mars简介

Mars是统一的数据科学平台,它用来加速传统的Python数据科学技术栈,在单机中也可以用多核加速,或用分布式来加速。Mars可以部署在单机的分布式集群,或者Kubernetes和Hadoop Yarn上。

Mars整个框架构建在单机的并行和分布式的这两个调度的基础之上,它的数据科学基础包括三个核心部分,Tensor、DataFrame和Remote。而构建在这个基础之上的,是Mars Learn模块,它可以兼容Scikit-learn API,能简单地进行更大数据规模的分布式处理。此外,Mars还支持深度学习和机器学习的框架,比如能轻松运行TensorFlow、PyTorch等,而且可视化也可以在Mars上完成。除此之外,Mars还支持了丰富的数据源。

image.png

从传统Python技术栈到Mars也非常简单,比如在NumPy和Pandas里要变成Mars,只需要替换import,然后后面变为延迟执行即可。

image.png

普通的Python函数,在调用的时候变成mr.spawn来延迟这个过程,最后通过execute来并发执行,不用担心Mars是运行在单机上还是分布式运行。

image.png

而Mars上的TensorFlow大部分也一样,区别在于main函数部分的变化。最后,我们需要通过run_tensorflow_script的方式把脚本运行到Mars中。

image.png

二、典型场景

场景1. CPU和GPU混合计算

在安全和金融领域可以用Mars做CPU和GPU的混合计算,加速现有的工作流。

在这个领域,因为传统大数据平台挖掘周期长,资源紧张,需要很久来执行任务,不能达到客户需求。所以能用Mars DataFrame来加速数据处理,它可以做大规模数据排序,并帮助用户做高阶统计和聚合分析。

另外在安全领域有很多无监督学习的算法,Mars learn能加速无监督学习,同时拉起分布式深度学习计算加速现有的深度学习训练。之后,对于某些计算任务也可以利用GPU来加速。

image.png

场景2. 可解释性计算

在广告领域,在广告归因和洞察特征的解释算法中,因为本身计算量大,所以耗时很长。这种情况下,单机加速是比较困难的,基于传统大数据平台的分布式也不太灵活,但是通过Mars remote,可以很轻松地把计算分布到几十台机器上来加速,达到百倍的性能提升。

image.png

场景3. 大规模K-最邻近算法

Mars非常广泛地应用在K-最邻近算法中,因为Embedding越来越流行,它让向量表述实体非常常见。另外,Mars的NearestNeighbors算法兼容scikit-learn,它里面有暴力算法,而用户也需要暴力算法来进行大规模计算,可以通过多个worker来完成,从而让性能提升百倍。最后,Mars支持分布式的方式加速Faiss和Proxima,达到千万级别和上亿级别的规模。

image.png

三、Demo

Demo1. 分析豆瓣电影数据

我们从这个Demo看一下Mars如何加速pandas数据处理及其可视化。

image.png

开始演示之前我们需要安装Mars。这里已经创建了Jupyter,然后 pip install pymars。

image.png

安装之后,我们可以到IPython进行验证,可以看到下面的结果没有问题,接下来我们就可以进入到Jupyter notebook里。

image.png

我们开始demo。这个数据可以在GitHub地址下载,然后我们用pandas来分析电影的数据,使用ipython memory usage来查看内存使用。

image.png

我们的数据主要用到4个CSV文件,分别是movies、ratings、users和comments。

image.png

接下来根据上映日期统计有多少电影发布。这里先处理一下数据,让发行日期只取到年份,去掉日期,并对年份做聚合。

image.png

数据出来后,可以用pandas bokeh把图绘制出来,并通过交互式的方式查看。

image.png

接下来看电影评分的统计。首先把有评分的电影筛选出来,然后把豆瓣评分的数值数量从大到小进行排序。可以看到,最多的评分是6.8分。

image.png

同样,通过pandas bokeh把它画成柱状图,评分差不多呈现正态分布。

image.png

接下来做一个标签词云,看电影哪个标签词最多,这里从movies取出tags,用斜杠分割,然后max words是50。

image.png

接下来我们再对电影的Top K进行分析。首先按电影ID进行聚合,求出评价的平均值和个数。然后我们对评价个数进行过滤,从高到低,算出top20的电影。

image.png

然后做评论数据分析。因为评论是中文的,所以需要做一个分词,然后对每一句话做切分,在统计的时候进行排序。这里可以加一个进度条,在处理数据的时候方便看到进程。这个过程大概花了20分钟,所以在单机上跑大任务的时候对机器的压力还是比较大。

image.png

这是最终的词云图。

image.png

接下来我们用Mars做同样的分析任务。首先是对Mars环境进行部署,然后这里有5个worker,每个worker是8个CPU和32G内存。还是一样,我们打开内存的监控,做一些import,这里把import Pandas替换成import mars.dataframe,然后Numpy是import mars.tensor。

image.png

随后我们在SDK里来创建to mars dataframe,这一步几乎没有用到内存,最终得到的结果也和之前一样。

image.png

我们用同样的方式来分析上映日期的电影个数和电影评分。得益于Mars跟Pandas的高度兼容,我们也能用Pandas bokeh来呈现结果。

image.png

电影评论的分析也一样,但是在显示的时候,Mars只会拉取头几条和最后几条,所以客户端几乎没有内存使用。而且整个running过程只用了45秒,与之前的20分钟相比提升了几十倍性能。

image.png

接下来我们用Mars做一个地区的统计,让它有一个动态的效果。首先我们看一下刚刚计算过的已经released的电影dataframe,然后取1980-2019这几年的电影,而regions部分可能有多个,所以用斜杠分割开,最后执行排出top10地域电影。

image.png

然后我们通过bar chart race来生成动态效果。

image.png

Demo2. 豆瓣电影推荐

第二个demo我们会基于刚才豆瓣电影的数据来做一个推荐。我们首先会用TensorFlow Mars来进行训练,接着用Mars分布式KNN算法来加速召回计算。

我们先使用单机的技术栈,这个数据已经分成了训练和测试集,所以我们先to pandas把它下载到本地,接着来对用户和电影做一个label encode,把它变成一个数字,而不是字符串的值。随后我们对数据进行处理,先按照时间排序,然后按照用户进行分组,生成分组聚合的结果。

image.png

接下来开始训练,我们需要用TensorFlow训练出代表user的embedding。之前说过embedding,可以对任一实体用向量描述,所以得到embedding之后,我们在给用户推荐电影时就可以查找在这个向量空间里面跟这个用户比较接近的电影embedding。

image.png

训练后我们可以保存向量,这里的搜索规模是60万乘7万,单机花费了22分钟,但如果达到千万乘千万级别,搜索耗时要超过800小时,这是不可接受的。

image.png

接下来我们看如何用Mars来实现这一过程。首先创建一个Mars集群,这里有8个worker。然后和上面一样,对数据进行预处理,做label encode,按时间排序,按user分组生成分组聚合。

image.png

这里唯一的区别是Mars会自动推断DataFrame的结果,如果推断失败就需要用户自己提供dtypes和output type。

image.png

然后是执行和训练。这里TensorFlow可以写Python文件,不用写到notebook里。

image.png

接着我们用Mars的run tensorflow script来跑这个脚本,然后指定worker是8。可以看到,执行的时间缩小到了23分钟。同时,我们也拿到了最终的embedding,用Mars做embedding只需1分25秒,比刚刚的时间提升个十倍左右。1400万乘1400万也可以稳定在1小时左右,与单机800个小时相比提升是非常巨大的。

image.png

四、最佳实践

首先尽量不要使用to pandas和to numpy,因为这会把Mars的分布式数据变成单机的数据,失去了Mars本身的优势,除非这个操作不能用Mars实现;其次,Mars tensor、DataFrame和learn由于本身受限于API的原因需要自己写一些函数,所以可以考虑用Mars remote来加速,把操作抽象成函数;第三,Pandas的加速技巧在Mars DataFrame依然适用,比如可以使用更高效的数据类型,可以优先使用内建操作,使用apply取代循环。

image.png

以上就是今天的课程,欢迎大家继续关注后续内容。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
机器学习/深度学习 消息中间件 存储
【干货篇】bilibili:基于 Flink 的机器学习工作流平台在 b 站的应用
介绍 b 站的机器学习工作流平台 ultron 在 b 站多个机器学习场景上的应用。
【干货篇】bilibili:基于 Flink 的机器学习工作流平台在 b 站的应用
《阿里云实时数仓Hologres最佳实践合集(网页)》电子版下载地址
《阿里云实时数仓Hologres最佳实践合集(网页)》PPT
127 0
《阿里云实时数仓Hologres最佳实践合集(网页)》电子版下载地址
|
存储 分布式计算 大数据
《Databricks数据洞察:从入门到实践》电子版下载
Delta Lake 作为数据湖核心存储引擎方案能给企业带来诸多的优势。本书从技术基础介绍到场景应用实践,从大数据平台架构的演进、Delta Lake关键特性、实现原理,以及数据仓库、数据湖的优劣势,湖仓一体架构的应用等多方面解析Lakehouse架构和Delta Lake的应用优势。帮助读者入门数据湖Lakehouse以及部分spark相关应用。
99 0
《Databricks数据洞察:从入门到实践》电子版下载
|
算法 Serverless
《网易云音乐音视频算法处理的 Serverless 探索之路》电子版地址
网易云音乐音视频算法处理的 Serverless 探索之路.ppt
145 0
《网易云音乐音视频算法处理的 Serverless 探索之路》电子版地址
|
机器学习/深度学习 存储 数据采集
免费下载!《Databricks数据洞察:从入门到实践》
本书从技术基础介绍到场景应用实践,帮助读者入门数据湖Lakehouse以及部分spark相关应用。
431 0
免费下载!《Databricks数据洞察:从入门到实践》
|
存储 消息中间件 分布式计算
技术干货| 阿里云基于Hudi构建Lakehouse实践探索「内附干货PPT下载渠道」
阿里云高级技术专家王烨(萌豆)在Apache Hudi 与 Apache Pulsar 联合 Meetup 杭州站上的演讲整理稿件,本议题介绍了阿里云如何使用 Hudi 和 OSS 对象存储构建 Lakehouse,为大家分享了什么是 Lakehouse,阿里云数据库 OLAP 团队如何构建 Lakehouse,也介绍了在构建 Lakehouse 时遇到的问题和挑战,以及如何解决这些问题和挑战。
2037 0
技术干货| 阿里云基于Hudi构建Lakehouse实践探索「内附干货PPT下载渠道」
|
消息中间件 存储 编解码
网易云音乐音视频算法的 Serverless 探索之路
网易云音乐最初的音视频技术大多都应用在曲库的数据处理上,基于音视频算法服务化的经验,云音乐曲库团队与音视频算法团队一起协作,一起共建了网易云音乐音视频算法处理平台,为整个云音乐提供统一的音视频算法处理平台。本文将分享我们如何通过 Serverless 技术去优化我们整个音视频处理平台。
网易云音乐音视频算法的 Serverless 探索之路
|
Serverless 双11 云计算
免费下载《Serverless 入门与实战》,附赠10个 Serverless经典案例
Serverless 架构将引领云计算的下一个十年已成为共识,作为基础研发底座, 越来越多企业开始接受 Serverless,并将其应用于业务实践中,《Serverless 入门与实战》将带你走进云计算时代。
41261 0
免费下载《Serverless 入门与实战》,附赠10个 Serverless经典案例
|
人工智能 运维 监控
开发者社区精选直播合集(十五)| Hologres系列课程 从零开始,带你玩转一站式实时数仓Hologres
在大数据领域,Hologres一直以其超牛的功能、超高的性能,低成本的运维等优势广受好评,但是随着越来越多的企业开始使用Hologres,大家对Hologres的期待也越来越多: Hologres的功能那么多,应该从哪里开始快速入门? 文档介绍太详细,功能使用的最佳实践究竟是什么? 怎么跟大数据生态产品相结合,发挥出最优的能力? 使用注意事项有哪些?怎么避免误入“坑”?
开发者社区精选直播合集(十五)| Hologres系列课程 从零开始,带你玩转一站式实时数仓Hologres

热门文章

最新文章