开发者社区大数据文章正文

【Spark Summit East 2017】基于Spark ML和GraphFrames的大规模文本分析管道

2017-02-20 2133

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本讲义出自Alexey Svyatkovskiy在Spark Summit East 2017上的演讲，主要介绍了基于Spark ML和GraphFrames的大规模文本分析管道的实现，并介绍了用于的描绘直方图、计算描述性统计的跨平台的Scala数据聚合基元——Histogrammar package，并分享了非结构化数据处理、高效访问的数据存储格式以及大规模图处理等问题。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data；此外，通过Maxcompute及其配套产品，低廉的大数据分析仅需几步，详情访问https://www.aliyun.com/product/odps。

本讲义出自Alexey Svyatkovskiy在Spark Summit East 2017上的演讲，主要介绍了基于Spark ML和GraphFrames的大规模文本分析管道的实现，并介绍了用于的描绘直方图、计算描述性统计的跨平台的Scala数据聚合基元——Histogrammar package，并分享了非结构化数据处理、高效访问的数据存储格式以及大规模图处理等问题。

8fa4d786b7d8c2ee2c86a6dcdc744e251d8fd4cc

e75e4d55b2a6bf6eb01db81b8077d5ae9fc3591d

c3fbc8d916df89c224e4b6e1390b7604f729d102

0f0def8e2eeecfccc48b783513b663a637b0a01a

bde8afa5f62762aabf2bc21f5313931c9b4e0d84

eac8e679dd81752c05b2fc8e7b985ff84f715e80

6dd8651b0f1367770bf2d5b41311968f7b8595fa

5d2f20a30be241543c863e3bcca1f168fc4097a2

e4b6f9877ca6ea027c16c826e94419c2e1948290

cabbe3c97ba87492c5d91c6978ffda31086995cd

6aa21ff394598f8139f831e783988f0787af118d

f7d7a6c345b8db08d6fd8841a118acaa38c64d52

5bef7aa17a4f7e60c761898b43c0cf96f051b3a3

58477f8dfb2e14b385ecfc54cc68380935cfaefe

0c5cd071b7f733b85c4207777dae983eb5b50793

ec910ad80c7ddbe6e2c65e06f06831bad92be3b5

44b2266cc1ea1bc04f20300753d2a91868003a6b

8f9eb0567ee73c3b906ded973b4942ddd3185a89

0986737cab539cd47258a642f30f00f589686e4c

3e0fc416bc9c1dd76946a677ce421061cce68f09

文章标签：

大数据

分布式计算

Spark

关键词：

apache spark大规模

apache spark ml

apache spark管道

apache spark east大规模

apache spark summit

小猫吃鱼569

长梦

6月前

分布式计算大数据数据处理

Apache Spark：提升大规模数据处理效率的秘籍

【4月更文挑战第7天】本文介绍了Apache Spark的大数据处理优势和核心特性，包括内存计算、RDD、一站式解决方案。分享了Spark实战技巧，如选择部署模式、优化作业执行流程、管理内存与磁盘、Spark SQL优化及监控调优工具的使用。通过这些秘籍，可以提升大规模数据处理效率，发挥Spark在实际项目中的潜力。

长梦

479 0 0

六月的雨在钉钉

4月前

弹性计算分布式计算 Serverless

全托管一站式大规模数据处理和分析Serverless平台 | EMR Serverless Spark 评测

【7月更文挑战第6天】全托管一站式大规模数据处理和分析Serverless平台 | EMR Serverless Spark 评测

六月的雨在钉钉

23706 42 43

kng32f3vbngrm

6月前

机器学习/深度学习数据采集分布式计算

【机器学习】Spark ML 对数据进行规范化预处理 StandardScaler 与向量拆分

标准化Scaler是数据预处理技术，用于将特征值映射到均值0、方差1的标准正态分布，以消除不同尺度特征的影响，提升模型稳定性和精度。Spark ML中的StandardScaler实现此功能，通过`.setInputCol`、`.setOutputCol`等方法配置并应用到DataFrame数据。示例展示了如何在Spark中使用StandardScaler进行数据规范化，包括创建SparkSession，构建DataFrame，使用VectorAssembler和StandardScaler，以及将向量拆分为列。规范化有助于降低特征重要性，提高模型训练速度和计算效率。

kng32f3vbngrm

115 6 6

kng32f3vbngrm

6月前

机器学习/深度学习分布式计算算法

【机器学习】Spark ML 对数据特征进行 One-Hot 编码

One-Hot 编码是机器学习中将离散特征转换为数值表示的方法，每个取值映射为一个二进制向量，常用于避免特征间大小关系影响模型。Spark ML 提供 OneHotEncoder 进行编码，输入输出列可通过 `inputCol` 和 `outputCol` 参数设置。在示例中，先用 StringIndexer 对类别特征编码，再用 OneHotEncoder 转换，最后展示编码结果。注意 One-Hot 编码可能导致高维问题，可结合实际情况选择编码方式。

kng32f3vbngrm

78 6 6

vohelon

6月前

机器学习/深度学习分布式计算数据处理

Spark是一个基于内存的通用数据处理引擎，可以进行大规模数据处理和分析

【5月更文挑战第2天】Spark是一个基于内存的通用数据处理引擎，可以进行大规模数据处理和分析

vohelon

132 3 3

不懂开发的程序猿

机器学习/深度学习分布式计算自然语言处理

Spark机器学习管道 - Estimator

不懂开发的程序猿

143 0 0

预测性维护

机器学习/深度学习数据采集存储

初探 Spark ML 第一部分

预测性维护

121 1 1

auqbllxiu

机器学习/深度学习分布式计算 Apache

《基于Apache Spark 的大规模分布式机器学习实践》电子版地址

基于Apache* Spark* 的大规模分布式机器学习实践

auqbllxiu

120 0 1

游客3ash5pnjeeq2i

机器学习/深度学习分布式计算 Spark

《基于Spark的大规模机器学习在微博的应用》电子版地址

基于Spark的大规模机器学习在微博的应用

游客3ash5pnjeeq2i

84 0 0

不懂开发的程序猿

机器学习/深度学习数据采集分布式计算

Spark机器学习管道 - Pipeline

不懂开发的程序猿

163 0 0

【Spark Summit East 2017】基于Spark ML和GraphFrames的大规模文本分析管道

热门文章

最新文章

相关课程

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

【Spark Summit East 2017】基于Spark ML和GraphFrames的大规模文本分析管道

热门文章

最新文章

相关课程

相关电子书