【Spark Summit East 2017】基于Spark ML和GraphFrames的大规模文本分析管道

简介: 本讲义出自Alexey Svyatkovskiy在Spark Summit East 2017上的演讲,主要介绍了基于Spark ML和GraphFrames的大规模文本分析管道的实现,并介绍了用于的描绘直方图、计算描述性统计的跨平台的Scala数据聚合基元——Histogrammar package,并分享了非结构化数据处理、高效访问的数据存储格式以及大规模图处理等问题。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Alexey Svyatkovskiy在Spark Summit East 2017上的演讲,主要介绍了基于Spark ML和GraphFrames的大规模文本分析管道的实现,并介绍了用于的描绘直方图、计算描述性统计的跨平台的Scala数据聚合基元——Histogrammar package,并分享了非结构化数据处理、高效访问的数据存储格式以及大规模图处理等问题。


8fa4d786b7d8c2ee2c86a6dcdc744e251d8fd4cc

e75e4d55b2a6bf6eb01db81b8077d5ae9fc3591d

c3fbc8d916df89c224e4b6e1390b7604f729d102

0f0def8e2eeecfccc48b783513b663a637b0a01a

bde8afa5f62762aabf2bc21f5313931c9b4e0d84

eac8e679dd81752c05b2fc8e7b985ff84f715e80

6dd8651b0f1367770bf2d5b41311968f7b8595fa

5d2f20a30be241543c863e3bcca1f168fc4097a2

e4b6f9877ca6ea027c16c826e94419c2e1948290

cabbe3c97ba87492c5d91c6978ffda31086995cd

6aa21ff394598f8139f831e783988f0787af118d

f7d7a6c345b8db08d6fd8841a118acaa38c64d52

5bef7aa17a4f7e60c761898b43c0cf96f051b3a3

58477f8dfb2e14b385ecfc54cc68380935cfaefe

0c5cd071b7f733b85c4207777dae983eb5b50793

ec910ad80c7ddbe6e2c65e06f06831bad92be3b5

44b2266cc1ea1bc04f20300753d2a91868003a6b

8f9eb0567ee73c3b906ded973b4942ddd3185a89

0986737cab539cd47258a642f30f00f589686e4c

3e0fc416bc9c1dd76946a677ce421061cce68f09

相关文章
|
6月前
|
分布式计算 大数据 数据处理
Apache Spark:提升大规模数据处理效率的秘籍
【4月更文挑战第7天】本文介绍了Apache Spark的大数据处理优势和核心特性,包括内存计算、RDD、一站式解决方案。分享了Spark实战技巧,如选择部署模式、优化作业执行流程、管理内存与磁盘、Spark SQL优化及监控调优工具的使用。通过这些秘籍,可以提升大规模数据处理效率,发挥Spark在实际项目中的潜力。
479 0
|
4月前
|
弹性计算 分布式计算 Serverless
全托管一站式大规模数据处理和分析Serverless平台 | EMR Serverless Spark 评测
【7月更文挑战第6天】全托管一站式大规模数据处理和分析Serverless平台 | EMR Serverless Spark 评测
23706 42
|
6月前
|
机器学习/深度学习 数据采集 分布式计算
【机器学习】Spark ML 对数据进行规范化预处理 StandardScaler 与向量拆分
标准化Scaler是数据预处理技术,用于将特征值映射到均值0、方差1的标准正态分布,以消除不同尺度特征的影响,提升模型稳定性和精度。Spark ML中的StandardScaler实现此功能,通过`.setInputCol`、`.setOutputCol`等方法配置并应用到DataFrame数据。示例展示了如何在Spark中使用StandardScaler进行数据规范化,包括创建SparkSession,构建DataFrame,使用VectorAssembler和StandardScaler,以及将向量拆分为列。规范化有助于降低特征重要性,提高模型训练速度和计算效率。
115 6
|
6月前
|
机器学习/深度学习 分布式计算 算法
【机器学习】Spark ML 对数据特征进行 One-Hot 编码
One-Hot 编码是机器学习中将离散特征转换为数值表示的方法,每个取值映射为一个二进制向量,常用于避免特征间大小关系影响模型。Spark ML 提供 OneHotEncoder 进行编码,输入输出列可通过 `inputCol` 和 `outputCol` 参数设置。在示例中,先用 StringIndexer 对类别特征编码,再用 OneHotEncoder 转换,最后展示编码结果。注意 One-Hot 编码可能导致高维问题,可结合实际情况选择编码方式。
78 6
|
6月前
|
机器学习/深度学习 分布式计算 数据处理
Spark是一个基于内存的通用数据处理引擎,可以进行大规模数据处理和分析
【5月更文挑战第2天】Spark是一个基于内存的通用数据处理引擎,可以进行大规模数据处理和分析
132 3
|
机器学习/深度学习 分布式计算 自然语言处理
Spark机器学习管道 - Estimator
Spark机器学习管道 - Estimator
|
机器学习/深度学习 数据采集 存储
初探 Spark ML 第一部分
初探 Spark ML 第一部分
121 1
|
机器学习/深度学习 分布式计算 Apache
《基于Apache Spark 的大规模分布式机器学习实践》电子版地址
基于Apache* Spark* 的大规模分布式机器学习实践
120 0
《基于Apache Spark 的大规模分布式机器学习实践》电子版地址
|
机器学习/深度学习 分布式计算 Spark
|
机器学习/深度学习 数据采集 分布式计算
Spark机器学习管道 - Pipeline
Spark机器学习管道 - Pipeline