【Spark Summit East 2017】基于Spark ML和GraphFrames的大规模文本分析管道

简介: 本讲义出自Alexey Svyatkovskiy在Spark Summit East 2017上的演讲,主要介绍了基于Spark ML和GraphFrames的大规模文本分析管道的实现,并介绍了用于的描绘直方图、计算描述性统计的跨平台的Scala数据聚合基元——Histogrammar package,并分享了非结构化数据处理、高效访问的数据存储格式以及大规模图处理等问题。
+关注继续查看

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Alexey Svyatkovskiy在Spark Summit East 2017上的演讲,主要介绍了基于Spark ML和GraphFrames的大规模文本分析管道的实现,并介绍了用于的描绘直方图、计算描述性统计的跨平台的Scala数据聚合基元——Histogrammar package,并分享了非结构化数据处理、高效访问的数据存储格式以及大规模图处理等问题。


8fa4d786b7d8c2ee2c86a6dcdc744e251d8fd4cc

e75e4d55b2a6bf6eb01db81b8077d5ae9fc3591d

c3fbc8d916df89c224e4b6e1390b7604f729d102

0f0def8e2eeecfccc48b783513b663a637b0a01a

bde8afa5f62762aabf2bc21f5313931c9b4e0d84

eac8e679dd81752c05b2fc8e7b985ff84f715e80

6dd8651b0f1367770bf2d5b41311968f7b8595fa

5d2f20a30be241543c863e3bcca1f168fc4097a2

e4b6f9877ca6ea027c16c826e94419c2e1948290

cabbe3c97ba87492c5d91c6978ffda31086995cd

6aa21ff394598f8139f831e783988f0787af118d

f7d7a6c345b8db08d6fd8841a118acaa38c64d52

5bef7aa17a4f7e60c761898b43c0cf96f051b3a3

58477f8dfb2e14b385ecfc54cc68380935cfaefe

0c5cd071b7f733b85c4207777dae983eb5b50793

ec910ad80c7ddbe6e2c65e06f06831bad92be3b5

44b2266cc1ea1bc04f20300753d2a91868003a6b

8f9eb0567ee73c3b906ded973b4942ddd3185a89

0986737cab539cd47258a642f30f00f589686e4c

3e0fc416bc9c1dd76946a677ce421061cce68f09

相关文章
|
分布式计算 大数据 Spark
【Spark Summit East 2017】使用基于Spark的超级计算机压缩软件开发周期
本讲义出自Anthony DiBiase在Spark Summit East 2017上的演讲,主要分享了如何为了大规模地部署服务压缩软件开发周期,并分享了应对自动化决策和模型的复杂性和基于Spark 的机器学习解决方案,演讲中还对于Cray超级计算机进行了介绍。
1941 0
|
分布式计算 算法 物联网
【Spark Summit East 2017】物联网与自动驾驶汽车:使用Kafka与Spark Streaming进行同步定位和映射
本讲义出自Jay White Bear在Spark Summit East 2017上的演讲,主要介绍了在机器人和自主车辆领域公认的具有工业和研究价值的问题——同步定位和映射(SLAM)问题,演讲中分享了依靠Kafka和Spark Streaming构成的新集成框架,并使用在线算法实时地进行导航并且绘制空间地图来解决SLAM问题,并分享了在实现中面临的挑战以及为改善性能提出的优化建议。
3177 0
|
分布式计算 大数据 Spark
【Spark Summit East 2017】Clipper:一个低延迟在线预测服务系统
本讲义出自Dan Crankshaw在Spark Summit East 2017上的演讲,主要介绍了Clipper——一个通用的低延迟预测服务系统,介于最终用户应用程序和各种机器学习框架之间的Clipper模块化的体系结构来简化对于模型的跨框架部署,此外,Clipper通过引入缓存、批处理和自适应模型选择技术,减少了预测延迟并且提高了吞吐量和预测精度以及系统的鲁棒性。
3011 0
|
分布式计算 大数据 Apache
【Spark Summit East 2017】基于SparkR的可伸缩数据科学
本讲义出自Felix Cheung在Spark Summit East 2017上的演讲,R是一个非常受欢迎的科学数据平台,而Apache Spark是一个高度可扩展的数据平台,SparkR结合了两者的优点,本讲义介绍了关于SparkR的相关内容以及Spark 2.x版本的新特性。
2004 0
|
消息中间件 分布式计算 大数据
【Spark Summit East 2017】使用Spark, Kafka和Elastic Search的大规模预测
本讲义出自Jorg Schad在Spark Summit East 2017上的演讲,主要介绍了使用Spark, Kafka和Elastic Search的大规模预测的方法以及案例,并分享了分布式计算以及数据分析预测应用的架构设计思想。
2479 0
|
分布式计算 大数据 Apache
【Spark Summit East 2017】在AdTech使用Spark对于产品管道进行研发
本讲义出自Maximo Gurmendez , Saket Mengle与Sunanda Parthasarathy 在Spark Summit East 2017上的演讲,主要介绍了DataXu,其核心能力是应用数据分析来获取更好的市场,其核心是每天处理2 Petabytes数据并且每秒响应来自五大洲的210万个请求的广告拍卖的实时竞价平台,演讲中将分享使用Apache Spark 框架和Databricks的DataXu成功用例,演讲将分享整个从研发到ETL处理以及建模等工作的整个过程。
1964 0
|
分布式计算 大数据 Spark
【Spark Summit East 2017】在生产环境中的大规模数据应用中使用SparkR
本讲义出自Heiko Korndorf在Spark Summit East 2017上的演讲,R语言是一个广受平台数据科学家欢迎的应用于许多不同的领域的模型分析创建的语言,但是当这些应用程序从科学实验室迁移到大型企业的生产环境就出现了一系列新的挑战,而独立于R的Spark则是非常强大的通用计算平台,通过引入SparkR使得在生产环境下使用数据科学应用成为了可能,本次演讲将会分享两个将数据科学应用引入真实生产环境的案例。
2074 0
|
分布式计算 算法 大数据
【Spark Summit East 2017】Spark中的草图数据和T-Digest
本讲义出自Erik Erlandson在Spark Summit East 2017上的演讲,大型数据集的草图概率分布的算法是现代数据科学的一个基本构建块,草图在可视化、优化数据编码、估计分位数以及数据合成等不同的应用中都有应用之地,T-Digest是一个通用的的草图的数据结构,并且非常适合于map-reduce模式,演讲中演示了Scala原生的T-Digest草图算法实现并证实了其在Spark的可视化展示、分位数估计以及数据合成的作用。
3267 0
|
分布式计算 算法 大数据
【Spark Summit East 2017】R与Spark:如何使用RStudio的 Sparklyr和H2O的 Rsparkling分析数据
本讲义出自Nathan Stephens在Spark Summit East 2017上的演讲,Sparklyr是一个让你在Spark中进行数据分析就像在R开发环境下进行数据分析的R语言包,Sparklyr 支持处理数据帧对象的常用工具dplyr的完整后端,你可以使用dplyr将R代码翻译成Spark SQL,Sparklyr还支持MLlib,所以你可以在分布式数据集上运行分类器以及回归、聚类、决策树等机器学习算法,讲义中演示了如何使用Sparklyr和Rsparkling分析数据。
3976 0
|
机器学习/深度学习 分布式计算 大数据
【Spark Summit East 2017】使用Spark进行带有高维度标签的机器学习
本讲义出自Stefan Panayotov与Michael Zargham 在Spark Summit East 2017上的演讲,主要介绍了在Stefan Panayotov和团队使用Spark进行带有高维度标签的机器学习的过程中使用到的工具,遇到的障碍以及围绕使用Databricks尝试构建用于预测不同电视节目的收视率以及人口统计数据的客户机器学习模型所做的工作。
2195 0
推荐文章
更多