开发者社区问答正文

SSR--Structured Streaming for-R and Machine Learning

Felix Cheung在Spark Summit 2017上做了主题为《SSR--Structured Streaming for-R and Machine Learning》的演讲，就什么是structured streaming，Ml pipeline技术分析等进行了深入的分享。

https://yq.aliyun.com/download/598?spm=a2c4e.11154804.0.0.539d6a796Xu99r

展开

收起

福利达人 2018-06-17 17:36:38 1067 版权

阿里云 AI 助理回答

Felix Cheung在Spark Summit 2017上的演讲《SSR--Structured Streaming for R and Machine Learning》深入探讨了Structured Streaming的核心概念及其在R语言和机器学习领域的应用。Structured Streaming是Apache Spark中用于处理实时数据流的一种高级抽象，它以声明式的方式定义数据处理逻辑，并能保证端到端的Exactly Once处理语义。

Structured Streaming核心概念

声明式查询：用户通过SQL或DataFrame/Dataset API来表达数据处理逻辑，而无需关注底层执行细节。
持续查询模型：将流式数据视为无界表，对这些表应用标准的SQL查询或DataFrame转换操作，生成结果也是一个不断更新的表。
容错与一致性：内置了容错机制，确保在出现故障时能够从检查点恢复，同时支持事件时间处理和 watermark机制，以处理乱序事件并维护结果的一致性。
集成机器学习：Structured Streaming设计上无缝集成了Spark MLlib，使得构建基于实时数据流的预测模型成为可能，这对于实时分析和决策支持至关重要。

在R语言与机器学习中的应用

Ml pipeline技术：演讲可能涉及如何在Structured Streaming框架内构建机器学习管道（Pipeline），这包括特征提取、模型训练、评估及预测等环节，直接应用于实时数据流，实现模型的在线学习与更新。
R语言集成：虽然Spark原生支持Scala、Java、Python，但通过SparkR，开发者可以在R环境中利用Structured Streaming进行复杂的数据处理和分析，为熟悉R语言的数据科学家提供了便利。
案例与实践：演讲或许分享了实际案例，展示如何利用Structured Streaming结合R语言和Spark MLlib处理大规模实时数据，进行预测分析、异常检测或是用户行为分析等。

综上所述，Felix Cheung的演讲聚焦于Structured Streaming作为现代实时数据处理的强大工具，特别是在R语言环境下的应用潜力，以及其在机器学习流水线中的关键作用，为听众揭示了实时数据分析与预测的新范式。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答分类：

分布式计算流计算 Spark

问答地址：

开发者社区 > 大数据 > 问答

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

SSR--Structured Streaming for-R and Machine Learning

Structured Streaming核心概念

在R语言与机器学习中的应用

相关文章