【Spark Summit EU 2016】在在线学习中使用Structured Streaming流数据处理引擎

简介: 本讲义出自Ram Sriharsha与Vlad Feinberg在Spark Summit EU上的演讲,首先介绍了什么是在线学习,其实在线学习的主要特点就是在每个数据点都会更新数据参数,但是却无法再次访问之前的数据点。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps

本讲义出自Ram Sriharsha与Vlad Feinberg在Spark Summit EU上的演讲,首先介绍了什么是在线学习,其实在线学习的主要特点就是在每个数据点都会更新数据参数,但是却无法再次访问之前的数据点。在演讲中还分享了在线学习的优点以及目前分布式在线学习所面临的挑战,之后还介绍了Structured Streaming流数据处理引擎,以及基于Structured Streaming的机器学习模型。


3e4bf93ecae49ae20ee743d3f0ec68ab8de7cb0e

ba51f67b8bc161b10476c8477e3ab2ba28399a43

00c95e84be44dd0ce77fed868e81024854bfa097

6002492af7d4ecd784195d3ddb3c34c6923a1d43

f6b3aeeb5ed0873830ec49ed68cfbcc0d1fc0dbc

52f8bd8bf825206be74905bad4b4c0bb06abe5b5

2cbd06d19806cc1bd8f5c1db344772c5bb05abdd

76930f54701a931a16c2e433dd28bddc99c54361

580485c328603bf2c843d02090efae6e15b1ecba

ded0431c27ff09c27574b23f1f50a807710755c0

421fc6ba9f96b22e2f9a101fc383844ebd45e2ae

4d7fac497443129fb2ffab2485bed9be5e2e5040

7719cecff6a41847e3c2452ea404f5bd4bd3f5ab

6f9a2d29811d6066cd103626db59b057880af4c2

a773bca9f386a1a113ed8d692fba3f80448bf890

a67828f552accf01b8f35cd198e29aea4b4b9107

0fb6de887a4d1663c4f46e136c8ea25d7f9bd4bd

bbcea5f29e6998e8e10cd6388cd83020522b36a2

12090c60aa7d521a53c3db4fa706c2568d11c23e

b9e4e5a8f6dea6647fa09e8b500beb0cca192d59

a9428f088908400e09da8b756de6401eade61db4

c91ad39f446971ed7d3dd48147cd75d40d4334e7

5c60b11567462b2ef4d71ed80b78ab3d79e75cb9

aeb407142cd89f9355ac9ca19828a6fceffe7afd

8dd5f32b3b9a22df53b96840c976fc6138e9e045

8b132d3b019e06f6034095879dd90ce69326a3e2

579d92d16790d659c2bdd64c9516ef683f6cf60c

c33d097b9a563640ab29f130960e840764870d23

5b837af2cf857b51e630615aae4f139ad7c5c4f6

相关文章
|
1天前
|
分布式计算 大数据 数据处理
【Flink】Flink跟Spark Streaming的区别?
【4月更文挑战第17天】【Flink】Flink跟Spark Streaming的区别?
|
1月前
|
存储 分布式计算 Spark
实战|使用Spark Streaming写入Hudi
实战|使用Spark Streaming写入Hudi
39 0
|
3月前
|
分布式计算 Hadoop 关系型数据库
Sqoop与Spark的协作:高性能数据处理
Sqoop与Spark的协作:高性能数据处理
Sqoop与Spark的协作:高性能数据处理
|
3月前
|
消息中间件 分布式计算 Kafka
Spark与Kafka的集成与流数据处理
Spark与Kafka的集成与流数据处理
|
3月前
|
分布式计算 监控 数据处理
Spark Streaming的容错性与高可用性
Spark Streaming的容错性与高可用性
|
3月前
|
分布式计算 数据处理 Apache
Spark Streaming与数据源连接:Kinesis、Flume等
Spark Streaming与数据源连接:Kinesis、Flume等
|
3月前
|
消息中间件 分布式计算 Kafka
使用Kafka与Spark Streaming进行流数据集成
使用Kafka与Spark Streaming进行流数据集成
|
3月前
|
分布式计算 监控 数据处理
Spark Streaming的DStream与窗口操作
Spark Streaming的DStream与窗口操作
|
3月前
|
机器学习/深度学习 SQL 分布式计算
Apache Spark 的基本概念和在大数据分析中的应用
介绍 Apache Spark 的基本概念和在大数据分析中的应用
157 0
|
7天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。