【Spark Summit East 2017】使用Kafka, Spark, and Kudu构建实时BI系统

简介: 本讲义出自Ruhollah Farchtchi在Spark Summit East 2017上的演讲,主要介绍了在面对处理实时流数据时的一个关键性挑战就是被捕获到的数据的格式不是查询中的最佳解析格式,那么如何构建实时的商业智能系统就成为了一个挑战,本讲义介绍了如何使用Kafka, Spark, and Kudu构建实时BI系统。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Ruhollah Farchtchi在Spark Summit East 2017上的演讲,主要介绍了在面对处理实时流数据时的一个关键性挑战就是被捕获到的数据的格式不是查询中的最佳解析格式,那么如何构建实时的商业智能系统就成为了一个挑战,本讲义介绍了如何使用Kafka, Spark, and Kudu构建实时BI系统。


4e21d7620d4d57d3a780e63912ee65d8641adf84

c41fa69b5e01b3f2f7aa1f84ebb14c85c8e4c66f

9f6373c12dff6abdec1d87f7fa6ee5a489b39c4a

b8e59a4913d20d7728694c6a5f5fc14f5cc44281

cbfd26fe5f6899007b86410a33383f586b0479c4

8fabbbd2a42cea1df62255819473d3e1da5b97f3

956a2bffe539d9816192cca113a4f265bd565599

9cafe52d81febf6b61440b0bf00e95fdf30d1108

51d5a5a91edd6f64c4f9323b2a43a113d6c1f578

85f9a0e970f1d785c568acd9e363a9c1b579e533


12d868c828e5bbd3a1cf15975b8891370edf2b32

520e573e2b3c900a1ab5ce71e8ebf766c178d2c9

1ed3ba32a2b386e03c753d5deb2d3a86b9fc6879

76c6526d847a07172178a91623cb8354ab9470fd
76e73e4ad80c5483b2cfef1197f885f69047f071

5beb9f8772316084fc06b82202f3767e993f2fe2

974b0b3d40d44f78499b9fb1b5d0a5b69dae8962

df6d1884f87026872e3dfd4b2359433de7f3aee5

e10caee9929b360192b1e57acee14a8137d2f3ee



相关文章
|
22天前
|
消息中间件 分布式计算 NoSQL
大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新
大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新
31 0
|
22天前
|
消息中间件 存储 分布式计算
大数据-103 Spark Streaming Kafka Offset管理详解 Scala自定义Offset
大数据-103 Spark Streaming Kafka Offset管理详解 Scala自定义Offset
59 0
|
22天前
|
消息中间件 分布式计算 Kafka
大数据-102 Spark Streaming Kafka ReceiveApproach DirectApproach 附带Producer、DStream代码案例
大数据-102 Spark Streaming Kafka ReceiveApproach DirectApproach 附带Producer、DStream代码案例
46 0
|
3月前
|
存储 分布式计算 资源调度
Hadoop生态系统概览:从HDFS到Spark
【8月更文第28天】Hadoop是一个开源软件框架,用于分布式存储和处理大规模数据集。它由多个组件构成,旨在提供高可靠性、高可扩展性和成本效益的数据处理解决方案。本文将介绍Hadoop的核心组件,包括HDFS、MapReduce、YARN,并探讨它们如何与现代大数据处理工具如Spark集成。
155 0
|
3月前
|
分布式计算 Java Linux
【Deepin 20系统】Linux 系统安装Spark教程及使用
在Deepin 20系统上安装和使用Apache Spark的详细教程,包括安装Java JDK、下载和解压Spark安装包、配置环境变量和Spark配置文件、启动和关闭Spark集群的步骤,以及使用Spark Shell和PySpark进行简单操作的示例。
54 0
|
5月前
|
机器学习/深度学习 分布式计算 算法
基于Spark中随机森林模型的天气预测系统
基于Spark中随机森林模型的天气预测系统
113 1
|
5月前
|
消息中间件 分布式计算 关系型数据库
使用Apache Spark从MySQL到Kafka再到HDFS的数据转移
使用Apache Spark从MySQL到Kafka再到HDFS的数据转移
|
5月前
|
消息中间件 分布式计算 Kafka
利用Spark将Kafka数据流写入HDFS
利用Spark将Kafka数据流写入HDFS
|
6月前
|
消息中间件 分布式计算 Kafka
Spark与Kafka的集成与流数据处理
Spark与Kafka的集成与流数据处理
|
分布式计算 大数据 Spark
【Spark Summit East 2017】基于Elastic Spark Streaming的自动伸缩系统
本讲义出自PhuDuc Nguyen在Spark Summit East 2017上的演讲,主要介绍了不支持开箱即用的在不中断实时Spark Streaming任务的同时能够添加或删除节点的功能。并介绍了Elastic Spark Streaming任务能够自动调整对于数据流的体积和流量的需求。
1718 0

热门文章

最新文章