【Spark Summit East 2017】Drizzle——Spark的低延迟执行

简介: 本讲义出自Shivaram Venkataraman在Spark Summit East 2017上的演讲,主要介绍了Spark的低延迟执行引擎——Drizzle,其设计目的在于对流进行处理以及进行迭代工作。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Shivaram Venkataraman在Spark Summit East 2017上的演讲,主要介绍了Spark的低延迟执行引擎——Drizzle,其设计目的在于对流进行处理以及进行迭代工作。目前Spark使用BSP计算模型,并每个任务结束时通知调度器,这就增加了额外的开销,导致导致吞吐量降低,延迟增加,而Drizzle引入了组调度,也就是一次可以对于一组的计算进行规划。


e80d14dd7173f6f3691c215d101acebef75fbf3a

ea98ada7e21c150f239848f2e626e5157fff07aa

1f65f6aedf5e0d0c002f2669f56d56a67c21bc24

a8d05dea99f52e1112375529987cca52c9be0472

51fcffc6418ee5e176ef49911a6d0aa304e60d4f

269cbc005a8072218c3e342018e31af0927fde74

8a6652b2055e06080c16be74fedab87882ff9771

118a7a01d635370171b47ca6f424808828380a89

c9a5bd5f2f2e820c85dc20bbead68ec5d1052e1c

943b95c5e892473852b073f393715e8bf1d8b4be

64729729e6fc46d896e89c181d9b893eec691b14

1edfd083b837fe12905b2405bd8b015ad38c42db

a08b4cbb8fdf7d0a54543175d2c999bb3168b557

66d35569f5faea73418ada9cdf4e310ccefc870b

6f73a8f789b1fbbaf683924c1249cd3cb7d91b11

146d999994aabdb700e7ce4eaa61752ce440512f

085d4b6de4c1a86e0d89ad0eb41bbd74ba08e6e3

b83de8e8ab9097c5416db21ee0db868a03f3ee54

f81c60550ccdf940919474e93a23c67d8e8d8eff

5411022f8321c0e716b9f7811ca1e9f5b4c9266b

d9ae4a7e6133c2a164963ca6cabaf0a59038b71c

a3c92ca2cce0c305f67dce8c68d7980e825abf34

68a3928705a8b61bf1659d98deac46a6da874d83

894da5bda3e5ae9bf0c1400740604f8a1a0c0d7c

55712c2f72a2c40e465ba977c95a5442f2cf1f7a

d827984888f6392917c87ae6d558b5a19c2b3c13

03186a5de5d5a45edec4785038e159622f462444

11f2e86327674f568f3b19c219acf26855b893f7

75cf48312360015fbf15da56ec978b2b3f875e17

59d075d96e2243ba9a87ea37f18b91b2e1565b0d

ec980c02332aa21e2f4a1e92632f813db7361364

ac72c3ad4be880161994f330a22482b78bb5a6cc

7e881779196f2ee3afb05bd2a931e4faecaec6cb

724c4971be04825525d843f0b36a74fdcab30a91

dda6fe78cdc644fa3c558cf03f6154f16ed3e36c

相关文章
|
7月前
|
分布式计算 数据处理 Apache
Spark RDD的行动操作与延迟计算
Spark RDD的行动操作与延迟计算
Spark RDD的行动操作与延迟计算
|
人工智能 分布式计算 大数据
Spark + AI Summit 2020 中文议题有奖征集
北美 Spark + AI Summit 2020 盛会在即,Apache Spark 中国技术交流社区在此诚邀各位,代表国内开发者选择您最希望听到的主题,届时社区将联合国内顶尖技术专家一一展开中文形式分享。
Spark + AI Summit 2020 中文议题有奖征集
|
人工智能 分布式计算 Spark
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
|
机器学习/深度学习 人工智能 分布式计算
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题介绍
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题
|
分布式计算 Prometheus Kubernetes
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题发布
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题
|
SQL 人工智能 缓存
Spark 10年,作者 Matei 在 Spark + AI Summit 2020 上深情回顾,Photon 引擎首次曝光
在Spark + AI Summit 2020上, Matei 先生的keynote对 Spark 10 年做了非常精彩的演讲和深情的回顾。SparkSQL 重回巅峰,在性能上大幅超越 Presto。在过去几年,我们见过了太多的 benchmark,大家都在纷纷超越 Spark。Spark 3.0 这一进展可以说大大提振了大家对 Spark 的信心,可谓及时雨。
Spark 10年,作者 Matei 在 Spark + AI Summit 2020 上深情回顾,Photon 引擎首次曝光
|
机器学习/深度学习 人工智能 分布式计算
Spark + AI summit 2019北美技术峰会华丽落幕
本次SAIC含盖了数据工程与数据科学的内容,包括AI产品化的最佳实践案例分享:超大数据规模下,利用流数据处理确保训练数据更新的时效性,完成数据质量监控,测试以及数据模型服务。也有对流行的软件框架如TensorFlow,SciKit-Learn,Keras,PyTorch,DeepLearning4J,BigDL以及Deep Learning Pipelines等,分别进行深入的主题分享探讨。
|
机器学习/深度学习 分布式计算 大数据
|
分布式计算 Hadoop 流计算
【Hadoop Summit Tokyo 2016】像搭乐高一样搭建Storm与Spark Streaming Pipelines块
本讲义出自Arun Murthy在Hadoop Summit Tokyo 2016上的演讲,主要介绍了Arun Murthy与团队的从各种流使用中学习到的最佳实践和经验,演讲的内容非常简单易懂并且非常有趣,在演讲的最后还介绍了像搭乐高一样搭建Storm与Spark Streaming Pipelines块的相应工具。
2499 0