【Spark Summit East 2017】通过Simplicity进行扩展:如何使3亿用户的聊天应用的数据工程量减少70%

简介: 本讲义出自Joel Cumming在Spark Summit East 2017上的演讲,主要分享了使得3亿用户的聊天应用的数据工程量减少70%的8件事情,Joel Cumming与他的团队将数据栈从系统和进程的复杂结合体带入到可扩展、简单并且健壮的基于Spark和Databricks平台上,该平台将会使任何一家公司丢可以超级简单地使用数据。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Joel Cumming在Spark Summit East 2017上的演讲,主要分享了使得3亿用户的聊天应用的数据工程量减少70%的8件事情,Joel Cumming与他的团队将数据栈从系统和进程的复杂结合体带入到可扩展、简单并且健壮的基于Spark和Databricks平台上,该平台将会使任何一家公司丢可以超级简单地使用数据。


064c2c8837a93c4e8020368193200360b4b65352

24f7c3b11a321d4f9a636e6af51cde6102061c3a

90ac63cf3b7f29e85db75cc9136f76793c6f52ff

46f66b5bd97677768969a8f40bf5b3379927729a

74d3c5e46e1d29165830544080dadc3ce62aa291

8a5cebbe060b638fc88f86e55362e68e7455b507

3ddf2e17762b709c347a602ab78e8c8e21d70ba7

c181b4f53e991d1256c7afe262050f61d6d9a8a3

0311dd1a2482a585780619c6be78b20526e62045

2a2032183e982ef6adbacb964ec7157419e6a093

5818414e5049e939635694421c8e9987272ee174

01c2af70646fb1777f0b06a3900425a758851b49

a73bcabdf0d51eca550578de415c41cf628dc8c0

2515bbd55e686bdad48c3108d79f390f7c0e35c6

bccfb2809216ec8b8dc7da127725eecceeeef376cbeea987f35912d4843be0d4c69cac5e2dc0c446efa2fed1a18541409e5dfa9aea6421bbc151ef97

cbeea987f35912d4843be0d4c69cac5e2dc0c446

2a2dfc27b168758dfaa6a0e7bae216439c5af279

069f7241474cf6bf289f5b0b30936bf55f72068f

1f986f526698fbb38f6bab0db4d37739586b38f8

7208213b2ddb2c32556df6050a209dbc9b7d8dc6

824f62430bbd03a60e314b8eed9bdc1a9e1d5e24

c040a342ad3967eacc9772af71b0591b95bb8aee

5fa59682aa5672dcf158f004f1b1b6453972f2c9

4da7ce12447bbfd88cf74fb54ac8716d44d934ab

004c204666d021d1a2176579e72146e4b84c0e64

53afd089511b604d80cc5cae255f27bb996b4949

9cfa22f955aef4a79f867b0868ecbaa82466b90d

相关文章
|
2月前
|
分布式计算 大数据 数据处理
Apache Spark的应用与优势:解锁大数据处理的无限潜能
【8月更文挑战第23天】Apache Spark以其卓越的性能、易用性、通用性、弹性与可扩展性以及丰富的生态系统,在大数据处理领域展现出了强大的竞争力和广泛的应用前景。随着大数据技术的不断发展和普及,Spark必将成为企业实现数字化转型和业务创新的重要工具。未来,我们有理由相信,Spark将继续引领大数据处理技术的发展潮流,为企业创造更大的价值。
|
2月前
|
存储 分布式计算 Java
|
2月前
|
分布式计算 监控 大数据
如何处理 Spark 中的倾斜数据?
【8月更文挑战第13天】
195 4
|
2月前
|
存储 缓存 分布式计算
|
2月前
|
SQL 存储 分布式计算
|
2月前
|
分布式计算 Apache 数据安全/隐私保护
流计算引擎数据问题之在 Spark Structured Streaming 中水印计算和使用如何解决
流计算引擎数据问题之在 Spark Structured Streaming 中水印计算和使用如何解决
41 1
|
2月前
|
分布式计算 资源调度 测试技术
“Spark Streaming异常处理秘籍:揭秘如何驯服实时数据流的猛兽,守护你的应用稳如泰山,不容错过!”
【8月更文挑战第7天】Spark Streaming 是 Apache Spark 中的关键组件,用于实时数据流处理。部署时可能遭遇数据问题、资源限制或逻辑错误等异常。合理处理这些异常对于保持应用稳定性至关重要。基础在于理解其异常处理机制,通过 DSC 将数据流切分为 RDD。对于数据异常,可采用 try-catch 结构捕获并处理;资源层面异常需优化 Spark 配置,如调整内存分配;逻辑异常则需加强单元测试及集成测试。结合监控工具,可全面提升应用的健壮性和可靠性。
69 3
|
3月前
|
分布式计算 大数据 Spark
Spark大数据处理:技术、应用与性能优化(全)PDF书籍推荐分享
《Spark大数据处理:技术、应用与性能优化》深入浅出介绍Spark核心,涵盖部署、实战与性能调优,适合初学者。作者基于微软和IBM经验,解析Spark工作机制,探讨BDAS生态,提供实践案例,助力快速掌握。书中亦讨论性能优化策略。[PDF下载链接](https://zhangfeidezhu.com/?p=347)。![Spark Web UI](https://img-blog.csdnimg.cn/direct/16aaadbb4e13410f8cb2727c3786cc9e.png#pic_center)
113 1
Spark大数据处理:技术、应用与性能优化(全)PDF书籍推荐分享
|
2月前
|
分布式计算 Hadoop 大数据
大数据处理框架在零售业的应用:Apache Hadoop与Apache Spark
【8月更文挑战第20天】Apache Hadoop和Apache Spark为处理海量零售户数据提供了强大的支持
51 0
|
3月前
|
分布式计算 数据处理 流计算
实时计算 Flink版产品使用问题之使用Spark ThriftServer查询同步到Hudi的数据时,如何实时查看数据变化
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。