【Spark Summit EU 2016】沃森媒体分析系统:从单租户Hadoop到3000租户Spark的架构演进

简介: 本讲义出自Ruben Pulido和Behar Veliqi在Spark Summit EU 2016上的演讲,主要介绍了IBM公司的沃森媒体分析系统,介绍了该系统之前针对于单租户的架构,所需面对的多租户挑战和面对该挑战产生出的新系统架构,以及在沃森媒体分析系统架构演变过程中所获取的经验。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps

本讲义出自Ruben Pulido和Behar Veliqi在Spark Summit EU 2016上的演讲,主要介绍了IBM公司的沃森媒体分析系统,介绍了该系统之前针对于单租户的架构,所需面对的多租户挑战和面对该挑战产生出的新系统架构。


在讲义的最后Ruben Pulido和Behar Veliqi总结了从沃森媒体分析系统架构演变过程中所获取的经验,新的发展途径可能会基于Spark、Kafka和Zookeeper,并将具有健壮性的特点,能够满足延迟和吞吐量的需求,并且能够支持更多的分析。

244f942aaaa9c2bdc4bba8bab5c6e58a2ae9d92c

6a41c6465c173e7faee7470afdcfcce59aa00674

d964b6d483d5a3cba4d76594995ff1e56a8f19b7

14f182042ee10ee7b56224f4a9363344881cf352

8dd61daedabb4f734604e0a13d172450f5ae3a86

09e4e45d63ec82274f4afd3fe683b6599f662fec

3b9531ef30df2a1a4eb65095013bcd5aa6e3bfcc

c10850a01191a6bea44e3139070f65fe6257d130

9774981965896c03e596e2783e92afbff0d4c90b

fd93e65276849d3e965285c49a36e4fdce4dcf45

ac456205760d6e14913d765d639e0300342b89d1

b6a1d24ba137229a4d7b75a968a120a6ef8920ba

771903e89be35bda44b8f8f1a6b2765a52ad06f7

86059f3455495a552fe435374032ac8d8982b225

c3bd9d81bdecb2f35f262070d00e1fdd7138b60f

644d4a3c12698243f5572f028abbe91e477dc09d

9350c54bafaff486886f7ba17d60d2b5d51fbe17

fcb7b1b2bd72968c2432266f6645c93043321258

011e3abe29167ccad2e776493745ad1903dc36b2

f587473de42312ffc38016068bd028d393c9fd0f

56b54a8c13b3b1967dc8732cf4e179016c4d63f2

0699423147b812f85381a1c24342cf21f59eff2a

c74a6667c0df8bb9db043f3aa17ca3f30f8d8051

048ba0f83b04932f6af16ae60a942b2bbf48d29a

2ff9e26463097691a0dfe07acc1ce3b4ecf1babf

2e50bbc47ab270767e3d169870f3d8bef3c26405

5398248ad94d05391c132266492a0fa02d1f77f0

05d593c7a879261fc6a302b75745ce1e3b258d2f

931b9978d75fc47c6460979eed57dbd98f60308b

015eb50dae8301dda87d86517ab969d9416f999c

edd4610b356b0cee3c1414064db9a71c0d883b63

cc596e27faf942b06fde6ea69b6ee9a5cf8fd012

45ea55da1964ec66676fd63d90af398fb62bfbe1

7d03fc6b420d6ec68049be921785c5fcedc76c40

bf908c5d5ec968355924a72578be9edfcceab31a

2d9da6cbde043403552cea20797d6377b83673c9

79d8fd0af3f9cce7719b726167f6c9891200ba6c

aa86bfb2869a137870a31b5edf98f7790e036ace

fd2dacff98627aebf5af5beb9dec050a5c4ee71a

e88d0a20b061ecc6f5461c185d53c98c38266d44

ac0cb944097152fb00632866569e242b8176b57a

73d05e798630f5a093e1793167df5518398ae65f


相关文章
|
10天前
|
SQL 分布式计算 Serverless
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
|
25天前
|
SQL 运维 BI
湖仓分析|浙江霖梓基于 Doris + Paimon 打造实时/离线一体化湖仓架构
浙江霖梓早期基于 Apache Doris 进行整体架构与表结构的重构,并基于湖仓一体和查询加速展开深度探索与实践,打造了 Doris + Paimon 的实时/离线一体化湖仓架构,实现查询提速 30 倍、资源成本节省 67% 等显著成效。
湖仓分析|浙江霖梓基于 Doris + Paimon 打造实时/离线一体化湖仓架构
|
2月前
|
机器学习/深度学习 安全 算法
十大主流联邦学习框架:技术特性、架构分析与对比研究
联邦学习(FL)是保障数据隐私的分布式模型训练关键技术。业界开发了多种开源和商业框架,如TensorFlow Federated、PySyft、NVFlare、FATE、Flower等,支持模型训练、数据安全、通信协议等功能。这些框架在灵活性、易用性、安全性和扩展性方面各有特色,适用于不同应用场景。选择合适的框架需综合考虑开源与商业、数据分区支持、安全性、易用性和技术生态集成等因素。联邦学习已在医疗、金融等领域广泛应用,选择适配具体需求的框架对实现最优模型性能至关重要。
480 79
十大主流联邦学习框架:技术特性、架构分析与对比研究
|
2月前
|
测试技术 双11 开发者
一文分析架构思维之建模思维
软件里的要素不是凭空出现的,都是源于实际的业务。本文从软件设计本源到建模案例系统的介绍了作者对于建模的思维和思考。
|
2月前
|
存储 分布式计算 Hadoop
基于Java的Hadoop文件处理系统:高效分布式数据解析与存储
本文介绍了如何借鉴Hadoop的设计思想,使用Java实现其核心功能MapReduce,解决海量数据处理问题。通过类比图书馆管理系统,详细解释了Hadoop的两大组件:HDFS(分布式文件系统)和MapReduce(分布式计算模型)。具体实现了单词统计任务,并扩展支持CSV和JSON格式的数据解析。为了提升性能,引入了Combiner减少中间数据传输,以及自定义Partitioner解决数据倾斜问题。最后总结了Hadoop在大数据处理中的重要性,鼓励Java开发者学习Hadoop以拓展技术边界。
72 7
|
3月前
|
机器学习/深度学习 存储 人工智能
基于AI的实时监控系统:技术架构与挑战分析
AI视频监控系统利用计算机视觉和深度学习技术,实现实时分析与智能识别,显著提升高风险场所如监狱的安全性。系统架构包括数据采集、预处理、行为分析、实时决策及数据存储层,涵盖高分辨率视频传输、图像增强、目标检测、异常行为识别等关键技术。面对算法优化、实时性和系统集成等挑战,通过数据增强、边缘计算和模块化设计等方法解决。未来,AI技术的进步将进一步提高监控系统的智能化水平和应对复杂安全挑战的能力。
|
4月前
|
存储 SQL Apache
Apache Doris 开源最顶级基于MPP架构的高性能实时分析数据库
Apache Doris 是一个基于 MPP 架构的高性能实时分析数据库,以其极高的速度和易用性著称。它支持高并发点查询和复杂分析场景,适用于报表分析、即席查询、数据仓库和数据湖查询加速等。最新发布的 2.0.2 版本在性能、稳定性和多租户支持方面有显著提升。社区活跃,已广泛应用于电商、广告、用户行为分析等领域。
Apache Doris 开源最顶级基于MPP架构的高性能实时分析数据库
|
4月前
|
运维 NoSQL Java
后端架构演进:微服务架构的优缺点与实战案例分析
【10月更文挑战第28天】本文探讨了微服务架构与单体架构的优缺点,并通过实战案例分析了微服务架构在实际应用中的表现。微服务架构具有高内聚、低耦合、独立部署等优势,但也面临分布式系统的复杂性和较高的运维成本。通过某电商平台的实际案例,展示了微服务架构在提升系统性能和团队协作效率方面的显著效果,同时也指出了其带来的挑战。
142 4
|
4月前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
252 2
|
4月前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用,通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理,确保高可靠性和容错性;Spark则凭借其高性能和丰富的API,进行深度分析和机器学习,实现高效的批处理和实时处理。
228 1

热门文章

最新文章