Suro —— Netflix开源的分布式数据管道系统

简介: Netflix近日开源了一个叫做Suro的工具。Suro从多个应用服务器收集事件数据,以便发送其他数据平台(例如Hadoop和Elasticsearch)。随着Suro的开源,Netfix的这项大数据上的创新有望成为主流技术。

Netflix近日开源了一个叫做Suro的工具。Suro从多个应用服务器收集事件数据,以便发送其他数据平台(例如Hadoop和Elasticsearch)。随着Suro的开源,Netfix的这项大数据上的创新有望成为主流技术。


Suro不但在Netflix的数据管道中扮演关键角色,而且也是大公司贡献开源数据分析工具的生态环境的一个好例子。


Netflix的诸多应用每天生成数十亿的事件,Suro将它们收集起来。这些数据大部分通过Amazon S3交给Hadoop进行批处理,另一部分通过Apache Kafka传给Druid和ElasticSearch进行实时分析。Netflix的博客还提到,Netflix也在考虑使用Storm或Samza这样的实时处理引擎对事件数据进行机器学习。

image.png

熟悉大数据领域的人都知道,很多知名的技术都来源于大公司。例如Netflix 创建了Suro, LinkedIn 创建了KafkaSamza, Twitter创建了Storm,Metamarkets 创建了Druid。Suro博客也承认它是基于Apache Chukwa项目,类似 Apache的FlumeFacebook的Scribe。毫无疑问,这些项目中最出名的是源自Yahoo的的Hadoop。


我有时候会寻思为什么这些公司需要自己创造技术,而不是使用现有的技术。当然,和生活中的很多事情一样,这个问题的答案还得具体问题具体分析。例如,Storm正成为一个非常受欢迎的流处理工具,但LinkedIn觉得它们需要不同的东西,于是创造了Samza。Netflix创建了Suro,而没有使用现有技术,主要是因为该公司虽然是一个重度的云服务用户(大量使用AWS),但也使用其他工具,包括Apache Cassandra数据库。


这场技术创新的最终赢家应该会是那些采用这些主流技术的用户,那些用户不能也不必自己发明这样的技术。我们已经看到 Hadoop供应商尝试为企业用户提供StormSpark处理框架服务。还会有更多这样的例子出现。毕竟,AWS的用户太多了,他们很希望能使用类似Suro这样的技术,而不是依靠Amazon来提供

Suro项目主页

相关文章
|
5月前
|
Kubernetes 大数据 调度
Airflow vs Argo Workflows:分布式任务调度系统的“华山论剑”
本文对比了Apache Airflow与Argo Workflows两大分布式任务调度系统。两者均支持复杂的DAG任务编排、社区支持及任务调度功能,且具备优秀的用户界面。Airflow以Python为核心语言,适合数据科学家使用,拥有丰富的Operator库和云服务集成能力;而Argo Workflows基于Kubernetes设计,支持YAML和Python双语定义工作流,具备轻量化、高性能并发调度的优势,并通过Kubernetes的RBAC机制实现多用户隔离。在大数据和AI场景中,Airflow擅长结合云厂商服务,Argo则更适配Kubernetes生态下的深度集成。
639 34
|
11天前
|
存储 监控 算法
117_LLM训练的高效分布式策略:从数据并行到ZeRO优化
在2025年,大型语言模型(LLM)的规模已经达到了数千亿甚至数万亿参数,训练这样的庞然大物需要先进的分布式训练技术支持。本文将深入探讨LLM训练中的高效分布式策略,从基础的数据并行到最先进的ZeRO优化技术,为读者提供全面且实用的技术指南。
156 2
|
21天前
|
存储 算法 安全
“卧槽,系统又崩了!”——别慌,这也许是你看过最通俗易懂的分布式入门
本文深入解析分布式系统核心机制:数据分片与冗余副本实现扩展与高可用,租约、多数派及Gossip协议保障一致性与容错。探讨节点故障、网络延迟等挑战,揭示CFT/BFT容错原理,剖析规模与性能关系,为构建可靠分布式系统提供理论支撑。
148 2
|
1月前
|
机器学习/深度学习 算法 安全
新型电力系统下多分布式电源接入配电网承载力评估方法研究(Matlab代码实现)
新型电力系统下多分布式电源接入配电网承载力评估方法研究(Matlab代码实现)
|
7月前
|
SQL
【YashanDB知识库】手工迁移Doris数据到崖山分布式
【YashanDB知识库】手工迁移Doris数据到崖山分布式
|
3月前
|
数据采集 缓存 NoSQL
分布式新闻数据采集系统的同步效率优化实战
本文介绍了一个针对高频新闻站点的分布式爬虫系统优化方案。通过引入异步任务机制、本地缓存池、Redis pipeline 批量写入及身份池策略,系统采集效率提升近两倍,数据同步延迟显著降低,实现了分钟级热点追踪能力,为实时舆情监控与分析提供了高效、稳定的数据支持。
分布式新闻数据采集系统的同步效率优化实战
|
7月前
|
存储 分布式计算 负载均衡
数据分布式存储:在海量数据面前,我们如何站稳脚跟?
数据分布式存储:在海量数据面前,我们如何站稳脚跟?
1018 1
|
5月前
|
数据采集 存储 NoSQL
基于Scrapy-Redis的分布式景点数据爬取与热力图生成
基于Scrapy-Redis的分布式景点数据爬取与热力图生成
331 67

热门文章

最新文章