暂无个人介绍
Spark/Spark Streaming transform 是一个很强的方法,不过使用过程中可能也有一些值得注意的问题。在分析的问题,我们还会顺带讨论下Spark Streaming 生成job的逻辑,从而让大家知道问题的根源。
这篇文章是2015年六月份和人聊天记录下来的。有些观点从现在看来,又可能是不准确的,然而也是蛮有意思的,聊了一下午,啥都聊了。
这篇文章算是个科普贴。如果已经熟悉Spark的就略过吧。
大家刚开始用Spark Streaming时,心里肯定嘀咕,对于一个7*24小时运行的数据,cache住的RDD,broadcast 系统会帮忙自己清理掉么?还是说必须自己做清理?如果系统帮忙清理的话,机制是啥?
这篇文章涉及的调整也是对SparkES 多维分析引擎设计 中提及的一个重要概念“shard to partition ,partition to shard ” 的实现。不过目前只涉及到构建索引那块。
MYC 主要源码来自于 Spark的yarn模块。通过对其进行改造,使得其后续可以作为一个通用的Yarn项目开发框架。目前MYC还比较简单,但不影响你基于它非常快的构建出一个基于Yarn的分布式应用。
The goal is to make processing time infinitely close to duration by reducing/increasing resource in spark streaming . And we also hope having a reas
ServiceFramework 终于有示例开源项目了,基于Yarn的容器调度系统开源了。
Spark Streaming Dynamic Resource Allocation 文档
对于RPC类的调用,我会在后文简单提及,只是endpoint不一样,内部处理逻辑还是一样的。这篇只会讲IndexRequest,其他如DeleteRequest,UpdateRequest之类的,我们暂时不涉及。
上次构建Spark 任务发布管理程序时,正好用到了两个yarn的接口。因为不想引入Yarn的client包,所以使用了他的Http接口。那么如何调用这个HTTP接口便是一个问题了
这篇文章会讲述优化的几个参数的原理,以及一些其他的思路。
很多时候,你会发现当自己作为一个旁观者,很多预言都是准确的。而当你真的去投资购买股票的时候,往往就不准了。这就是作为旁观者和当事人的区别。我觉得当有一个新的主意,如果能够满足下面的几点那么或许成功的几率会大些。
在构建即席多维查询系统时,Spark 可以和ES取得良好的互补效果。通过ES的列式存储特性,我们可以非常快的过滤出数据,并且支持全文检索,之后这些过滤后的数据从各个Shard 进入Spark,Spark分布式的进行Reduce/Merge操作,并且做一些更高层的工作,最后输出给用户。
今天我们会举个实际groupBy的例子进行剖析,让大家对ElasticSearch Aggregations 的工作原理有更深入的理解。
这篇文章重点分析让ES步入数据分析领域的Aggregation相关的功能和设计。
ElasticSearch 的体系结构比较复杂,层次也比较深,源码注释相比其他的开源项目要少。这是ElasticSearch 系列的第一篇。解析ElasticSearch的接口层,也就是Rest/RPC接口相关。我们会描述一个请求从http接口到最后被处理都经过了哪些环节。
Spark 1.6发布后,官方声称流式状态管理有10倍性能提升。这篇文章会详细介绍Spark Streaming里新的流式状态管理。
之前有说过要设计一个工作流调度器。开发一个完善的工作流调度器应该并不是一件简单的事情。但是通过Spark Streaming(基于Transfomer架构的理念),我们可能能简化这些工作。我在这块并没有什么经验,这只是一个存在于脑海中的东西。
数据的变换依赖于数据的流转,只有流转的数据才能够被变换。基于这个理念,我们提出了Transformer架构。
越来越多的程序员将会习惯这样一种开发部署模式:服务上线,无非就是打个tar.gz包,指定我要的资源。他们提供的程序,其实就是对数据进行转换,并且连接上众多已经存在的其他的服务,完成新的connection,就像大脑创建了新的突触,使得信息在新的链路上流通。更详细的抽象。他们不在知道底层还有服务器这么
之前有听过Zero-Copy 技术,而Kafka是典型的使用者。网上找了找,竟然没有找到合适的介绍文章。正好这段时间正在阅读Kafka的相关代码,于是有了这篇内容。这篇文章会简要介绍Zero-Copy技术在Kafka的使用情况,希望能给大家一定借鉴和学习样例。
本文介绍下Spark 到底是如何运行sc.TextFile(...).map(....).count() 这种代码的,从driver端到executor端。
Spark 默认采用的是资源预分配的方式。这其实也和按需做资源分配的理念是有冲突的。这篇文章会详细介绍Spark 动态资源分配原理。
Spark Streaming 的好处与坑
Spark 事件体系的中枢是ListenerBus,由该类接受Event并且分发给各个Listener。MetricsSystem 则是一个为了衡量系统的各种指标的度量系统。Listener可以是MetricsSystem的信息来源之一。他们之间总体是一个互相补充的关系。
这篇文章的主旨在于让你了解Spark UI体系,并且能够让你有能力对UI进行一些定制化增强。在分析过程中,你也会深深的感受到Scala语言的魅力。
这篇文章具体描述了Spark Tungsten project 引入的新的内存管理机制,并且描述了一些使用细节。
Tungsten-sort 算不得一个全新的shuffle 方案,它在特定场景下基于类似现有的Sort Based Shuffle处理流程,对内存/CPU/Cache使用做了非常大的优化。带来高效的同时,也就限定了自己的使用场景。如果Tungsten-sort 发现自己无法处理,则会自动使用 Sor
Spark Streaming 流式计算实战
这篇文章就是分享开发一套基于Yarn的容器调度系统的经验
这篇文章是在一个微信群里和人聊天,然后整理出来的文字。当时Hulu推出了基于Yarn的Docker调度引擎。我正好那段时间也实现了一个类似的,经过交流,发现最后的实现基本是一致的。然而业界用的较多的是Mesos,这篇文章就是为了解释为什么选择用Yarn而不是Mesos来做。
上篇写了 Spark Shuffle 内存分析后,有不少人提出了疑问,大家也对如何落文件挺感兴趣的,所以这篇文章会详细介绍,Sort Based Shuffle Write 阶段是如何进行落磁盘的 流程分析。
分布式系统里的Shuffle 阶段往往是非常复杂的,而且分支条件也多,我只能按着我关注的线去描述。肯定会有不少谬误之处,我会根据自己理解的深入,不断更新这篇文章。
开源项目不仅仅给公司带来巨大价值,同时也可以给使用者自身带来巨大价值。
这篇文章则重点会分析Direct Approach (No Receivers) 。
这篇文章只是为了阐述Spark Streaming 意外Crash掉后,如何保证Exactly Once Semantics。本来这个是可以直接给出答案的,但是我还是啰嗦的讲了一些东西。
文章重点讲的是从Kafka消费到数据进入BlockManager的这条线路的分析。
这篇文章描述Spark Streaming 的Receiver在内存方面的表现。
我们现在做内容标签的进展,其实就是在做内容画像。我们一般都是在谈用户画像,其实内容也是要画像的。如何做?怎么才算对算法有了真正的理解?
HBase 实时指标存储是我入职乐视云后对原有的实时系统改造的一部分。部分分享内容其实还处于实施阶段。架构方案设计的话应该是仁者见仁智者见智,也会有很多考虑不周的地方,欢迎大家批评指正。
猛犸提供了一个一致统一的大数据以及相关应用的部署,运维平台。
我们将大数据处理的方式和思想应用在运维工作上。即使你现在所在的公司没有数据团队支撑,也完全可以通过现有团队完成这件事情的。
互联网时代带来的机遇让大量的企业成长起来。而这些企业要想成长,初期肯定离不开技术合伙人,也就是我们说的CTO。
Spark 提供了一个新的体系,spark.ml。 相对于spark.mllib,这是一个更高层的对机器学习流程的一个抽象。你会神奇的发现这套抽象也适合服务平台的设计与建模。更让我印象深刻的是,一个合适的抽象,简直就像真理一样。本文将介绍spark.ml 的五个该概念。