Spark

首页 标签 Spark
# Spark #
关注
9112内容
Spark修炼之道(进阶篇)——Spark入门到精通:第十五节 Kafka 0.8.2.1 集群搭建
作者:周志湖 微信号:zhouzhihubeyond 本节为下一节Kafka与Spark Streaming做铺垫 主要内容 1.kafka 集群搭建 1. kafka 集群搭建 kafka 安装与配置 到下面的地址下载:Scala 2.10 - kafka_2.10-0.8.2.1.tgz http://kafka.apache.org/downloa
【Spark Summit EU 2016】Glint: Spark的异步参数服务器
本讲义出自Rolf Jagerman在Spark Summit EU 2016上的演讲,主要介绍了Spark的异步参数服务器Glint,随着机器学习的数据量越来越多,其所生成的模型的规模也越来越大,于是就出现了模型大小已经超出了一台机器的内存的情况,于是就需要参数服务器来解决这一问题。
【Spark Summit East 2017】Spark中的草图数据和T-Digest
本讲义出自Erik Erlandson在Spark Summit East 2017上的演讲,大型数据集的草图概率分布的算法是现代数据科学的一个基本构建块,草图在可视化、优化数据编码、估计分位数以及数据合成等不同的应用中都有应用之地,T-Digest是一个通用的的草图的数据结构,并且非常适合于map-reduce模式,演讲中演示了Scala原生的T-Digest草图算法实现并证实了其在Spark的可视化展示、分位数估计以及数据合成的作用。
Databricks缓存提升Spark性能--为什么NVMe固态硬盘能够提升10倍缓存性能(原创翻译)
我们兴奋的宣布Databricks缓存的通用可用性,作为统一分析平台一部分的 Databricks 运行时特性,它可以将Spark工作负载的扫描速度提升10倍,并且这种改变无需任何代码修改。 1、在本博客中,我们将介绍这个新特性的两个主要特点:易用性和性能。
基于 Tracing 数据的拓扑关系生成原理
背景 随着互联网架构的流行,越来越多的系统开始走向分布式化、微服务化。如何快速发现和定位分布式系统下的各类性能瓶颈成为了摆在开发者面前的难题。借助分布式追踪系统的调用链路还原能力,开发者可以完整地了解一次请求的执行过程和详细信息。
【Spark Summit EU 2016】Sparklint:Spark监控,识别与优化利器
本讲义出自Simon Whitear在Spark Summit EU 2016上的演讲,主要介绍了用于监控,识别并优化低效Spark的工具Sparklint。由于成功的Spark集群的规模往往会迅速扩张,往往会出现能力与任务不匹配的情况并造成资源竞争,为了使得Spark集群的效率得到提升,所以需要Sparklint这样的监控优化工具。
里程碑 | Apache RocketMQ 正式开源分布式事务消息
近日,Apache RocketMQ 社区正式发布4.3版本。此次发布不仅包括提升性能,减少内存使用等原有特性增强,还修复了部分社区提出的若干问题,更重要的是该版本**开源了社区最为关心的分布式事务消息**,而且实现了对外部组件的零依赖。接下来,本文将详细探秘RocketMQ事务消息的设计原理以及实现机制。
Spark修炼之道(基础篇)——Linux大数据开发基础:第五节:vi、vim编辑器(一)
本节主要内容 vim编辑器的三种模式 移动光标 输入模式 修改文本 作者:周志湖 微信号:zhouzhihubeyond 网名:摇摆少年梦 1. vi编辑器的三种模式 学会使用vi编辑器是学习linux系统的必备技术之一,因为一般的linux服务器是没有GUI界面的,linux运维及开发人员基本上都是通过命令行的方式进行文本编辑或程序编写的。vi编辑器是linu
免费试用