Spark的搜索结果_热门_第12页-阿里云开发者社区

小猫吃鱼569

|

博文

【Spark Summit EU 2016】Sparklint:Spark监控，识别与优化利器

本讲义出自Simon Whitear在Spark Summit EU 2016上的演讲，主要介绍了用于监控，识别并优化低效Spark的工具Sparklint。由于成功的Spark集群的规模往往会迅速扩张，往往会出现能力与任务不匹配的情况并造成资源竞争，为了使得Spark集群的效率得到提升，所以需要Sparklint这样的监控优化工具。

# 分布式计算 # 监控 # Spark # MaxCompute # 大数据

周志湖

|

博文

Spark修炼之道（高级篇）——Spark源码阅读：第六节 Task提交

Task提交在上一节中的 Stage提交中我们提到，最终stage被封装成TaskSet，使用taskScheduler.submitTasks提交，具体代码如下： taskScheduler.submitTasks(new TaskSet( tasks.toArray, stage.id, stage.latestInfo.attemptId, s

# 分布式计算 # 调度 # Spark

中间件小哥

|

博文

里程碑 | Apache RocketMQ 正式开源分布式事务消息

近日，Apache RocketMQ 社区正式发布4.3版本。此次发布不仅包括提升性能，减少内存使用等原有特性增强，还修复了部分社区提出的若干问题，更重要的是该版本**开源了社区最为关心的分布式事务消息**，而且实现了对外部组件的零依赖。接下来，本文将详细探秘RocketMQ事务消息的设计原理以及实现机制。

# 云消息队列 MQ # 存储 # 消息中间件 # Apache # 数据库 # RocketMQ # 微服务 # 算法 # 流计算 # 分布式计算 # Spark

周志湖

|

博文

Spark修炼之道（基础篇）——Linux大数据开发基础：第五节：vi、vim编辑器（一）

本节主要内容 vim编辑器的三种模式移动光标输入模式修改文本作者：周志湖微信号：zhouzhihubeyond 网名：摇摆少年梦 1. vi编辑器的三种模式学会使用vi编辑器是学习linux系统的必备技术之一，因为一般的linux服务器是没有GUI界面的，linux运维及开发人员基本上都是通过命令行的方式进行文本编辑或程序编写的。vi编辑器是linu

# 云原生大数据计算服务 MaxCompute # SQL # 分布式计算 # Linux # 开发工具 # Spark

祝威廉

|

博文

|

来自：云原生

为什么用Yarn来做Docker容器调度引擎

这篇文章是在一个微信群里和人聊天，然后整理出来的文字。当时Hulu推出了基于Yarn的Docker调度引擎。我正好那段时间也实现了一个类似的，经过交流，发现最后的实现基本是一致的。然而业界用的较多的是Mesos,这篇文章就是为了解释为什么选择用Yarn而不是Mesos来做。

# 资源管理 # 资源调度 # 分布式计算 # 调度 # Docker # 容器 # Hadoop # 数据中心 # Java # Spark # 大数据

祝威廉

|

博文

自定义Spark Partitioner提升es-hadoop Bulk效率

这篇文章涉及的调整也是对SparkES 多维分析引擎设计中提及的一个重要概念“shard to partition ,partition to shard ” 的实现。不过目前只涉及到构建索引那块。

# 分布式计算 # Spark # 索引

jurassic_1

|

博文

创业一年来经历的技术风雨

本文来自中生代技术群的分享，BigEye科技联合创始人与技术负责人张逸将为大家分享来自于自身创业一年来经历的技术风雨。创业的路上，且行且珍惜。

# 云数据库 RDS MySQL 版 # 云解析DNS # SQL # 分布式计算 # 前端开发 # Scala # Spark

张包峰

|

博文

Spark连接Hadoop读取HDFS问题小结

# 分布式计算 # Hadoop # Java # Spark # Scala # 数据安全/隐私保护 # 算法 # Apache

xy_xin

|

博文

|

来自：大数据与机器学习

漫谈分布式计算框架

本文主要谈了一些分布式计算框架方面的心得。

# 开源大数据平台 E-MapReduce # 分布式计算 # 并行计算 # TensorFlow # 算法框架/工具 # Spark

健身不健身

|

博文

|

来自：大数据与机器学习

EMR Spark Relational Cache的执行计划重写

背景 EMR Spark提供的Relational Cache功能，可以通过对数据模型进行预计算和高效地存储，加速Spark SQL，为客户实现利用Spark SQL对海量数据进行即时查询的目的。Relational Cache的工作原理类似物化视图，在用户提交SQL语句时对语句进行分析，并选出可用的预计算结果来加速查询。

# 开源大数据平台 E-MapReduce # 云解析DNS # SQL # 存储 # 缓存 # 分布式计算 # Spark

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Spark