资讯
-
一年一度的Spark Summit 2018近日如期在美国旧金山举行,今年的主题是Spark+AI。
-
Elasticsearch 6.3 发布,你们要的SQL功能来了
Elasticsearch 6.3正式发布,其中带来了很多新特性,这个版本最大的亮点莫过于内置支持SQL模块,本文将简单介绍如何在Elasticsearch中使用 SQL。
-
Tableau 收购人工智能初创公司 Empirical Systems
如今各云服务供应商开始为客户提供更多选择,包括遍布全球各地的主机、更多虚拟化实例配置以及工作负载优化机制,同时亦推出了更多对云环境内数据进行管理与分析的选项。文章分析了 IaaS公有云市场在2017年又将迎来哪些转变。
-
Netflix大数据平台的核心架构涉及三项关键服务:执行服务(Genie)、元数据服务和事件服务。这些想法并非Netflix所独有,在构建一个能够满足现在及未来规模的数据基础设施时,就需要这样的架构。其他拥有大量分布式数据集的公司也面临着类似挑战。Apache Atlas、Twitter的数据抽象层和Linkedin的WhereHows(Linkedin的数据发现服务)等等,都是为了解决类似问题而构建的,只是他们都有各自的架构选择。
技术
- 6个人如何维护上千规模的大数据集群?
本文主要介绍饿了么大数据团队如何通过对计算引擎入口的统一,降低用户接入门槛;如何让用户自助分析任务异常及失败原因,以及如何从集群产生的任务数据本身监控集群计算/存储资源消耗,监控集群状况,监控异常任务等。
-
Kerberos 是一种网络认证协议,其设计目标是通过密钥系统为客户端、服务器端的应用程序提供强大的认证服务。随着平台业务的快速增长,当前线上KDC的处理能力不足和不能可靠监控的问题被凸显的日益严重:线上单台KDC服务器最大承受QPS是多少?哪台KDC的服务即将出现压力过大的问题?为什么机器的资源非常空闲,KDC的压力却会过大?如何优化?优化后瓶颈在哪儿?如何保证监控指标的全面性、可靠性和准确性?这都是本文需要回答的问题。
-
从整个HDFS系统架构上看,NameNode是其中最重要、最复杂也是最容易出现问题的地方,而且一旦NameNode出现故障,整个Hadoop集群就将处于不可服务的状态,同时随着数据规模和集群规模的持续增长,很多小量级时被隐藏的问题逐渐暴露出来。所以,从更高层次掌握NameNode的内部结构和运行机制尤其重要