Hadoop大数据系统的七大危险信号-阿里云开发者社区

开发者社区> 知与谁同> 正文

Hadoop大数据系统的七大危险信号

简介:
+关注继续查看

大多数企业大数据应用案例尚处于实验和试点阶段,对于少数首次在生产环境部署Hadoop系统的用户来说,最常遇到的就是扩展问题,此类问题往往导致企业因噎废食,终止大数据应用项目。

部署和扩展Hadoop系统是一件高度复杂的事情,如果用户能提前对Hadoop扩展可能会遇到的各种问题和危险信号有所了解,就能避免很多“救火”场面。

Hadoop大数据系统的七大危险信号

以下是Hadoop大数据系统出现扩展问题的七大危险信号:

危险信号一: 永远进入不了生产阶段

大数据应用从概念验证到生产环境是一个巨大的飞跃,Hadoop系统的可扩展性将面临巨大的挑战。生产环境的数据规模产生的一些问题实验环境很难碰到。另外数据本身也存在差异,概念验证阶段使用的测试数据集往往是不真实的,或者类型单一。

在进入生产环境前,大数据团队需要对Hadoop系统进行模拟真实数据规模的压力测试,此类测试能够检验大数据应用的可扩展性和容错性能,还能帮你做出更加准确的性能(资源需求)规划模型。

危险信号二: 分析计算任务不断超时

当Hadoop集群中运行的大数据应用很少或者只有一个时,一切都行云流水,按部就班,但是随着Hadoop集群的增长,数据分析任务的运行时间变得难以预测起来。一开始,只是有零星的超时现象,问题容易被忽视,但随着时间增长,超时问题会越来越严重,最后导致危机。

在危机爆发前,你必须提前采取行动,根据任务峰值调整计算性能规划模型。

危险信号三: 你开始告诉人们不要保留所有数据

危机出现的另一个征兆是数据保留时间窗口不断缩水。一开始你想保留13个月的数据进行年度分析。但是由于空间限制,你开始减少保留数据的月份数。到最后,你的Hadoop系统因为没有足够多的数据而不再是“大数据”系统。

数据保留窗口的缩水是因为存储的扩展性遇到问题,这与前面的计算性能问题类似。当你的容量预测模型出现问题时,需要尽快调整。

危险信号四: 数据科学家被“饿死”

任务负荷过重的Hadoop集群会扼杀创新,因为数据科学家们将没有足够的计算资源来开展大型任务,也没有足够的空间来存储中间结果。

性能和容量规划通常会忽略或者低估数据科学家的需求,在加之前面提到的对生产环境任务的估计不足,会严重限制数据科学家的开拓性和创新性工作。

危险信号五:数据科学家们开始查看Stack Overflow

在Hadoop系统部署的早期,你的运营团队与科学家紧密协作。运营团队随时为数据科学家提供支持。(编者按:类似串联的协作模式)但是当Hadoop 系统成功上线后,系统的运维和扩展任务就会让运营团队疲于奔命,这时候数据科学家遇到Hadoop问题就只好自己解决,例如经常去技术问答网站Stack Overflow查看问题帖子。

危险信号六:数据中心越来越热

数据中心服务器的电力都不是按服务器的功率峰值配置的,但是一个Hadoop集群运行任务的时候经常会连续“拷机”数小时,会烧坏功率不匹配的供电线路,同样的问题也存在于制冷系统中。部署Hadoop系统时请确保数据中心支持其长时间全速运行。

危险信号七:费用超支

基于IaaS的Hadoop部署,例如AWS,在支出上是失控的。一个月的费用很有可能是上个月的三倍,远远超出你的预算。

性能规划对于基于IaaS的Hadoop部署来说也是非常重要的,但是好的性能规划只是开始,如果你需要扩展IaaS上的Hadoop系统,那么你需要学习Netflix在成本监控和优化系统上投入大量资金。


原文发布时间为:2016年8月29日

本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
NLPIR大数据语义系统KGB技术引领新方向
NLPIR大数据语义智能分析平台平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,
1226 0
[喵咪大数据]Hadoop集群模式
既然是大数据无论存储和处理都需要相当大的磁盘或者是处理的资源消耗,那么单机肯定是满足不了我们的需求的,所以本节我们就来了解Hadoop的集群模式搭建,在集群情况下一同配合处理任务分发,存储分担等相关的功能进行实践.
105 0
【HaaS成功案例】基于HaaS开发框架的智能农业物联网大棚系统
【HaaS成功案例】基于HaaS开发框架的智能农业物联网大棚系统
143 0
【数道云大数据】Hadoop大数据技术有什么市场价值?2019年Hadoop大数据技术7大应用领域
由于国家对大数据、AI等等技术的关注,在多次发展规划中都提高了大数据技术,因此大数据技术对于这个时代的发展来说至关重要,大数据也正处于发展期、巩固期,基于已有的技术去完善和不断的发展大数据技术产品,满足互联网不符按发在的需求,使国家的技术产业得到进步和发展。
948 0
[喵咪大数据]Hadoop单机模式
千里之行始于足下,学习大数据我们首先就要先接触Hadoop,上节介绍到Hadoop分为Hadoop-HDFS,Hadoop-YARN,Hadoop-Mapreduce组成,分别负责分布式文件存储,任务调度,计算处理,本机我们在单机模式下把Hadoop运行起来并且简单的使用接触Hadoop相关的机制.
68 0
+关注
10077
文章
2994
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载